Gobierno de Datos (Inventario de Datos)
En general, lo relacionado con las tecnologías de la información, de pronto, toma formas y comportamientos tan "biológicos" que espanta. Hace muchos años que sabemos de los "virus informáticos" estos programas que parecen cobrar vida con la única intención de joder.
Pero, también hemos visto, con sorpresa, cómo algoritmos de aprendizaje de pronto se vuelven racistas o discriminatorios (Ejemplos imperdibles en el libro "Weapons of Math Destruction").
Con estos antecedentes, no podemos dejar de contemplar a los datos generados por las empresas como un caldo de cultivo biológico donde pueden proliferar toda clase de parásitos, bacterias, hongos o, cualquier clase de organismo capaz de digerirlos y convertirlos en CO2 disperso en la atmósfera.
El problema radica entonces en buscar un mecanismo que, igual que en la naturaleza, evite la extinción de la especie en manos de sus depredadores. Este mecanismo no es otro que el reemplazo generacional. Entiendo que, en éste punto, más de una persona reclamará, no hemos acabado de implantar el sistema y ya hay que cambiarlo. Reviraré diciendo que no, el reemplazo generacional no es así de rápido pero que, invariablemente, la información tiene un ciclo vital y que, más que oponerse a éste, hay que transitar con él.
Igual que en la naturaleza, el relevo generacional no implica la desaparición de la especie, sino del individuo y en el caso particular de los datos empresariales, podemos pensar que, los individuos son los atributos de una tabla y la especie es la masa de datos completa.
Visto de ésta forma, es fácil identificar que partes de los datos empiezan a podrirse.
Durante un proceso de inventario de datos uno puede encontrar datos que, sospechosamente se repiten en un comportamiento fuera de lo esperado, a veces esto se debe a el uso de valores simbólicos que, si bien, para un usuario o grupo de usuarios tiene el valor adecuado, puede interferir un proceso de análisis estadístico haciendo que aparezcan tendencias que describen un fenómeno distinto al que se pretende descubrir.
También están, desde luego, los datos inconsistentes, esos que tienen valores no compatibles con la información que pretenden controlar como por ejemplo un número negativo de descendientes.
Durante un inventario de datos, es frecuente encontrar datos de prueba en ambientes de producción, en donde hay registros espurios inflando las cifras de análisis o sesgando los resultados.
Una de las prácticas esenciales de un buen gobierno de datos es el inventario de datos, ésta práctica es fundamental para permitir y controlar el relevo generacional de los datos.