¿Por qué te interesa saber qué es el dirty data?

El dirty data es información errónea que forma parte de big data (las grandes masas de macrodatos), y que si no llevas a cabo un proceso de limpieza de datos o data cleaning puede generarte grandes problemas.

En esta entrada vamos a mostrarte por qué es preciso prestar atención al dirty data y saber gestionarlo. Debes saber que los datos no siempre son sinceros, pero que existen métodos para incrementar su fiabilidad.

Qué es el dirty data

El dirty data es el resultado de errores, erratas y mentiras. En la recopilación de información suceden estos tres inconvenientes, a veces alguien se equivoca cubriendo un formulario, ya sea por un error de entendimiento o del teclado.

Muchas veces los usuarios prefieren no contestar la verdad. Dar un correo electrónico falso, nombre falso, fecha de nacimiento falsa…No siempre con mala intención. Puede ser que dejes campos en blanco por descuido, o que vayas apurado que prefieras inventártelo antes que revelar tu identidad real tal y como aparece en tu DNI.

El deseo de seguridad y anonimato genera gran parte del dirty data.

Dirty data en marketing online

Si no somos conscientes de este problema y tomamos medidas, toda nuestra estrategia de marketing online puede fracasar. Al fin y al cabo, no podemos tomar decisiones basándonos en información errónea. Si no queremos que esas decisiones también estén equivocadas.

Por ejemplo, si una gran cantidad de usuarios no escribe correctamente su edad los resultados estarán alejados de la realidad. Si muchos usuarios dicen que tienen 70 años, cuando en realidad no llegan ni a los 30, podríamos acabar haciendo una campaña enfocada a un público de mayor edad que el real.

Imagínate pensar que la valoración de tu web es la máxima, cuando en realidad han contestado eso rápidamente solo para descargarse el libro electrónico (ebook) que regalas con la suscripción. O invertir en productos y servicios que los datos parecerían indicar que tienen una cierta demanda, cuando en realidad la misma no es significativa.

También es una pérdida de tiempo enviar correos electrónicos a cuentas que no funcionan o crear contenido que nadie desea. La lista de calamidades que nos pueden suceder si no somos conscientes del dirty data es interminable.

Recuerda que el marketing online es el proceso de ventas en el mundo digital, donde el análisis de datos es la única brújula que nos permite saber si vamos bien. Si la brújula no funciona correctamente nos podemos perder. El marketing digitalmarca la relación con tu público, es cada vez más importante y resulta necesario cuidarlo al máximo para obtener los resultados deseados.

Dirty data y data cleaning

Por suerte, todo tiene solución. Lo primero es que tu diseño sea el mejor para prevenir. Evita la suciedad y te ahorrarás limpiar. Además, existen varios trucos que te vendrán muy bien: evita las escalas del 0 al 10 (hay una tendencia a elegir el 5 sin leer), añade preguntas de prueba para controlar (puedes pedir casi lo mismo en dos apartados diferentes, y si en uno se responde una cosa y en otro la contraria, sabes que no se está diciendo la verdad), elimina cuestiones confusas que no se entiendan bien… Con todo, lo cierto es que por muy bueno que sea tu diseño siempre habrá quien manche la verdad. Por eso te conviene tener una estrategia de data cleaning antes de comenzar con los análisis.

No es una tarea sencilla, pero vale la pena. Es más, es un trabajo imprescindible para operar con big data. Se trata de revisar los datos existentes en busca de errores; en ocasiones, parte de las correcciones pueden automatizarse, como convertir una errata en lo que pretendía ser. Pero también debes asumir que puedes perder una parte de la información, a cambio no contaminarás los datos valiosos.

El big data está revolucionando el mundo, tanto las ventas en línea como otros ámbitos. Conserva algunas de las limitaciones de su antecesor: la estadística. Y si no capturas los datos de forma correcta, a través de una encuesta, un formulario o cualquier otro medio, no estarás aprovechando la oportunidad.

Toda técnica requiere cierto conocimiento para aplicarse con eficacia, y no es diferente en el caso del dirty data.