miércoles, 15 de mayo de 2019

Entender la data

A la mayoría nos llama la atención entender como funcionan la inteligencia artificial o los sistemas automatizados que utilizan machine learning. Machine learning es un sistema basado en patrones que va encontrando en los datos brindados (data) que se le van entregando conforme el tiempo. El tiempo hace que el sistema realice mejores patrones debido que toma en cuenta la temporalidad, si esta configurada.

Lo impresionante es que Machine Learning se ajusta a un entorno cambiante, adaptándose a los nuevos datos del último período de tiempo. Sin embargo es importante entender que no es magia sino un algoritmo que aprende en sentido a los datos proporcionados. Debido que el algoritmo no puede intuir que información es buena o mala para trabajar correctamente, la clave está en los datos de entrada.

Los datos de entrada deben ser selecionados de las fuentes necesarias, seleccionar los datos necesarios dependiendo a las variables a analizar y eliminar los datos que no tengan toda la información. Las variables deben de estar definidas para no utilizar información incorrecta.

El proceso completo desde la captura de los datos hasta la predicción, sería como cocinar un plato. Los ingredientes serían los datos (cantidad de datos e información necesaria), y la receta el algoritmo: si los ingredientes están vencidos o en mal estado, por buena receta el plato no saldrá bien o como debería. De igual manera es la calidad de los datos, incluso el mejor algoritmo nos dará unas predicciones de baja calidad.

Comúnmente los datos recopilados están en diferentes repositorios: CRM de la empresa, bases de datos, Excel, redes sociales, ERP, POS, listas de correos, informes de transacciones u operaciones ó en la cabeza de alguien. Frecuentemente están sucios los datos, tienen errores (ñ, acentos, símbolos innecesarios ó información faltante en alguna variable necesaria). Por lo cual hay que limpiar la data seleccionada por medio de: igualar formatos, descartar campos, corregir errores ortográficos, formatos de fecha, eliminar datos duplicados ó borrar registros innecesarios. La recolección y preparación de los datos toma el 80-90% del tiempo del proyecto.