Curso de Big Data
Este curso de Big Data te permitirá conocer y comprender qué es, cómo se trabaja y qué mejoras...
¿Quieres saber qué es el análisis de datos, su propósito e importancia actual, así como los tipos predictivo, descriptivo y prescriptivo? Sigue leyendo este interesante artículo para aclarar dudas y saber más al respecto.
La razón por la que cada vez más empresas están invirtiendo en personal, infraestructura y equipo para procesar grandes volúmenes de datos, es por el gran valor e impacto que genera para su proceso estratégico de toma de decisiones, el poder transformar los datos sobre productos o servicios en información clave, identificar patrones, tendencias, desarrollar nuevos nichos de mercado, realizar predicciones de preferencias y necesidades de los clientes, aprender más sobre su negocio para ser capaces de innovar, entre otros innumerables beneficios.
Las empresas actuales emplean el análisis de datos de forma diaria mediante diferentes plataformas de Business Intelligence y Big Data para diseñar procesos automatizados que les faciliten procesar, visualizar y monitorear sus datos relevantes.
Partiendo de la definición del término análisis que se refiere al estudio detallado de algo, separándolo en elementos para descubrir su composición, podemos decir que el análisis de datos es un proceso que busca examinar un conjunto de variables aleatorias para conocerlo en detalle y transformarlo en información concreta a través de una serie de procesos y técnicas ejecutadas en pasos secuenciales. Estos pasos, en su mayoría automatizados, permiten:
Recopilar y extraer datos de múltiples fuentes,
Clasificarlos, almacenarlos y depurarlos dentro un repositorio,
Medirlos y modelarlos con una serie de modelos matemáticos,
Evaluar, interpretar y visualizar los resultados obtenidos.
Por décadas, el análisis de datos, conocido también como analítica de datos, ha estado presente en las empresas integrado a los procesos de inteligencia de negocios (BI).
Desde entonces, los hallazgos derivados de los análisis, eran útiles para que el equipo de BI llegara a conclusiones racionales sobre los sucesos ocurridos y establecer una base para la toma de decisiones.
Con la aparición del Big Data, se incorporan técnicas avanzadas al análisis de datos para experimentar con los macrodatos y descubrir nuevas preguntas - respuestas, es decir, el enfoque no se centra solo al hallazgo de respuestas a preguntas con los datos históricos.
Lee este artículo para descubrir más sobre Qué es Big Data. Adicionalmente, si quieres aprender más, puedes inscribirte en un Curso de Big Data
El propósito principal del análisis de datos es descubrir información significativa que se oculta tras los datos en bruto de un data lake de cifras, etiquetas, imágenes, etc. a fin de dar respuestas coherentes a preguntas que teníamos en mente, pero también a preguntas totalmente desconocidas.
Con este aporte extra de inteligencia generada gracias a los resultados de la analítica de datos, las empresas buscan estar mejor informadas a la hora de tomar decisiones y encontrar soluciones a sus problemas.
Antes de dar paso al análisis de datos, independientemente de la metodología que elijamos, es recomendable que:
Establezcamos un objetivo claro y específico del análisis, es decir, cuál es la información que se pretende obtener.
Seleccionemos los conjuntos de datos con los cuales trabajar, tanto de fuentes de datos internas como externas (lo que conocemos como datos abiertos).
Aseguremos la recopilación de datos relevantes para que el resultado del análisis sea efectivo.
Validemos la calidad de los datos.
A modo de ejemplo, contemplemos un escenario actual generado por el surgimiento de la pandemia del COVID-19 donde se ha producido un alto impacto en el sector salud. Supongamos que una farmacia necesita optimizar su sistema de inventario y desea conocer cuál es la demanda de los medicamentos que venden para ajustar la frecuencia del abastecimiento con sus proveedores.
El objetivo de esta analítica será la optimización del sistema de inventario de la farmacia para garantizar la venta continua de medicamentos.
Aunque contemos múltiples fuentes de datos, debemos identificar y seleccionar únicamente aquellas en donde se encuentren datos pertinentes al análisis. Para el ejemplo anterior, como fuente de datos interna, podemos seleccionar la base de datos de las ventas de la farmacia y como fuentes de datos externas, podemos seleccionar alguna base de datos de laboratorios farmacéuticos y entidades de distribución, una base de datos con la legislación sobre Industria y listado de fármacos cancelados o suspendidos e inclusive una base de datos epidemiológicos de la Salud Pública local.
Es muy probable que tengamos previo conocimiento sobre la estructura de los datos procedentes de la fuente interna, más por el contrario, la estructura de los datos de las fuentes externas puede variar e incluir datos no estructurados o semi estructurados.
Lo anterior, nos lleva al siguiente paso que consiste en la preparación o preprocesamiento de los datos.
Este paso suele consumir un poco más de tiempo que los demás debido al volumen de datos a procesar y el formato en que se presenten los datos. Para agilizar las actividades a ejecutar en este paso, se utilizan plataformas ETL (del inglés: Extract, Transform, Load).
Un ETL nos facilitará el proceso de colocar los datos desde las fuentes seleccionadas a nuestro datawarehouse. Es decir, si ya contamos con un modelo de datos definido, el ETL nos ayudará a ajustar y transformar la estructura de los datos de las diversas fuentes a nuestro modelo final.
Continuando con el ejemplo de la farmacia, imagina lo siguiente:
En cuanto a los datos de nuestra fuente interna, los registros de las ventas pueden proceder de ventas realizadas en el local, desde el sitio web o desde una aplicación móvil, para lo cual se debe tener una integración previa de las plataformas e-commerce para extraer los datos unificados de todas las ventas.
Por otra parte, los registros de las fuentes externas, pueden encontrarse en ficheros con diversos formatos como XML, JSON, CSV, RDF o un informe en PDF (por mencionar algunos), por lo que debemos transformarlos para poder cargarlos al datawarehouse.
Una vez que los datos relevantes para el análisis se hallan extraídos, transformados y cargados, procedemos a depurarlos para validar su contenido y corregir (normalizar) los valores inválidos. Los casos que se validan comúnmente son aquellos datos con valor nulo o duplicados, pero podemos aplicar cualquier tipo de validación requerida.
Durante este paso, también podemos limpiar los datos aplicando filtros según criterios demográficos, periodos de tiempo, entre otros. Para el ejemplo de la farmacia, podemos reducir el conjunto de datos del análisis para incluir solo las ventas del año actual y el año previo, es decir, que se excluyen las ventas del resto de los años.
Posterior a la limpieza y validación de los datos, podemos iniciar el análisis.
Como he mencionado, no todos los datos son iguales, y por ende, existen diferentes tipos de análisis de datos tales como:
Análisis Descriptivo
Análisis Predictivo
Análisis Prescriptivo
Cada uno de ellos cumple con un propósito diferente que veremos a continuación.
Está entre los más frecuentes debido a que este tipo de análisis utiliza datos históricos o presentes para describirnos los resultados de lo que ha pasado o está pasando a la fecha, es decir, nos ofrece la respuesta al rendimiento de alguna variable. Durante este análisis se emplean métodos estadísticos para la clasificación y medición de los datos analizados, así como la obtención de métricas cuantitativas y/o cualitativas.
Retomando el ejemplo de la farmacia, mediante este análisis podríamos conocer:
El total de ventas de cada medicamento,
El promedio de ventas mensuales por medicamento,
Los medicamentos más vendidos, etc.
A pesar de que es útil obtener un resumen detallado de algún evento pasado, aún quedan preguntas por responder sobre el porqué de los hechos, qué decisión debemos tomar a continuación y muchas otras que no hemos descubierto.
Luego de realizar el análisis descriptivo, es común seguir con un tipo de análisis diagnóstico o exploratorio para profundizar más y examinar múltiples variables que puedan tener relación con la variable de estudio. Este análisis nos permite encontrar explicación al por qué de los resultados anteriores, es decir, obtiene patrones e identifica relaciones de causa-efecto.
En el análisis que realizamos sobre la venta de los medicamentos de la farmacia, podemos incluir los datos epidemiológicos de Salud Pública para analizar posibles brotes que hayan desencadenado la demanda de ciertos medicamentos y ayudarnos a entender el porqué del incremento de su demanda.
Además de los métodos estadísticos empleados en el análisis descriptivo, en el análisis predictivo se emplean técnicas de machine learning (aprendizaje automático) y deep learning (aprendizaje profundo) con el objetivo de diseñar y entrenar algoritmos que “aprendan a interpretar” conjuntos de datos históricos para detectar tendencias, hacer una predicción y simular los resultados de nuevos conjuntos de datos.
En este análisis se contemplan los sucesos pasados para predecir sucesos futuros, es decir que nos aporta información de mayor valor al momento de plantearnos las próximas acciones porque nos da respuesta a lo que probablemente ocurra bajo ciertas condiciones.
Herramientas analíticas gratuitas basadas en lenguajes de computación estadística como R o Python son ampliamente utilizadas para construir modelos predictivos y validar la eficacia de los pronósticos del algoritmo, lo cual depende en parte de la calidad de la muestra del conjunto de datos con el que se entrenó el modelo, y por otra parte, de los parámetros utilizados al construirlo, por lo que debe experimentar con varios algoritmos antes de encontrar aquel que cumpla con un nivel de fiabilidad satisfactorio, por ejemplo utilizando el coeficiente de determinación.
A través del análisis predictivo, en nuestro caso de ejemplo, la farmacia podría:
Predecir, con moderada certeza, cuáles son los meses del año en donde la demanda de sus medicamentos puede elevarse o reducirse, para así
Anticiparse a estos flujos de demandas ajustando sus pedidos con los proveedores.
Como su nombre lo indica, este análisis abarca todo lo mencionado en los análisis previos a una mayor escala de datos, modelos y técnicas, donde las redes neuronales artificiales (Artificial Neural Networks) ocupan un rol importante porque con el marco completo de métricas y estimaciones son capaces de ofrecernos sugerencias y recomendar acciones. Es sin duda, el tipo de análisis más complejo, pero que aporta mayor valor a la empresa dado que, encontrar respuestas a qué debería hacer frente a los desafíos que pueden presentarse en el futuro, representa una enorme ventaja competitiva sobre nuestros competidores.
A pesar de que los algoritmos puedan orientarnos durante el proceso de toma de decisiones, es necesario prestar atención a posibles sesgos no deseados que pueden producirse por un limitado número de variables consideradas en los modelos. Periódicamente, es necesario combinar diferentes fuentes de datos para incluir nuevas variables que enriquecerán los análisis y facilitará el aprendizaje constante de los algoritmos.
La aplicación de este análisis en el ejemplo de la farmacia es conocer cuáles son las alternativas que permitirán gestionar de forma óptima el inventario frente a un desabastecimiento de fármacos resultado de una pandemia como el COVID-19.
Como último paso del análisis de datos está la comunicación y visualización de los resultados al negocio, que generalmente se presentan en reportes y dashboards conformados por gráficos lineales, de barras o pastel.
Cabe mencionar que, es fundamental que las empresas den seguimiento a sus modelos analíticos para que estos vayan evolucionando a medida que crecen las fuentes de datos de su industria.
Podemos concluir que el análisis de datos aporta muchos beneficios a las empresas cuyo empleo del Big Data es cada vez más indispensable e impulsado por el crecimiento exponencial de los datos en la actualidad.
Como hemos visto, cada tipo de análisis es valioso para responder a preguntas claves y su impacto en la empresa estará vinculado al tipo de análisis seleccionado. Gracias a la información producida en los análisis de datos, las empresas pueden conocer con precisión sus resultados, tener un mejor entendimiento de por qué se obtuvieron esos resultados, además, ser capaces de predecir (con cierta probabilidad) futuros resultados relacionados con el objeto del análisis y determinar de forma más clara cómo reaccionar a futuras situaciones, reduciendo así, la incertidumbre e inquietudes que surjan al tomar nuevas decisiones.
También te puede interesar
Este curso de Big Data te permitirá conocer y comprender qué es, cómo se trabaja y qué mejoras...