Machine Learning para principiantes
Este curso de Machine Learning te permitirá analizar datos usando el lenguaje R y conocer los principios básicos...
Te explicamos qué son los modelos de Machine Learning y los diferentes tipos que existen, además de desgranar y detallar el ciclo de dichos modelos.
Las técnicas de Machine Learning se dividen en dos grandes grupos, el aprendizaje supervisado y el aprendizaje no supervisado.
Dentro del aprendizaje supervisado, encontramos modelos de clasificación y modelos de regresión.
En los modelos de clasificación lo que se pretende es clasificar diferentes categorías.
En el ejemplo de la imagen, tenemos una serie de personas, de las cuales tenemos su peso y altura, y queremos clasificarlas en adultos o niños.
Lo que va a hacer un modelo de clasificación es aprender dónde están estos puntos y crear un clasificador que, para nuevos datos de entrada, consiga segmentarlos correctamente.
Por otro lado, los modelos de regresión lo que intentan es predecir el valor de una variable que es continua.
En la imagen tenemos un ejemplo, en el que se intenta predecir el beneficio en función de la inversión que se ha realizado.
Tenemos unos datos de entrenamiento, y lo que se hace es buscar una función que represente esos datos y consiga generalizarla correctamente para datos nuevos.
El aprendizaje no supervisado se basa principalmente en algoritmos de agrupación o clustering, en el que los datos no tienen etiquetas, no sabemos a qué categoría pertenecen.
Lo que hace el algoritmo es intentar buscar agrupaciones en los datos, de forma que cree grupos con características parecidas.
En el ejemplo de la imagen podemos ver que se agrupan los puntos de la misma forma que en la clasificación, no sabemos si se trata de adultos o niños, sino que es el propio algoritmo el que va a identificar que hay dos grupos, y tenemos que ser nosotros los que interpretemos los resultados.
Existen muchos algoritmos de Machine Learning, desde los más básicos a otros más complejos. Podemos destacar algunos como los siguientes:
La idea de definir un modelo la definir en 6 pasos:
· Entender y definir el problema:
· Recopilar los datos y conocer su disponibilidad.
Podemos encontrar datos históricos muy ricos y muy variados, pero si esos datos no se replican el futuro no vamos a poder ejecutar un modelo que hayamos entrenado con esos datos.
· Preparar los datos.
Es en lo que más se tarda, ya que un científico de datos puede emplear en torno al 80% su tiempo en limpiar y preparar los datos, porque siempre va a haber valores que falten, valores atípicos, va a tener que transformar variables, etcétera.
· Dividir los datos en entrenamiento, validación y test:
· Entrenar uno o varios modelos.
· Medir el desempeño de estos modelos y elegir el mejor.
En la imagen vemos el ciclo de un modelo de Machine Learning.
En este modelo tenemos nuestros datos ya limpios, y vamos a entrenar un modelo que va a tener ciertos parámetros.
La primera predicción que va a realizar un modelo va a tener un error grande, vamos a tener siempre una función de error que vamos a querer optimizar.
Con ese error vamos a actualizar los parámetros y vamos a volver a predecir. De esta forma, el error se va a ir minimizando en cada ciclo, y vamos a acabar teniendo un modelo con parámetros óptimos, que idealmente, va a funcionar muy bien con el conjunto de test.
También te puede interesar
Este curso de Machine Learning te permitirá analizar datos usando el lenguaje R y conocer los principios básicos...
Aprende visualización de datos y cómo aplicar tus conocimientos de R al mundo del Machine Learning