Aprendizaje Automático Supervisado

Los algoritmos de aprendizaje supervisado se basan en el entrenamiento de algoritmos para que aprendan o busquen patrones en un conjunto de datos etiquetados que posteriormente serán aplicados a nuevas muestras de datos. El concepto clave es el entrenamiento con datos etiquetados. Es muy importante realizar una consultoría en machine learning.

Un dato etiquetado es aquel que contiene las soluciones y sobre el que el sistema puede aprender. La solución se le llama etiqueta o label. En este aprendizaje por tanto se puede saber si la salida del modelo es correcta o no, puesto que de antemano se conoce la solución.

Se realizan predicciones o estimaciones de manera iterativa con las que se «enseña» al sistema qué resultados son correctos y cuáles no, intentado modelar la función que dados unos datos de entrada X proporciona una salida Y.

Formula a modelar en aprendizaje automático supervisado

donde X = variables de entrada, Y = variables de salida y f = función que genera predicciones en función de las variables de entrada.

Tipos de Aprendizaje Automático Supervisado

Los algoritmos de aprendizaje supervisado puedes ser de dos tipos dependiendo de la naturaleza de la variable a predecir:

Cuando la variable objetivo es categórica (tratamos de predecir una clase) se denominan algoritmos de clasificación.
Cuando la variable objetivo es numérica (tratamos de predecir un número) se denominan algoritmos de regresión.

Ejemplo visual diferencia Clasificación y Regresión

Algoritmos de clasificación

Los algoritmos de clasificación puedes ser de dos tipos:

Simples: predicen entre dos categorías. SI/NO, A o B, True/False. Problemas tipo que podrían resolver serían:
- ¿Va a comprar un posible cliente?
- ¿El comentario de este cliente es positivo?
- ¿Cuál de estos dos productos va a comprar?
Complejos: predicen cuestiones con múltiples respuestas posibles. Problemas tipo que podrían resolver serían:
- ¿Cuanto dinero se va a gastar este cliente?
- ¿Qué producto es el más apropiado para un cliente?
- ¿Qué producto será el más comprado?

Algoritmos de regresión

Y los algoritmos de regresión predicen valores futuros estimando la relación entre diferentes valores. Problemas tipo que podrían resolver serían:

¿Cuántos clientes tendremos el año que viene?
¿Qué precio sería el más apropiado para este producto?
¿Qué gasto total tendrá nuestra empresa este año?

El proceso de entrenamiento y uso de un modelo basado en un algoritmo de aprendizaje supervisado es el siguiente:

Flujo de trabajo modelo aprendizaje automático supervisado

Primeramente tendremos la fase de entrenamiento del modelo en la que utilizaremos los datos de entrenamiento que tenemos previamente etiquetados; estos datos se introducirán como entrada del algoritmo y posteriormente se utilizarán las etiquetas para determinar si el algoritmo ha acertado la salida o no, y de este modo, modificar el algoritmo para que, poco a poco, el modelo vaya aprendiendo. Posteriormente evaluaremos el modelo entrenado usando un nuevo conjunto de datos etiquetado para determinar si el modelo tiene la precisión que necesitamos en sus predicciones. Finalmente, y una vez que tenemos el modelo ya entrenado, podremos usarlo con nuevos datos sin etiquetar para que el modelo nos prediga las etiquetas de salida.