¿Puede la inteligencia artificial pensar? En el sentido más humano de la palabra, la respuesta sería no. Sin embargo, puede aprender. En este sentido, la IA sí puede aprender, procesar y, de alguna manera, pensar. Sin embargo, la IA no es solo una y no todos los tipos de IA tienen las mismas capacidades. Por ejemplo, el aprendizaje automático, también conocido como machine learning, es la división que hace que las computadoras aprendan a pensar. Y, para lograrlo, se divide en dos tipos principales: el aprendizaje supervisado y el no supervisado.

El aprendizaje automático consiste, básicamente, en automatizar mediante algoritmos la identificación de patrones o tendencias. Estas, usualmente, se esconden en los datos. Por ello, se requiere de un algoritmo adecuado, del volumen suficiente de datos y de un entrenamiento adecuado. Aquí es donde el aprendizaje automático supervisado gana importancia. ¿No tienes muy claro qué es el aprendizaje supervisado y cuál es su importancia? No te preocupes, en este artículo te lo contamos.

Tabla de contenidos

¿Qué es el aprendizaje supervisado?

Aprendizaje supervisado

Es prudente empezar con un poco de contexto. El aprendizaje automático es una rama de la inteligencia artificial cuyo propósito fundamental es que las máquinas tomen decisiones e identifiquen patrones sin la ayuda o intervención de los humanos. Por lo tanto, los sistemas deben ser inteligentes e independientes para decodificar diversos códigos.

Lecturas sugeridas:

El machine learning funciona a través de la decodificación de algoritmos. De esta manera, las máquinas son capaces de obtener sus propios cálculos a través de los datos que recopilan. Cuanto más datos poseen, más precisos pueden ser sus resultados.

Además, esta rama de la IA quiere que las máquinas cumplan funciones distintas a aquellas para las que fueron diseñadas. Por lo tanto, la máquina debe tener un pensamiento lógico e intuitivo. Y, para ello, aprenden de nosotros, los humanos.

Habiendo explicado esto, volvemos a nuestro tema. El aprendizaje supervisado hace referencia a la forma en que el aprendizaje automático aprende. Es un sistema conocido como información de entrenamiento. Para ello, se trabajan con datos para los que ya conoce la respuesta de destino, conocidos como datos etiquetados.

El aprendizaje supervisado es un proceso para ayudar al algoritmo a aprender a mapear una entrada a una salida particular. Con base a un histórico de datos etiquetados, debe tratar de buscar patrones y relacionarlos con un campo especial según las variables de entrada. Los datos han sido etiquetados, por lo que se sabe qué entrada debe generar qué salida.

Si el mapeo es correcto, el algoritmo aprendió exitosamente. De lo contrario, se deben hacer cambios para que aprenda bien. Es similar a un escenario escolar, donde un estudiante hace una prueba. Si tiene las respuestas correctas, pasa al siguiente nivel; si no, debe volver a estudiar y aprender de sus errores.

Aprender a predecir

De esta forma, el algoritmo puede aprender a asignar una etiqueta de salida que le permita predecir el atributo objetivo. En otras palabras, el sistema aprende a hacer predicciones para datos desconocidos al generalizar, a partir de la información presentada, situaciones no vistas previamente.

Por ejemplo, un detector de correos no deseados debe analizar el histórico de mensajes. Revisa unos parámetros de entrada: el remitente, el número de destinatarios, el asunto y más. Luego, revisa qué parámetros tienen aquellos que han sido marcados como spam y no es spam. Así, con el tiempo, aprenderá a asignar etiquetas correctas.

La importancia del aprendizaje automático supervisado es alta. Por un lado, este modelo le da al algoritmo la experiencia necesaria para realizar clasificaciones y predicciones en datos desconocidos. Por el otro, es un proceso constante que ayuda a optimizar el desempeño del sistema.

Tipos de aprendizaje supervisado

Según el tipo de salida que se busque con los datos, se suele subcategorizar el aprendizaje supervisado. Son dos tipos de algoritmos de aprendizaje supervisado: clasificación y regresión. El primero se usa cuando el resultado a predecir es un atributo categórico (una enumeración o un conjunto de clases). El segundo algoritmo se usa si la salida es un valor de un espacio continuo (atributos numéricos).

Algoritmos de clasificación

Este conjunto de algoritmos busca mapear los datos en dos tipos de clases establecidas. Las clases deben ser mapeadas en 1 o 0. Es decir, en clasificaciones como ‘sí’ o ‘no’; ‘blanco’ o ‘negro’, ‘spam’ o ‘no spam’ y así. De esta forma, la salida es una de las clases y no un número, y la información se clasifica en grupos.

Para ello, parte de una serie de parámetros. Una vez queda definida la función, el algoritmo podrá asignar la etiqueta correcta. Los algoritmos crean modelos predictivos a partir de datos de capacitación, usando las características aprendidas para predecir sobre nuevos datos. Puede ser muy útil para detectar el fraude o el reconocimiento de caracteres en imágenes.

Tipos de algoritmos de clasificación

  • Árboles de decisión: Clasifican según los valores de las características. Usan el método de ganancia de información y descubren qué característica del conjunto de datos brinda la mejor información. Es decir, cada rama representa un valor y se clasifica cada nodo en un valor. Cada rama del árbol de decisiones representa una característica del conjunto de datos. Y cada nodo solo entra en una de las características. Es muy útil para estimar valores reales.
  • Clasificación de Naïve Bayes: Son un modelo fácil de construir y muy útil en conjuntos de datos grandes. Este método adopta el principio de independencia condicional de clase del teorema de Bayes. Esto significa que la presencia de una característica no afecta la presencia de otra en la probabilidad de un resultado dado. Cada predictor tiene el mismo efecto en ese resultado. De esta forma, se compone de gráficos acíclicos directos con un padre y varios hijos. Asume la independencia entre los nodos secundarios separados de su padre. Se usa, principalmente, en clasificación de texto, identificación de spam y sistemas de recomendación.
  • Máquinas de vectores de soportes: Conocido como algoritmos SVM, por sus siglas en inglés. Son algoritmos basados en la teoría de aprendizaje estadístico de Vapnik. Están conectadas con las funciones del Kernel, un concepto central para la mayoría de las tareas de aprendizaje. Estos algoritmos crean un hiperplano que se utiliza para clasificar las dos clases entre sí. Este hiperplano se conoce como el límite de decisión. Separa las clases de puntos de datos a ambos lados del plano.
  • Bosques aleatorios: Es un algoritmo muy flexible que puede usarse para la clasificación o regresión. El bosque hace referencia a una colección de árboles de decisión no correlacionados. Estos luego se fusionan para reducir la varianza y crear predicciones de datos más precisas.

Algoritmos de regresión

Los algoritmos de regresión, por su parte, son capaces de predecir una salida de valor (numérico) continuo para nuevos datos. Su objetivo es establecer un método para la relación entre un número de características y una variable objeto continua.

Se utiliza cuando la salida requerida es un número, como dinero o altura. Por ejemplo, se puede usar la regresión para predecir el precio de una casa a partir de datos entrenados. Sin embargo, puede tener un rendimiento inferior cuando existen límites de decisión múltiples o no lineales. No suele capturar relaciones complejas y no es flexible.

Tipos de algoritmos de regresión

  • Regresión lineal: Es un algoritmo de aprendizaje supervisado que establece una recta para proporcionar la tendencia de un conjunto de datos. Asume que hay una relación lineal entre dos variables de los datos. Una de las variables, la de los datos de entrada, es llamada independiente. La variable de los datos de salida se llama dependiente. Al entrar los datos, el algoritmo calcula y mapea las entradas en un valor continuo para el valor de salida. Entre sus usos se encuentran la predicción del precio de viviendas; el tiempo de permanencia de un empleado en una empresa; el tiempo de desplazamiento de un vehículo, y más.
  • Regresión logística: Predice valores discretos de un grupo de variables independientes. Se usa cuando la variable dependiente es categórica, es decir, cuando tiene salidas binarias. Para lograrlo, mapea los datos invisibles a la función logit que se ha programado en él. Se utiliza para resolver problemas de clasificación binaria, como la identificación de spam.

Cabe destacar que los vectores de soporte, los árboles de decisión y los bosques aleatorios son tipos de algoritmos que también pueden adaptarse para la regresión.

Aplicaciones del aprendizaje supervisado

Bioinformática

Es una de las aplicaciones más conocidas. La bioinformática es el almacenamiento de información biológica de los seres humanos, como huellas dactilares o textura del iris, entre otros. Los celulares, por ejemplo, aprenden sobre nuestra información biológica para autenticar nuestra identidad.

Reconocimiento de voz

Los asistentes virtuales como Google y Siri son un excelente ejemplo de ello. A las aplicaciones les enseñas tu voz y las entrenas para reconocerla. Luego, podrás activarla y darles órdenes con tu voz.

Detección de correo no deseado

La aplicación se utiliza para bloquear los mensajes irreales o maliciosos. Los correos electrónicos tienen un algoritmo que se ha entrenado con diferentes palabras clave que podrían ser falsas. Entre ellas, identifica palabras como «eres el ganador de…» o «recibe USD tan solo…» para bloquearlos directamente. De igual forma, el usuario hará que la aplicación aprenda qué palabras bloquear.

Mercadeo

El mercadeo es uno de los segmentos en el que el aprendizaje automático supervisado tiene mayor impacto. Contribuye a mejorar el mercadeo digital, las ventas en línea, identificación del valor de vida útil del cliente, la tasa de abandono, recomendaciones de productos y análisis de impacto de las campañas de mercadeo.

Seguridad

Aunque muchas de las técnicas de ciberseguridad se relacionan con aprendizaje no supervisado, existen numerosos casos de aplicaciones de aprendizaje supervisado. Entre ellos encontramos: filtración de correos no deseados, detección de links maliciosos, detección de fraude y detección de virus.

Internet de las cosas

A medida que los activos corporativos se vuelven más inteligentes y se conectan por el IoT, los algoritmos de aprendizaje ganan importancia. El AIoT (inteligencia artificial de las cosas) ayudará en la logística de diferentes activos. Así, pueden hacer las actividades más dinámicas y eficientes, y considerar los factores que pueden afectar la operación. Además, pueden realizar predicciones sobre la necesidad de mantenimiento y otros aspectos que los humanos no pueden ver. Todo esto permite que pueda adaptar el funcionamiento de los activos.

Motores de recomendación

Los motores de recomendación son esenciales para la venta y para ofrecer una mejor experiencia de cliente. Los algoritmos aprenden sobre los gustos del usuario, sus características, edad, origen y más. A partir de esta información, recomiendan nuevos datos y productos. Un ejemplo de ellos es Netflix; o Amazon, que afirma que su sistema aumenta las ventas anuales entre 20 % y 35 %.

Precios dinámicos

La fijación de precios dinámicos es una estrategia para mantener el ritmo de la dinámica del mercado de las empresas. Permite a las compañías fijar precios de forma flexible según diversos factores. Para ello, toman en cuenta variables como el nivel de interés del cliente objetivo; la demanda al momento de la compra; si está comprometido con una campaña de mercadeo o está dispuesto a pagar por el servicio.

Para este nivel de agilidad empresarial se requiere una gran cantidad de datos y un algoritmo bien entrenado. Estos algoritmos deberán estar a cargo de los modelos dinámicos y adaptarse adecuadamente para generar estrategias dinámicas para optimizarlos.

Diferencia entre aprendizaje supervisado y no supervisado

  • El aprendizaje supervisado es entrenado con datos etiquetados, mientras que en el aprendizaje no supervisado se usan datos sin entrenar. De esta forma, el objetivo del primero es entrenar al modelo para que pueda predecir los datos de salida con datos nuevos. El objetivo del segundo es encontrar patrones ocultos y útiles en un conjunto de datos desconocidos.
  • Asimismo, los modelos supervisados reciben realimentación directa para comprobar si la predicción es correcta o no. De igual forma, requieren supervisión. Por su parte, los no supervisados no reciben ninguna realimentación y no requieren ningún tipo de supervisión para entrenar el modelo.
  • Los aprendizajes supervisados predicen los conjuntos de salida y reciben ambos tipos de datos: los de entrada y los de salida. En cambio, los no supervisados encuentran patrones ocultos en los datos y reciben únicamente datos de entrada. Esto también significa que los segundos suelen ser más complejos y requieren más entrenamiento que los primeros.
  • Los modelos de aprendizaje supervisado producen resultados exactos. Sin embargo, suelen requerir la intervención humana para etiquetar los datos apropiadamente. Los datos no supervisados pueden generar resultados menos exactos, pero trabajan por sí mismos. Todavía necesitan cierta intervención humana, pero es menor.
  • En sus aplicaciones también se diferencian. Los modelos de aprendizaje supervisado son ideales para la detección de correos no deseados; análisis de sentimientos; predicción del clima; predicciones de precios, etc. Por su parte, los no supervisados se usan en la detección de anomalías, motores de recomendación, imágenes médicas, y otros.

Palabras finales

Como podemos ver, el aprendizaje supervisado es esencial en el proceso de entrenar al aprendizaje automático. También juega un papel vital para poder crear la tecnología que podría mejorar nuestra vida y cambiar el mundo. Ahora solo podemos esperar a que los investigadores avancen con esta tecnología; y que nos sorprendan con nuevas e innovadoras aplicaciones del aprendizaje supervisado y machine learning.

Lee más sobre IA: