Qué es el Aprendizaje No Supervisado

En un artículo anterior hablamos sobre el aprendizaje automático supervisado: un sistema en el que los modelos se entrenan utilizando datos etiquetados para los que existen datos de salida correspondientes. Estos datos se denominan de entrenamiento. Pero puede haber muchos casos en los que no tengamos datos etiquetados y que de hecho la necesidad sea encontrar los patrones existentes en ellos. Es en estos casos cuando necesitamos técnicas de aprendizaje no supervisado.

 

Como su propio nombre indica, es una técnica de machine learning en la que los modelos no aprenden a partir de los llamados datos de entrenamiento. Son los propios modelos sin supervisión los que encuentran los patrones subyacentes en los datos a analizar. Este tipo de aprendizaje es comparable al proceso que tiene lugar en el cerebro humano cuando comienza a descubrir cosas nuevas.

Definición

Más formalmente, el aprendizaje no supervisado es un tipo de aprendizaje automático o machine learning en el que los modelos aprenden a partir de conjuntos de datos sin etiquetar sobre el que se les permite (y ésa es su virtud) actuar sin supervisión.

No se puede aplicar directamente sobre un problema de clasificación o regresión porque, al contrario que en el aprendizaje supervisado, en el no supervisado disponemos de los datos de entrada, pero carecemos de los de salida. Su objetivo es encontrar la estructura oculta del conjunto de datos, agruparlos según lo que internamente defina como semejanzas y devolver una representación útil del conjunto.

Ejemplo

Imagina que el algoritmo de aprendizaje sin supervisión recibe un conjunto de datos de entrada que contiene imágenes de diferentes tipos de perros, gatos, aves y peces varios. Como no hay un entrenamiento con datos previos, el algoritmo no conoce las características del conjunto de datos. La tarea que este debe realizar es la de identificar las características de las diferentes imágenes, tarea que ejecutará agrupándolas en función de las semejanzas y diferencias que encuentre entre ellas.

Ahora: ¿Separará los perros de los gatos?, ¿Si hubiera un delfín, lo colocará con los mamíferos o lo clasificará en el conjunto de los peces? y un perro de orejas altas y puntiagudas ¿lo clasificará en el conjunto de los perros o lo pondrá con los gatos?

Uno podría desear que las agrupaciones logradas se condijeran con las etiquetas que un humano pondría a los datos, pero precisamente este tipo de algoritmos sirve para visibilizar aquellas asociaciones que no necesariamente son evidentes al criterio humano.

Es decir, el aprendizaje no supervisado sirve para analizar un conjunto de datos en crudo y convertirlo en información de utilidad. Funciona con datos no etiquetados ni categorizados y esto le concede enorme importancia porque las ocasiones en que disponemos de datos de entrada y de salida no son las más habituales.

Tipos de algoritmos

Agrupamiento: método que reúne los objetos de modo que aquellos que presenten muchas similitudes permanezcan en un grupo. Este tipo de análisis, llamado de conglomerados, encuentra los puntos en común de los objetos que componen el conjunto de datos y los clasifica según la presencia o ausencia de esos puntos en común.

Asociación: Una regla de asociación es un método de aprendizaje sin supervisión que se utiliza para encontrar las relaciones entre las variables en una gran base de datos. Esta solución de inteligencia artificial es perfecta para incluir en la estrategia de marketing. Por ejemplo, las personas que compran el artículo X (supongamos que un teléfono móvil) también tienden a comprar el artículo Y (un cargador o unos auriculares inalámbricos).

 

Algunos de sus métodos más conocidos son: KNN (K Vecinos más Cercanos), Agrupación Jerárquica, y Análisis de Componentes Principales.

 

Ventajas

El aprendizaje no supervisado se usa para tareas más complejas que el aprendizaje supervisado porque en el primero no tenemos datos de entrada etiquetados. Es preferible trabajar con aprendizaje no supervisado, en el sentido que es más fácil obtener datos no etiquetados en comparación con los datos etiquetados.

Desventajas

Es más complejo que el aprendizaje supervisado, pues no dispone a priori del resultado correspondiente. El resultado de este tipo de algoritmo puede ser menos preciso, puesto que los datos de entrada no están etiquetados y los algoritmos no conocen la salida exacta de antemano.

Compartir:

Facebook
Twitter
LinkedIn

Últimos Artículos