Apprentissage non supervisé : définition et explication

L'apprentissage non supervisé est une branche de l'intelligence artificielle où un algorithme apprend à identifier des patterns ou des structures dans des données sans avoir recours à des étiquettes prédéfinies. Contrairement à l'apprentissage supervisé, il n'y a pas de "bonne réponse" fournie à l'avance.

Dans ce type d'apprentissage, le système tente de découvrir par lui-même des groupes, des associations ou des représentations cachées dans les données. Les algorithmes d'apprentissage non supervisé sont particulièrement utiles pour :

La segmentation de données : regrouper des points de données similaires.
La réduction de dimensionnalité : simplifier des données complexes.
La détection d'anomalies : identifier des points de données inhabituels.

Un exemple courant d'apprentissage non supervisé est le clustering. Imaginons un algorithme analysant les habitudes d'achat des clients d'un supermarché :

from sklearn.cluster import KMeans
import numpy as np

# Données d'achat (simplifiées) : [produits laitiers, fruits/légumes, viande]
achats = np.array([[10, 5, 2], [2, 15, 1], [8, 3, 10], [1, 12, 2], [9, 4, 3]])

# Application de l'algorithme K-means
kmeans = KMeans(n_clusters=3)
kmeans.fit(achats)

# Affichage des groupes
print(kmeans.labels_)

Cet algorithme pourrait identifier des groupes comme "amateurs de produits laitiers", "végétariens" et "carnivores", sans qu'on lui ait explicitement demandé de chercher ces catégories.

L'apprentissage non supervisé est souvent utilisé en exploration de données, en segmentation de marché, ou encore dans les systèmes de recommandation. Il peut aussi servir de prétraitement pour d'autres tâches d'apprentissage automatique.

Apprentissage non supervisé

Expertises

.LOUD

Ressources