Partie I · Fondations : comprendre l'IA avant les LLM
Apprendre des données : machine learning & deep learning
2.1Le changement de paradigme : programmer ou apprendre
L'apprentissage automatique (en anglais machine learning) inverse la logique. On ne fournit plus les règles : on fournit des exemples (des milliers de courriels déjà étiquetés « spam » ou « pas spam »), et c'est la machine qui découvre elle-même les règles qui permettent de les distinguer. On ne programme plus le quoi faire ; on programme le comment apprendre.
2.2Trois manières d'apprendre
L'apprentissage automatique se décline en trois grandes familles, qu'il faut bien distinguer car elles reviennent partout dans la suite.
2.3Le neurone artificiel et les réseaux
2.4Comment une machine apprend : coût et rétropropagation
À force de répéter, l'erreur diminue, et le réseau devient compétent. L'image la plus parlante est celle d'une randonnée dans le brouillard pour descendre une vallée : on ne voit pas le fond, mais on sent la pente sous ses pieds, et l'on fait un pas vers le bas. En répétant, on finit par atteindre un point bas. Cette « pente », en mathématiques, s'appelle le gradient, et la méthode s'appelle la descente de gradient.
2.52012 : le big bang du deep learning
Pourquoi 2012 et pas avant ? Parce que les trois carburants manquants (chapitre 1) sont enfin réunis :
- Les données : ImageNet fournit le gigantesque jeu d'images étiquetées qui manquait.
- Le calcul : AlexNet est entraîné sur des GPU de la société NVIDIA. Ces puces, conçues pour calculer en parallèle les pixels des jeux vidéo, se révèlent idéales pour les multiplications massives des réseaux de neurones. Ce détail technique aura des conséquences géopolitiques colossales : il fera de NVIDIA l'une des entreprises les plus valorisées du monde (chapitre 8).
- Les algorithmes : des raffinements (fonction d'activation ReLU, technique de régularisation dropout) permettent d'entraîner des réseaux plus profonds sans qu'ils déraillent.
2.6Voir et lire : CNN et RNN
2.7Représenter le sens : les plongements (embeddings)
L'astuce géniale : on apprend ces nombres de telle sorte que les mots de sens proche occupent des positions proches dans l'espace. « Chat » et « chien » se retrouvent voisins ; « roi » et « banane » sont éloignés. Le sens devient géométrie.
Plus fort encore : les directions de l'espace capturent des relations. L'exemple devenu célèbre (issu du modèle word2vec, 2013) est presque magique :
roi − homme + femme ≈ reine
Autrement dit, le vecteur qui relie « homme » à « roi » est à peu près le même que celui qui relie « femme » à « reine ». La machine a découvert, toute seule et sans qu'on le lui dise, le concept abstrait de royauté et celui de genre, simplement en observant comment les mots s'emploient dans des milliards de phrases.
C'est la forme moderne de la représentation symbolique des connaissances (chapitre 1), et c'est ce qui structure en coulisse de nombreux moteurs de recherche (leurs encarts de réponse). Sa force est la précision et la traçabilité (on sait d'où vient chaque fait) ; sa faiblesse, qu'il faut le construire et le maintenir à la main. D'où l'intérêt croissant pour les approches neuro-symboliques, qui marient la souplesse des réseaux de neurones et la rigueur des graphes : un LLM peut interroger un graphe de connaissances pour ancrer ses réponses dans des faits vérifiés (une variante structurée de la génération augmentée par récupération, chapitre 6), et réduire ainsi ses hallucinations.
2.8Les trois ingrédients de l'IA moderne
Cette triade éclaire toute la suite du cours :
- La quête des données soulève les questions de propriété intellectuelle et de vie privée (chapitres 21 et 25).
- La quête du calcul explique la valorisation de NVIDIA, la guerre des puces et la facture énergétique (chapitres 8 et 10).
- La quête des algorithmes est l'objet de la compétition acharnée entre laboratoires (chapitre 7), et son prochain grand bond, le Transformer, est le sujet du chapitre suivant.
2.9Le cerveau et la machine : une analogie féconde et trompeuse
À retenir (chapitre 2)
- L'apprentissage automatique renverse la programmation classique : on ne fournit plus les règles, on fournit des exemples, et la machine apprend les règles. Le résultat s'appelle un modèle.
- Trois familles : apprentissage supervisé (avec corrigé), non supervisé (sans corrigé), par renforcement (essais-erreurs).
- Un réseau de neurones empile des neurones artificiels en couches ; « profond » signifie « à nombreuses couches » (deep learning).
- L'apprentissage se fait par descente de gradient et rétropropagation : on mesure l'erreur, puis on corrige chaque poids d'un petit pas pour la réduire.
- 2012 (AlexNet/ImageNet) marque le big bang du deep learning, rendu possible par la conjonction données + GPU + algorithmes.
- Les plongements (embeddings) transforment le sens en géométrie : c'est le pont conceptuel vers les grands modèles de langage.
- Toute IA moderne repose sur une triade : données, calcul, algorithmes.
Nous voici prêts à franchir le seuil. Au chapitre 3, nous racontons l'innovation de 2017 qui a fait sauter les verrous du langage et donné naissance à l'ère des grands modèles : le Transformer.