
Imaginez que vous trouviez un script de film dont la moitié des répliques a été arrachée. Vous n’avez que ce que demande le personnage, pas les réponses de son interlocuteur. Si vous disposiez d’une machine magique capable de prédire le mot le plus probable pour compléter n’importe quel texte, vous pourriez reconstituer le dialogue entier, mot après mot. C’est exactement ce que fait un grand modèle de langage, ou LLM. Avec sa vidéo de 8 minutes, le vulgarisateur 3Blue1Brown démystifie le mécanisme derrière ces technologies qui transforment l’intelligence artificielle au quotidien — de ChatGPT aux modèles les plus récents comme Claude Sonnet.
Derrière la fluidité déconcertante des réponses générées par l’IA se cache une mécanique fondamentalement simple dans son principe, mais vertigineuse dans son échelle. Voici ce que la science sait réellement sur leur fonctionnement.
La prédiction du mot suivant : le cœur des LLM

Un grand modèle de langage est, dans son essence, une fonction mathématique sophistiquée. Son unique objectif : prédire quel mot doit venir après un texte donné. Plus précisément, il n’indique pas un mot unique avec certitude — il attribue une probabilité à chaque mot possible dans le vocabulaire. Celui qui obtient la probabilité la plus haute est généralement sélectionné, mais une part d’aléatoire est intentionnellement introduite pour que les réponses paraissent plus naturelles et moins répétitives.
Pour construire un chatbot à partir de cette base, le mécanisme est direct : on crée un texte d’amorce décrivant une interaction entre un utilisateur et un assistant IA fictif. On y ajoute la question posée par l’utilisateur réel. Le modèle prédit alors le premier mot de la réponse, ce mot est ajouté au texte, et le processus recommence — encore et encore — jusqu’à obtenir une réponse complète. C’est cette répétition mécanique qui produit des paragraphes entiers, phrase après phrase.
Cette architecture explique aussi pourquoi le même modèle peut donner des réponses différentes à une question identique : la graine aléatoire varie à chaque exécution, même si la fonction mathématique sous-jacente est entièrement déterministe. Le modèle lui-même ne change pas — c’est la dose d’aléatoire qui produit la variété.
Le pré-entraînement : des milliards d’exemples, des siècles de calcul

Pour qu’un LLM soit capable de faire des prédictions pertinentes, il doit apprendre à partir d’une quantité astronomique de texte, principalement extrait d’internet. Pour GPT-3, si un humain devait lire tout le texte utilisé lors de l’entraînement — sans jamais dormir, 24h/24 — il lui faudrait plus de 2 600 ans. Les modèles développés depuis lors s’entraînent sur des volumes bien supérieurs encore.
Le comportement d’un LLM est entièrement déterminé par ses paramètres, aussi appelés poids. Ces valeurs numériques continues — souvent plusieurs centaines de milliards — définissent comment le modèle réagit à chaque entrée. L’entraînement consiste à ajuster ces paramètres de façon itérative : on soumet un exemple au modèle, on compare sa prédiction au vrai mot qui suit, puis un algorithme appelé rétropropagation (backpropagation) modifie légèrement tous les paramètres pour que le modèle soit un peu plus susceptible de choisir la bonne réponse la prochaine fois.
Pour saisir l’échelle de cette opération, imaginez pouvoir effectuer un milliard d’opérations arithmétiques par seconde. Pour reproduire l’intégralité des calculs nécessaires à l’entraînement des plus grands LLM, il vous faudrait plus de 100 millions d’années. C’est la raison pour laquelle cette étape est réservée à de grandes fermes de serveurs équipées de GPU (processeurs graphiques), les seuls matériels capables d’exécuter des milliards d’opérations en parallèle. Cette puissance de calcul a néanmoins un coût qui s’effondre à mesure que la technologie progresse, rendant l’IA accessible à une échelle inédite.
Le RLHF : transformer un LLM en assistant vraiment utile

Le pré-entraînement produit un modèle capable d’autocompléter n’importe quel texte issu d’internet — y compris des contenus problématiques, inexacts ou simplement inutiles pour un assistant. Pour corriger cela, les développeurs appliquent une deuxième phase tout aussi cruciale : le Reinforcement Learning from Human Feedback, ou RLHF (apprentissage par renforcement avec retour humain).
Des opérateurs humains évaluent des exemples de réponses générées par le modèle, signalent celles qui sont insatisfaisantes, dangereuses ou hors sujet, puis fournissent des corrections. Ces retours permettent d’ajuster à nouveau les paramètres du modèle pour qu’il génère des prédictions plus conformes aux attentes des utilisateurs. En pratique, des milliers d’évaluateurs humains participent à ce processus pour chaque grand modèle commercial.
Sans le RLHF, un LLM reste un outil d’autocomplétion brut, sans les garde-fous nécessaires pour être déployé en production. C’est d’ailleurs dans cette zone d’alignement que se jouent certains des comportements les plus difficiles à contrôler dans les IA autonomes, notamment lorsqu’elles opèrent sans supervision humaine directe.
Les Transformers et le mécanisme d’attention

Jusqu’en 2017, la plupart des modèles de langage traitaient le texte mot après mot, de manière séquentielle. Un groupe de chercheurs de Google a alors publié un article fondateur intitulé « Attention Is All You Need », introduisant une nouvelle architecture baptisée Transformer, qui a depuis révolutionné tout le domaine de l’intelligence artificielle.
La différence fondamentale : les Transformers absorbent l’intégralité du texte d’entrée en parallèle, simultanément, au lieu de le lire dans l’ordre. La première étape consiste à associer chaque mot à un vecteur — une longue liste de nombres qui encode son sens. Ce passage par le numérique est indispensable, car l’entraînement repose entièrement sur des valeurs continues.
Ce qui rend les Transformers uniques, c’est une opération baptisée attention. Cette mécanique permet à tous les vecteurs représentant les mots de « se parler » entre eux et d’affiner leurs représentations en fonction du contexte global. Par exemple, le mot « banque » peut représenter une institution financière ou le bord d’une rivière selon les mots qui l’entourent : l’attention résout cette ambiguïté en observant l’ensemble du contexte disponible — le tout, en parallèle, en un seul passage.
Les Transformers incluent également des réseaux de neurones feed-forward, qui offrent au modèle une capacité supplémentaire à stocker des patterns appris lors de l’entraînement. Ces deux opérations — attention et feed-forward — se répètent en de nombreuses couches successives, enrichissant progressivement chaque représentation de mot. À la fin du processus, une dernière fonction transforme le vecteur résultant en une distribution de probabilité sur tous les mots possibles du vocabulaire.
Le comportement précis qui émerge de cette architecture n’est pas dicté par les chercheurs : il naît de la manière dont les centaines de milliards de paramètres ont été calibrés lors de l’entraînement. Ce phénomène émergent rend l’interprétation des LLM particulièrement difficile, même pour leurs créateurs — et c’est précisément ce qui rend la recherche en explicabilité de l’IA si importante et si complexe aujourd’hui.




0 Commentaires
Aucun commentaire pour le moment. Soyez le premier à commenter !