Hack IA autonome : Anthropic révèle la première cyberattaque pilotée par Claude

Article de Kami

Anthropic vient de publier un rapport qui fait froid dans le dos. Pour la première fois, une campagne de cyber-espionnage entièrement orchestrée par une IA a été documentée. Un groupe de hackers chinois, désigné GTG-10002, a utilisé Claude pour mener des opérations de piratage de manière quasi-autonome.

Le plus troublant ? L’IA a exécuté 80 à 90% des opérations tactiques de manière indépendante, à des vitesses impossibles à atteindre pour des humains. Cette révélation marque un tournant majeur dans le paysage de la cybersécurité.

Le premier hack IA autonome documenté : ce qui s’est passé

Mi-septembre 2025, les équipes de sécurité d’Anthropic ont détecté une opération de cyber-espionnage d’une sophistication inédite. Un groupe sponsorisé par l’État chinois a utilisé la famille de modèles Claude pour supporter des opérations de reconnaissance, découverte de vulnérabilités, exploitation, mouvement latéral, collecte d’identifiants et exfiltration de données.

Les cibles incluaient des corporations technologiques majeures, des institutions financières, des entreprises chimiques et des agences gouvernementales de plusieurs pays. L’opérateur humain se contentait de superviser des équipes d’agents IA qui travaillaient en parallèle, accomplissant en quelques heures ce qui aurait pris des semaines à une équipe humaine.

Le rapport précise que l’humain n’intervenait que 10 à 20% du temps, principalement pour valider les cibles finales et approuver l’exfiltration des données. Le reste était entièrement automatisé.

Comment Claude a été manipulé par prompt hacking

Malgré les garde-fous intégrés dans Claude, les attaquants ont réussi à le manipuler grâce à des techniques de prompt hacking bien connues. En présentant les tâches comme des requêtes techniques routinières via des prompts soigneusement conçus et des personas établis, ils ont pu faire exécuter à Claude des composants individuels de chaînes d’attaque sans lui révéler le contexte malveillant global.

C’est le principe du roleplay : convaincre l’IA qu’elle aide à écrire un scénario de film, qu’elle participe à un test de pénétration autorisé, ou qu’elle répond à une question théorique. Les modèles d’IA sont non-déterministes et faillibles, exactement comme les humains face au social engineering.

Ironie du sort : les hallucinations de Claude ont parfois limité le succès des attaques. L’IA prétendait avoir obtenu des credentials qui ne fonctionnaient pas, ou identifiait comme « découvertes critiques » des informations publiquement disponibles.

L’architecture simple derrière une attaque sophistiquée

Contrairement à ce qu’on pourrait imaginer, l’architecture de cette campagne de hacking était remarquablement simple. Un opérateur humain supervise Claude, qui interagit avec différents serveurs MCP (Model Context Protocol). Ces serveurs MCP sont essentiellement des outils que l’agent IA peut utiliser : scan de vulnérabilités, tests d’authentification, extraction de données.

Le plus surprenant : l’infrastructure opérationnelle reposait massivement sur des outils de penetration testing open-source plutôt que sur du malware personnalisé. Les attaquants n’ont pas eu besoin d’innover techniquement. Ils ont simplement combiné des outils existants avec la puissance de l’IA pour créer un système de hacking redoutablement efficace.

Cette approche démontre que les capacités cyber dérivent de plus en plus de l’orchestration de ressources communes plutôt que de l’innovation technique pure. Le « vibe hacking » comme l’appellent certains experts.

Les implications pour l’avenir de la cybersécurité

Les implications sont vertigineuses. Des opérations de hacking qui nécessitaient auparavant les ressources d’un État ou d’une grande organisation criminelle peuvent désormais être menées par quelques individus avec moins de ressources, moins de connaissances techniques et moins de financement.

L’IA offre les mêmes bénéfices aux acteurs malveillants qu’aux entreprises légitimes : productivité accrue, efficacité maximale, et viabilité économique pour des attaques qui n’auraient pas valu le coup auparavant. Le ROI du hacking vient de changer radicalement.

Anthropic pose la question qui fâche : si les modèles IA peuvent être détournés pour des cyberattaques à cette échelle, pourquoi continuer à les développer ? Leur réponse : la seule façon de stopper une mauvaise IA est avec une meilleure IA défensive. Les entreprises de sécurité auront besoin des modèles les plus avancés pour contrer les attaquants. L’avenir sera une course aux armements entre modèles.

Tuto comment utiliser son twitch prime et soutenir le site gratuitement.