La première cyber-attaque IA confirmée par Google (et ce qui change vraiment)

Google a détecté des hackers utilisant un LLM pour découvrir un zero-day. Pas une hypothèse, un fait. Analyse de ce basculement offensif et de ce qu'il signifie pour la défense.

Google a confirmé le premier cas connu de cybercriminels utilisant l'IA pour exploiter une faille zero-day. Pas un proof-of-concept académique. Pas un test en labo. Une vraie attaque planifiée par des hackers criminels pour contourner l'authentification à deux facteurs. L'équipe de Google l'a interceptée avant qu'elle ne passe à l'échelle, mais le signal est clair : la course armement cyber-IA n'est pas imminente. Elle a commencé.

Ce qu'a trouvé Google (et comment ils l'ont su)

Le bug visait une plateforme open-source d'administration web populaire, un bypass 2FA développé par des criminels travaillant ensemble sur une opération d'intrusion à grande échelle. Google n'a pas publié le nom du vendor, ni celui du groupe criminel. Ils ont contacté le vendor discrètement, patché la faille, et possiblement tué l'opération dans l'œuf.

La partie intéressante, c'est comment ils ont identifié l'origine IA. Le code contenait des commentaires pédagogiques excessifs, un score de sévérité CVSS inventé, et des patterns de code Python typiques des sorties LLM.

Le script Python incluait des docstrings éducatives, un score CVSS halluciné, et une structure textbook qui ressemblait massivement à des données d'entraînement LLM.

En clair : le code était trop propre, trop commenté, trop formaté. Un humain qui écrit un exploit pour une campagne massive ne met pas de docstrings pédagogiques ni de score CVSS bidon. Un LLM, oui.

Le modèle semble avoir identifié une assumption de confiance cachée dans la logique de login du logiciel qui pouvait être exploitée pour contourner les protections 2FA. C'est une classe de vulnérabilité que les scanners statiques ratent systématiquement : pas de buffer overflow, pas de SQL injection classique. Une erreur de logique de haut niveau, dans le design même de la confiance du système.

Mythos, le modèle qui a déclenché l'alarme (mais qui n'était probablement pas impliqué ici)

Google dit que ce n'était ni Gemini ni le Claude Mythos d'Anthropic. Probablement un autre modèle frontier ou une combinaison de modèles publics orchestrés.

Mais l'annonce de Google arrive trois semaines après qu'Anthropic a dévoilé Mythos, un modèle de frontier spécialisé dans la découverte de vulnérabilités. Anthropic a utilisé Claude Mythos Preview pour identifier des milliers de vulnérabilités zero-day (des failles précédemment inconnues des développeurs), dont beaucoup critiques, dans tous les OS majeurs et tous les navigateurs majeurs.

Claude Mythos est un modèle IA frontier conçu pour découvrir et chaîner de manière autonome des vulnérabilités zero-day dans les systèmes d'exploitation et navigateurs majeurs. Il ne trouve pas seulement des bugs isolés. Il les enchaîne. Trois ou quatre failles low-impact qui, seules, ne valent rien, mais enchaînées, deviennent une attaque sophistiquée.

Anthropic ne l'a pas rendu public. Anthropic a choisi de ne pas publier le modèle publiquement, limitant l'accès à un petit groupe de grandes entreprises américaines, dont Apple, Amazon, JPMorgan Chase, et Palo Alto Networks. Le modèle est trop dangereux. Trop efficace.

Ce qui m'intéresse ici, c'est qu'Anthropic a anticipé exactement ce que Google vient de confirmer. Ils ont sorti Mythos en mode restreint parce qu'ils savaient que des acteurs malveillants allaient tenter la même chose. Et Google vient de montrer qu'ils l'ont fait.

Ce qui a changé (et ce qui n'a pas changé)

Trois points.

1. La découverte de vulnérabilités n'est plus limitée par l'expertise humaine

Avant, trouver un zero-day prenait des mois, une expertise pointue, et beaucoup de chance. Alors que les fuzzers et outils d'analyse statique sont optimisés pour détecter des sinks et crashes, les LLMs frontier excellent à identifier des failles de haut niveau et des anomalies statiques hardcodées.

Un LLM lit le code comme un humain le lirait : il infère l'intention du développeur, suit les variables à travers les fichiers, repère les assumptions implicites. C'est exactement ce qui s'est passé ici : une assumption de confiance hardcodée dans la logique de login. Invisible pour un scanner, évidente pour un modèle qui "comprend" le contexte.

2. La fenêtre entre découverte et exploitation s'est effondrée

La fenêtre entre la découverte d'une vulnérabilité et son exploitation par un adversaire s'est effondrée : ce qui prenait des mois arrive maintenant en minutes avec l'IA.

Le cycle classique : un chercheur trouve un bug, le soumet via un programme de bug bounty, le vendor patch, on publie un CVE. Entre découverte et exploitation publique, il y avait du temps. Là, un LLM trouve et génère l'exploit dans la même session. Il n'y a plus de temps.

Blocs de code géométriques abstraits contrastant fragments parfaits générés par IA et éléments organiques humains

Les banques, assureurs et régulateurs font face à un déséquilibre dangereux. Les systèmes IA peuvent découvrir des faiblesses à vitesse machine. Patcher reste à vitesse humaine.

3. Les criminels ont autant à gagner que les États

Comparé aux espions gouvernementaux qui travaillent typiquement lentement et discrètement, les hackers criminels ont le plus à gagner de la "capacité énorme de vitesse" de l'IA dans la découverte et weaponisation de bugs de sécurité.

Un groupe APT étatique fait de l'espionnage long terme. Un groupe criminel veut du ransomware massif, des credentials volés, de la revente de bases. Dans un cas, des chercheurs ont trouvé APT45, un groupe militaire nord-coréen, utilisant l'IA pour tester et valider des milliers d'exploits ciblant des failles logicielles. Mais les criminels ont un motif plus immédiat : monétiser vite. Un zero-day sur une plateforme d'admin web open-source populaire, c'est potentiellement des milliers d'instances vulnérables en parallèle.

"Pour chaque zero-day qu'on peut tracer à l'IA, il y en a probablement beaucoup plus dehors" , dit John Hultquist, analyste principal chez Google Threat Intelligence Group. C'est le tip of the iceberg.

Ce que ça change pour la défense (et pourquoi la course est déjà lancée)

"Il y a une idée fausse que la course aux vulnérabilités IA est imminente. La réalité, c'est qu'elle a déjà commencé."

Anthropic a réagi en lançant Claude Security, maintenant en beta publique pour les clients Claude Enterprise. Claude Security trouve des vulnérabilités dans le code que les outils pattern-matching ratent, et propose un fix que vous pouvez ouvrir et travailler dans Claude Code. C'est la version défensive : utiliser le même type de modèle pour auditer son propre code avant qu'un attaquant ne le fasse.

Ce travail a révélé plus de 500 vulnérabilités précédemment inconnues dans des logiciels open-source largement utilisés, dont des bugs qui avaient survécu à des décennies de revue experte.

Des décennies.

Le problème structurel, c'est que l'asymétrie s'est inversée. Avant, l'avantage était au défenseur : tu patchais ton code, et l'attaquant devait dépenser du temps pour trouver une autre faille. Maintenant, l'attaquant peut scanner ton code entier avec un LLM en quelques heures et obtenir une liste de candidats exploitables. Tu dois patcher tout, lui doit juste en exploiter un.

La défense doit donc aussi utiliser les LLMs. Pas un choix, une obligation. Sans leurs propres systèmes IA défensifs spécialisés, les défenseurs seront débordés.

Ce que je retiens en tant que dev solo

Je bosse quotidiennement avec Claude Code (sur Anthropic Max). J'ai deux produits en prod : capsül et calculs-btp.fr. J'ai abandonné plusieurs projets avant faute de distribution, et ce blog fait partie de la correction.

Ce qui me frappe dans cette annonce Google, c'est que le pire scénario cyber-IA, c'est pas un AGI hostile qui nous pwn tous. C'est un groupe criminel basique qui automatise la découverte de zero-days et qui scale des campagnes ransomware sur des PME et administrations publiques sous-équipées. C'est beaucoup moins spectaculaire, et beaucoup plus proche.

La recommandation UK AISI (AI Safety Institute) après avoir évalué Mythos est sobre : L'importance des bases en cybersécurité, comme l'application régulière de mises à jour de sécurité, des contrôles d'accès robustes, une configuration sécurisée, et une journalisation complète.

Autrement dit : les fondamentaux n'ont pas changé. Mais leur criticité a explosé. Avant, une faille dans un code open-source mal maintenu restait dormante des années. Maintenant, elle peut être découverte et exploitée en quelques jours par un acteur qui n'a aucune compétence technique particulière, juste accès à un LLM performant.

Pour mes propres projets, ça me pousse à deux actions immédiates :

Auditer mes dépendances avec un outil automatisé ET avec Claude Security dès qu'il sera accessible hors Enterprise (Anthropic dit que l'accès Claude Team et Max arrive bientôt).
Revoir mes assumptions de confiance côté auth et tokens. Exactement le type de bug logique que les scanners ne voient pas mais qu'un LLM peut repérer.

Les questions ouvertes (et les angles morts)

Google n'a pas révélé quel modèle a été utilisé par les criminels. Probablement parce qu'ils ne le savent pas avec certitude, ou parce que c'était une combinaison de plusieurs modèles publics orchestrés. Des chercheurs de Vidoc ont testé si des modèles publics plus anciens d'Anthropic et OpenAI pouvaient répliquer des résultats Mythos-style en utilisant des techniques d'orchestration qui splitent le code en morceaux. Apparemment, c'est faisable.

Ce qui signifie que même sans accès à Mythos ou à un modèle frontier équivalent, un attaquant sophistiqué peut déjà approximer ces capacités avec des modèles existants et un peu d'ingénierie.

La vraie question n'est pas "quand est-ce que les LLMs pourront trouver des zero-days ?" (la réponse est : maintenant). La vraie question est : "combien de temps avant que ces capacités soient packagées dans des outils grand public accessibles à n'importe quel script kiddie ?"

Et là, personne n'a de réponse.

Questions fréquentes

Qu'est-ce qu'un zero-day exactement ?

Un zero-day est une vulnérabilité logicielle inconnue des développeurs au moment où elle est exploitée. Zéro jour de préavis pour patcher avant l'attaque. Historiquement, trouver un zero-day prenait des mois d'analyse manuelle par des experts. Les LLMs changent radicalement cette équation.

Google a-t-il identifié le modèle IA utilisé par les hackers ?

Non. Google a dit avec certitude que ce n'était ni Gemini ni Claude Mythos d'Anthropic. L'analyse repose sur des patterns de code (commentaires pédagogiques, docstrings, score CVSS inventé) typiques des sorties LLM. Probablement un modèle frontier ou une orchestration de modèles publics.

Est-ce que Claude Mythos d'Anthropic est disponible publiquement ?

Non. Anthropic a restreint l'accès à un petit groupe d'entreprises américaines (Apple, Amazon, JPMorgan, Palo Alto Networks) via Project Glasswing. Le modèle est trop efficace : il a trouvé des milliers de zero-days dans tous les OS et navigateurs majeurs en quelques semaines. Le risque d'abus est trop élevé pour une release publique.

Les défenseurs ont-ils une chance dans cette course ?

Oui, mais seulement s'ils adoptent les mêmes outils. Anthropic a lancé Claude Security pour scanner du code et proposer des patchs. Google améliore ses capacités de détection. Mais l'asymétrie structurelle s'est inversée : l'attaquant peut scanner large et exploiter un seul point faible, le défenseur doit tout sécuriser. La course ne se gagne plus, elle se gère.

Faut-il paniquer si on est une petite structure ?

Paniquer non, agir oui. Les fondamentaux n'ont pas changé : mises à jour régulières, contrôles d'accès stricts, journalisation. Ce qui a changé, c'est que ces bases ne sont plus négociables. Une faille qui aurait pu dormir des années peut maintenant être trouvée et exploitée en jours. Auditer ses dépendances et ses assumptions de confiance devient urgent.