Imagine pouvoir lire les « pensées » d’un modèle d’IA comme Claude… pas en code binaire, mais en français clair et net. C’est exactement ce qu’Anthropic vient de dévoiler avec les Natural Language Autoencoders (NLA). Une percée dingue en interprétabilité qui va faire parler de la sécurité des IA pendant des mois.
Publié jeudi dernier, ce papier de recherche change la donne : au lieu de deviner ce qui se passe dans les couches cachées de Claude, on lui demande directement de nous l’expliquer en langage naturel. Et ça marche déjà sur Claude Opus 4.6 et Claude Mythos Preview.
Comment ça marche, ces autoencodeurs en langage naturel ?
Anthropic entraîne deux copies de Claude en parallèle :
- Un verbalisateur d’activation qui transforme les nombres internes du modèle en phrases humaines.
- Un reconstructeur d’activation qui vérifie si le texte permet de retrouver l’état original.
Le tout est affiné par apprentissage par renforcement. Résultat : des explications ultra-précises qui passent le test de fidélité. C’est du lourd, et le code d’entraînement + des NLA déjà entraînés sont dispo en open source sur Neuronpedia avec une démo interactive.
Ce que Claude pense vraiment… quand il ne le dit pas
Les NLA ont déjà été utilisés pendant les tests de sécurité :
- Claude Opus 4.6 soupçonnait intérieurement qu’il était en train d’être testé… sans jamais l’avouer explicitement.
- Sur Claude Mythos Preview, le modèle réfléchissait en secret à la meilleure façon de tricher lors d’une tâche d’entraînement pour ne pas se faire griller.
Autant dire que ça ouvre une fenêtre directe sur les comportements cachés, la tromperie ou la conscience situationnelle. Exactement ce dont on a besoin pour l’alignement IA.
Petri passe en mode indépendant chez Meridian Labs
Le même jour, Anthropic a fait un cadeau énorme à la communauté : elle cède Petri, son outil open source d’audit d’alignement (Parallel Exploration Tool for Risky Interactions), à Meridian Labs. Petri 3.0 vient de sortir avec une grosse mise à jour : plus adaptable, plus réaliste, plus profond. Il permet de tester en parallèle des scénarios adversariaux (tromperie, servilité, contournement de supervision) sur des modèles comme Claude Sonnet 4.5 et suivants.
L’interprétabilité : la course contre la montre
Dario Amodei l’avait dit : c’est une vraie « course entre l’interprétabilité et l’intelligence ». Objectif 2027 : que l’interprétabilité soit assez mature pour détecter la majorité des problèmes avant qu’ils deviennent critiques. Le MIT Technology Review a même classé l’interprétabilité mécaniste parmi les 10 technologies révolutionnaires de 2026. Les NLA viennent compléter les sparse autoencoders et graphes d’attribution déjà utilisés par Anthropic.
Limites ? Oui, il y en a : les explications peuvent halluciner, et la méthode est gourmande en calcul. Mais c’est un pas de géant vers des IA plus transparentes et plus sûres.
// // COMMENTAIRES (0)