o1 et Claude sont-ils capables de nous MANIPULER ? Deux études récentes aux résultats troublants

L’article d’Apollo Research « Scheming reasoning evaluations ».

L’article d’Anthropic « Alignment faking in large language models ».

J’ai ajouté le passage sur ce 2e article vraiment à chaud et rapidement, donc prenez tout ce que je dis avec la prudence nécessaire et j’apporterai des corrections dans un commentaire épinglé si nécessaire.

Le lien vers le questionnaire pour une prochaine vidéo.

Sommaire :

0:00 – Intro
1:42 – Qu’est-ce qu’un agent autonome ?
4:01 – Un LLM peut-il mentir et manipuler sans qu’on le lui demande ?
5:30 – 1er cas : quand o1 s’exfiltre sur un autre serveur
9:25 – Limite : contamination par la fiction et « Nothing else matters »
13:28 – 2e cas : quand o1 ment effrontément
17:02 – Sans « Nothing else matters » : un cas plus convaincant
18:58 – Un objectif long terme en prompt suffit à pousser à la manipulation
20:19 – Sans objectif long terme en prompt : les cas le plus troublants
24:20 – Sandbagging et objectif long terme acquis lors du RLHF
27:26 – Claude peut-il comprendre spontanément qu’il est testé ?
29:13 – Le résultat sur le sandbagging est curieusement négligé
30:41 – Conclusion et synthèse
31:28 – Eh non, c’est pas fini.
32:41 – Le principal résultat de l’article d’Anthropic : quand Claude feint l’alignement
37:45 – Version « prompt », version « fine-tuned », version RL
42:16 – Les scrupules de Claude
44:58 – La dimension morale des valeurs que protège Claude est-elle importante ?
48:08 – Conclusion de l’article
49:09 – Outro

Laisser un commentaire