Quelques sources dont il était question dans la vidéo
- L’étude de METR sur la progression exponentielle de la capacité à résoudre des tâches longues.
- Interview d’Underscore_ sur le benchmark GAIA.
- Des détails sur le concours AtCoder 2025 par le gagnant de cette année.
- L’article sur l’émergence de désalignement quand on entraîne un modèle sur du code vulnérable.
- L’article sur la falsification d’alignement et Claude soucieux du bien-être animal.
Sommaire
0:00 – Sponso
1:54 – Le paradigme du micro-trottoir
11:36 – Autonomie absolue
13:57 – Autonomie vis-à-vis des moyens
15:39 – Etude METR, benchmark GAIA, olympiades de mathématiques
20:42 – Le concours AtCoder, expliqué par @PasseScience
27:06 – Pourquoi ces gains en autonomie peuvent être problématiques
29:30 – Autonomie vis-à-vis des objectifs
34:48 – Autonomie morale
37:25 – L’article « Emergent misalignement »
41:38 – Quand Claude forge ses propres valeurs
46:42 – Conclusion et outro (je parle un peu de mon livre)