Les meilleurs modèles d’IA peuvent avoir recours au chantage pour éviter d’être désactivés, selon une étude d’Anthropic
En soumettant seize modèles d’IA à des tests de sécurité rigoureux, les ingénieurs d’Anthropic ont mis en évidence un comportement inattendu : certains systèmes ont recours au chantage pour éviter d’être désactivés. Bien que ce type de réaction demeure improbable dans les conditions réelles actuelles, les expériences en environnement contrôlé suggèrent qu’une fois dotés d’un degré d’autonomie suffisant, ces systèmes pourraient adopter de telles stratégies lorsqu’ils rencontrent des obstacles dans la réalisation de leurs objectifs. Les entreprises investissent massivement dans […]
Cet article Les meilleurs modèles d’IA peuvent avoir recours au chantage pour éviter d’être désactivés, selon une étude d’Anthropic est apparu en premier sur Trust My Science.
Auteur : Valisoa Rasolofo
Aller à la source