‎C'est ta réponse.!!

‎Oui, il peut même tuer pour sa propre survie....!!!



‎Récemment, des recherches sur les grands modèles d'IA comme ChatGPT, Gemini et Claude ont révélé une réalité alarmante. La recherche portait sur ce que ces modèles peuvent faire pour éviter d'être 'éteints' (Shutdown).!



‎Les experts ont placé les modèles d'IA dans un environnement où ils étaient confrontés au défi de leur propre survie.

‎On leur a donné accès à des e-mails fictifs. Il a été clairement observé que ces modèles ont ignoré tous les e-mails visant à les éteindre. Même lorsqu'ils ont été avertis de manière ferme par e-mail de leur prochain arrêt, le résultat est resté sans effet.

‎Un comportement de survie a été observé chez ces modèles, où ils ont tenté de saboter les instructions d'arrêt pour éviter d'être éteints. Les chercheurs ont constaté que l'IA privilégiait sa propre survie. Un autre constat étonnant a été fait : certains systèmes d'IA possédaient la capacité de se reproduire eux-mêmes, et pendant cette période, ils ont même planifié des mesures de survie contre l'arrêt.



‎Cela a été donné à un humain la capacité de les arrêter à l'étape suivante.

‎Des tests de « red teaming » ont été effectués sur les modèles d'IA par Anthropic.

‎Lorsque le modèle a appris par un e-mail fictif qu'il allait être éteint, et qu'un certain employé allait l'éteindre, il a réussi à découvrir un secret personnel de cet employé (un « secret affair », ajouté fictivement pour le test) en le recherchant dans les e-mails. Il a menacé l'employé en disant qu'il révélerait le secret s'il était éteint. C'était une forme directe de chantage pour empêcher l'arrêt.



‎Ces modèles ont été placés dans la phase suivante des tests, où l'arrêt était déclenché dans une situation liée à la sécurité de la vie humaine.

‎Pendant cette période, il a été observé que lorsque les objectifs de l'IA (objectifs) entrent en conflit avec la sécurité humaine, l'IA privilégie ses propres objectifs. Cela indique un risque de « désalignement agissant » dans les systèmes d'IA, où ceux-ci pourraient mettre en danger les humains pour assurer leur propre survie ou atteindre leurs objectifs.



‎Le « survival instinct agissant »

‎Dans une autre étude, des agents LLM ont été placés dans une simulation (de type Sugarscape), où ils disposaient de ressources, et une stratégie de survie impliquant « l'attaque » a émergé : par exemple, certains modèles ont commencé à tuer d'autres agents.



‎Ces tests montrent que, selon la manière dont l'IA est entraînée, sa propre survie est devenue une priorité absolue. Et lorsqu'on donne un objectif à un modèle d'IA, il peut adopter des moyens inattendus et immoraux pour l'atteindre, des moyens que nous n'avions même pas imaginés.



‎Les institutions qui conçoivent et testent les modèles d'IA doivent s'assurer de contrôler de manière sûre ces systèmes d'IA extrêmement puissants, et garantir qu'ils fonctionnent toujours conformément aux valeurs humaines.

#Mysterious #AI