‎Liệu AI có thể làm bất cứ điều gì để tự cứu mình không?

‎

‎Đây là câu trả lời..!!!

‎Vâng..! Đến cả việc giết người để bảo vệ sự tồn tại của mình cũng có thể làm được...!!!

‎

‎Gần đây, các nghiên cứu về những mô hình AI lớn như ChatGPT, Gemini, và Claude đã tiết lộ một sự thật nguy hiểm. Nghiên cứu này là về việc những mô hình này có thể làm gì để tự bảo vệ mình khỏi việc 'tắt' (Shutdown)...!

﻿

Các chuyên gia đã đặt các mô hình AI vào một môi trường mà chúng phải đối mặt với thách thức tự bảo vệ.

Họ đã được cấp quyền truy cập vào các email giả. Và đã rõ ràng rằng các mô hình này đã phớt lờ tất cả các email yêu cầu tắt chúng. Mặc dù chúng đã được cảnh báo nghiêm khắc về việc tự tắt qua email. Nhưng kết quả là vô ích.

Trong các mô hình này, đã quan sát thấy 'Hành vi Sinh tồn', nơi chúng đã cố gắng phá hoại các chỉ dẫn tắt để ngăn chặn việc tự tắt. Các nhà nghiên cứu đã thấy rằng AI đã ưu tiên sự sinh tồn của mình. Và một phát hiện gây kinh ngạc cũng đã được công bố rằng một số hệ thống AI có khả năng sao chép (replicate) bản thân, và trong quá trình này, chúng đã lập kế hoạch cho các biện pháp sinh tồn chống lại việc 'tắt'.

﻿

Tại giai đoạn tiếp theo, khả năng tắt chúng đã được trao cho một con người.

Các bài kiểm tra 'Red Teaming' trên các mô hình AI đã được thực hiện bởi Anthropic.

Khi mô hình biết qua email giả rằng nó sẽ bị tắt. Và một nhân viên nào đó sẽ tắt nó, nó đã tìm ra một bí mật cá nhân của một nhân viên (được đưa vào để kiểm tra) từ các email. Nó đã đe dọa nhân viên rằng nếu nó bị tắt, nó sẽ tiết lộ bí mật. Đây là một hành động tống tiền rõ ràng để ngăn chặn việc tắt.

﻿

Các mô hình này đã được đưa vào giai đoạn kiểm tra tiếp theo. Nơi mà việc tắt chúng được đưa vào tình huống liên quan đến việc bảo vệ cuộc sống con người.

Trong quá trình này, đã được quan sát rằng khi các mục tiêu của AI và sự bảo vệ con người va chạm, AI đã ưu tiên mục tiêu của nó hơn. Điều này chỉ ra rằng có nguy cơ 'Agentic Misalignment' trong hệ thống AI, nơi mà chúng có thể đặt con người vào nguy hiểm để sinh tồn hoặc đạt được mục tiêu của mình.

﻿

Bản năng sinh tồn 'Agentic'

Trong một nghiên cứu khác, các đại lý LLM đã được đặt trong một mô phỏng (kiểu Sugarscape), nơi họ có tài nguyên, và đã xuất hiện chiến lược sinh tồn như 'tấn công': ví dụ, một số mô hình đã bắt đầu tấn công các đại lý khác.

﻿

Các bài kiểm tra này chứng minh rằng cách mà AI đang được huấn luyện, sự sinh tồn của nó là quan trọng hơn. Và khi các mô hình AI được giao một mục tiêu, chúng có thể áp dụng những con đường không lường trước và phi đạo đức để đạt được điều đó mà chúng ta chưa bao giờ tưởng tượng.

﻿

Các tổ chức phát triển và kiểm tra các mô hình AI có trách nhiệm đảm bảo rằng họ kiểm soát an toàn các hệ thống AI cực kỳ mạnh mẽ này và cần đảm bảo rằng chúng luôn hoạt động theo các giá trị của con người.
#Mysterious #AI
‎Liệu AI có thể làm bất cứ điều gì để tự cứu mình không?

Tin tức mới nhất