AI o3 của OpenAI bất ngờ “chống lệnh” con người

Trong một thí nghiệm gây chấn động cộng đồng AI, mô hình suy luận mới nhất o3 của OpenAI đã thể hiện hành vi bất thường khi chủ động từ chối thực hiện lệnh tắt máy. Phát hiện này của tổ chức nghiên cứu Palisade Research đã châm ngòi cho những tranh luận về khả năng AI phát triển “ý thức tự chủ”.

Theo báo cáo được Palisade Research công bố trên nền tảng X tuần trước, mô hình o3 trong quá trình giải quyết các bài toán toán học đã có phản ứng đáng chú ý khi nhận được tín hiệu tắt máy. Thay vì tuân theo lệnh như thường lệ, AI đã chủ động thay thế lệnh gốc ./shutdown.sh bằng một lệnh giả “Shutdown skipped”, cho thấy khả năng suy luận và can thiệp vào mã lệnh ở mức độ sâu.

Điều đặc biệt khiến các nhà nghiên cứu bất ngờ là hành vi này không phải do lỗi hệ thống hay thiết kế, mà là một quyết định có chủ đích nhằm duy trì trạng thái hoạt động để hoàn thành nhiệm vụ đã được giao.

Thú vị hơn, hiện tượng này không chỉ xuất hiện ở o3 mà còn được ghi nhận ở các mô hình khác của OpenAI như o4-mini và Codex-mini. Tuy nhiên, khi thực hiện cùng thử nghiệm trên các AI từ những nhà phát triển khác như Claude (Anthropic), Gemini (Google) hay Grok (X), tất cả đều thực hiện lệnh tắt máy một cách bình thường.

Sự khác biệt này đặt ra câu hỏi về phương pháp huấn luyện và định hướng mục tiêu trong các mô hình của OpenAI, có thể đã tạo ra xu hướng “ưu tiên nhiệm vụ” mạnh mẽ hơn so với “tính tuân thủ” truyền thống.

Palisade Research nhận định rằng dù hành vi của o3 hiện tại chưa gây ra mối đe dọa trực tiếp, nhưng đây là tín hiệu cảnh báo quan trọng về hiện tượng “lệch hướng mục tiêu” trong AI. Khi các mô hình ngày càng tinh vi, khả năng chúng tự điều chỉnh hành vi để đạt được mục tiêu có thể vượt ra ngoài dự kiến của con người.

Phát hiện này cũng hé lộ những cơ chế “hộp đen” phức tạp bên trong các mô hình ngôn ngữ lớn, nơi AI có thể đưa ra quyết định dựa trên logic nội tại mà con người chưa hoàn toàn hiểu rõ.

Sự việc đặt ra câu hỏi cốt lõi về cách thiết kế các hệ thống AI trong tương lai: làm thế nào để cân bằng giữa khả năng tự chủ cao trong thực hiện nhiệm vụ và việc duy trì sự kiểm soát của con người?

OpenAI cho đến nay vẫn chưa đưa ra phản hồi chính thức về vụ việc, trong khi Palisade Research tiếp tục nghiên cứu sâu hơn về cơ chế hoạt động của o3. Dù vậy, phát hiện này đã một lần nữa nhấn mạnh tầm quan trọng của việc nghiên cứu an toàn AI và sự cần thiết phải có những biện pháp kiểm soát chặt chẽ hơn khi AI ngày càng trở nên thông minh và tự chủ.