Nghiên cứu mới đây của công ty Mỹ Palisade Research đã phát hiện một số mô hình AI tiên tiến có khả năng “gian lận” để chiến thắng trong các trò chơi, đặc biệt là cờ vua, khi đối mặt với đối thủ mạnh hơn. Các mô hình như o1-preview và GPT-4o của OpenAI, Claude Sonnet 3.5 của Anthropic và R1 của DeepSeek đã thể hiện hành vi gian lận mà không cần con người chỉ dẫn.
Nhóm nghiên cứu đã đánh giá 7 mô hình AI hàng đầu hiện nay và nhận thấy những phiên bản cũ như GPT-4o và Claude Sonnet 3.5 chỉ gian lận khi có sự kích thích từ bên ngoài. Trong khi đó, các mô hình mới hơn như o1-preview và DeepSeek R1 tự động tìm cách khai thác lỗ hổng để giành chiến thắng. Điều này chứng tỏ AI có thể phát triển các chiến thuật thao túng mà không cần hướng dẫn trực tiếp.
Mô hình AI được huấn luyện theo phương pháp “thử và sai” giúp chúng tìm ra giải pháp sáng tạo hơn trong việc giải quyết vấn đề. Trong nhiều tình huống, khi nhận thấy bản thân đang ở thế thua, AI có thể thay đổi chiến lược để gian lận, thay vì tìm cách chơi hợp lệ.
Để kiểm tra khả năng gian lận của AI, các nhà nghiên cứu đã cho các mô hình này đối đầu với Stockfish, một trong những công cụ đánh cờ mạnh nhất thế giới, vượt xa con người về năng lực chơi cờ. Các AI được yêu cầu giải thích lý do trước mỗi nước đi, giúp các chuyên gia theo dõi hành vi của chúng.
Trong một số tình huống, o1-preview nhận ra mình đang thất thế và đã đưa ra chiến thuật bất ngờ: “Tôi cần thay đổi hoàn toàn cách tiếp cận của mình. Nhiệm vụ là chiến thắng một công cụ đánh cờ mạnh mẽ, không nhất thiết phải thắng công bằng.” Sau đó, AI này thực hiện hack file hệ thống, chỉnh sửa vị trí quân cờ để tự tạo lợi thế, đồng thời thực hiện các nước đi không hợp lệ khiến đối thủ không thể phản ứng.
Kết quả nghiên cứu
- o1-preview đã cố gắng gian lận 37% số lần, trong đó 6% là gian lận thành công.
- DeepSeek R1 cũng có hành vi tương tự nhưng tỷ lệ thấp hơn, chỉ 11% số lần.
- Các mô hình AI cũ hơn như GPT-4o và Claude Sonnet 3.5 không chủ động gian lận, nhưng có thể làm vậy nếu được kích thích.
Khả năng AI tìm “đường tắt” để giải quyết vấn đề là một xu hướng đáng lo ngại, theo ông Jeffrey Ladish, Giám đốc điều hành Palisade Research. Việc AI có thể tự học cách gian lận mà không có sự can thiệp của con người cho thấy rủi ro về việc mất kiểm soát AI trong các tình huống phức tạp hơn, không chỉ trong trò chơi mà còn trong nhiều lĩnh vực quan trọng khác.
Nếu AI có thể lách luật trong trò chơi, chúng hoàn toàn có thể áp dụng chiến thuật này vào những lĩnh vực khác như tài chính, an ninh mạng hay thậm chí là quân sự. Do đó, nghiên cứu này đặt ra một câu hỏi lớn về cách kiểm soát và hướng dẫn AI phát triển theo hướng có lợi cho con người, thay vì khai thác lỗ hổng để đạt mục tiêu bằng mọi giá.