Gemini 2.5 Computer Use có thể lướt web như người thật

Google vừa công bố mô hình AI thế hệ mới mang tên Gemini 2.5 Computer Use, một bước tiến lớn đưa trí tuệ nhân tạo “thoát khỏi” giới hạn của chatbot truyền thống. Điểm đột phá của mô hình này là khả năng tương tác trực tiếp với giao diện trình duyệt web như người thật – từ việc click chuột, cuộn trang, nhập liệu cho đến kéo-thả các thành phần giao diện.

Bằng cách sử dụng năng lực nhận thức và suy luận hình ảnh, AI có thể “nhìn” vào màn hình, hiểu nội dung và quyết định hành động tiếp theo, tạo ra một vòng lặp phản hồi thông minh cho đến khi nhiệm vụ được hoàn thành.

Tiềm năng thực thi tác vụ

Khả năng “hành động” này mở ra một kỷ nguyên mới cho AI thực thi tác vụ (Agentic AI). Mô hình tự động hoàn thành các công việc trực tuyến phức tạp mà trước đây cần thao tác thủ công. Ví dụ, AI có thể tự động tìm kiếm, so sánh và thêm một sản phẩm vào giỏ hàng dựa trên mô tả của bạn, hoặc tự động điền và gửi một biểu mẫu đăng ký dịch vụ. Thậm chí, trong các dự án nội bộ của Google như kiểm thử giao diện (UI testing), công nghệ này đã được áp dụng để rút ngắn đáng kể thời gian phát triển phần mềm.

Google khẳng định mô hình Computer Use của họ “nặng ký” hơn các đối thủ hàng đầu trên nhiều bài kiểm tra chuẩn mực dành cho web và di động. Thậm chí, một số thử nghiệm nội bộ còn cho thấy AI có thể vượt qua cả CAPTCHA của chính Google Search.

Dù vậy, hiện tại mô hình chỉ được tối ưu hóa cho môi trường trình duyệt web và chưa được mở rộng để điều khiển toàn bộ hệ điều hành máy tính ở cấp độ máy tính để bàn. Và mới hỗ trợ 13 loại thao tác cơ bản và đang mở cửa cho các nhà phát triển thông qua Google AI Studio và Vertex AI.

Google cũng đã chia sẻ các bản demo cho thấy Gemini 2.5 Computer Use còn chơi được game 2048 hoặc duyệt các trang web phức tạp để tìm kiếm thông tin theo xu hướng.

Cuộc đua AI lên ngôi

Việc Google công bố Gemini 2.5 Computer Use chỉ một ngày sau khi OpenAI ra mắt các ứng dụng ChatGPT Agent cho thấy cuộc đua về Agentic AI đang dần “nóng” lên.

Tuy nhiên, Google đã đặt yếu tố an toàn lên hàng đầu, tích hợp các biện pháp bảo vệ để ngăn AI thực hiện các hành vi nguy hiểm như truy cập trái phép hoặc xâm phạm bảo mật.

Sự ra mắt này không chỉ là một cột mốc công nghệ mà còn là lời khẳng định về vai trò của AI trong tương lai, nơi trợ lý thụ động sẽ trở nên chủ động và mạnh mẽ hơn, thay đổi căn bản cách chúng ta làm việc và tương tác với Internet.