Google vừa giới thiệu Gemini 3.5 Live Translate, mô hình AI mới có khả năng dịch giọng nói theo thời gian thực với hơn 70 ngôn ngữ. Công nghệ này hứa hẹn giúp các cuộc trò chuyện xuyên biên giới diễn ra tự nhiên hơn mà không cần chờ người nói kết thúc câu như các công cụ dịch truyền thống.
Khác với phương thức dịch từng đoạn, Gemini 3.5 Live Translate xử lý và phát bản dịch gần như đồng thời với lời nói gốc, chỉ chậm vài giây. Hệ thống cũng được thiết kế để hoạt động hiệu quả trong môi trường nhiều tiếng ồn hoặc khi nhiều người cùng tham gia hội thoại.
Điểm đáng chú ý là AI không chỉ dịch nội dung mà còn cố gắng giữ lại ngữ điệu, tốc độ nói và cảm xúc của người dùng, giúp cuộc trò chuyện trở nên chân thực hơn. Công nghệ này hiện đã được tích hợp vào Gemini Live API, Google AI Studio cùng các ứng dụng phổ biến như Google Meet và Google Translate trên Android và iOS.
Đối với Google Meet, tính năng mới đang được thử nghiệm với một số khách hàng Google Workspace trước khi mở rộng trong thời gian tới. Số ngôn ngữ hỗ trợ tăng từ 5 lên hơn 70, cho phép tạo hơn 2.000 cặp ngôn ngữ khác nhau trong cùng một cuộc họp.
Trong khi đó, người dùng Google Translate có thể sử dụng tính năng dịch trực tiếp trên điện thoại hoặc tai nghe. Trên Android, người dùng thậm chí có thể áp điện thoại lên tai để nghe bản dịch riêng tư như đang thực hiện một cuộc gọi.
Google cho biết toàn bộ âm thanh do AI tạo ra đều được gắn dấu nhận diện SynthID nhằm hỗ trợ phát hiện nội dung do trí tuệ nhân tạo tạo sinh, góp phần tăng tính minh bạch và hạn chế nguy cơ phát tán thông tin sai lệch.










