Gmail đã có bản nâng cấp lớn nhất trong những năm qua, đây là hệ thống phân loại văn bản mang tên RETVec, bộ tạo vecto văn bản linh hoạt và hiệu quả. Google cho biết, nó có khả năng nhận biết các email chứa các ký tự đặc biệt, biểu tượng cảm xúc, lỗi chính tả và ký tự rác mà trước đây chỉ có con người mới nhận biết được. Trước đây, các thư rác thường sử dụng nhiều ký tự đặc biệt để tránh bị phát hiện bởi hệ thống bảo mật của Gmail.
Theo Google, công nghệ RETVec có khả năng phục hồi các thao tác ở cấp độ ký tự, bao gồm chèn, xóa, lỗi chính tả, từ đồng âm và thay thế phương pháp gõ sử dụng ký tự thay thế. Mô hình RETVec được đào tạo dựa trên bộ mã hóa ký tự mới có khả năng mã hóa tất cả các ký tự và từ trong bộ UTE-8 một cách hiệu quả. Điều này giúp RETVec hoạt động tốt trên hơn 100 ngôn ngữ mà không cần sử dụng bảng tra cứu hoặc kích thước từ vựng cố định.
Google cho biết, việc sử dụng kích thước từ vựng cố định hoặc bảng tra cứu các từ đồng âm sẽ tốn nhiều tài nguyên. RETVec chỉ sử dụng 200.000 tham số thay vì hàng triệu, cho phép nền tảng lọc thư rác của Google có thể chạy trên một thiết bị cục bộ. Google cũng hy vọng RETVec sẽ loại bỏ các cuộc tấn công sử dụng từ hình tượng đồng âm.
Google cũng cho biết thêm, việc thay thế phân loại thư tác của Gmail bằng RETVec sẽ cải thiện tỷ lệ phát hiện thư rác lên đến 38% và giảm tỷ lệ phát hiện giả xuống còn 19.4%. Mô hình RETVec đã trở thành một trong những nâng cấp lớn nhất của Google trong những năm gần đây. Sau một năm thử nghiệm nội bộ, Google đã triển khai RETVec cho tất cả tài khoản Gmail của người dùng.