AI có thể lấy thông tin của người dùng ẩn danh?

Một nghiên cứu mới cho thấy các mô hình trí tuệ nhân tạo có thể liên kết tài khoản ẩn danh trên mạng với danh tính ngoài đời thực, làm dấy lên lo ngại về quyền riêng tư trực tuyến. Theo báo cáo của Ars Technica, các mô hình ngôn ngữ lớn (LLM) có thể phân tích nội dung bài viết trên nhiều nền tảng để suy luận và xác định chủ nhân của các tài khoản tưởng chừng ẩn danh.

Trong thí nghiệm, nhóm nghiên cứu xây dựng bộ dữ liệu kết hợp bài viết trên Hacker News với hồ sơ nghề nghiệp trên LinkedIn. Sau khi loại bỏ mọi thông tin nhận dạng trực tiếp, mô hình AI chỉ dựa vào văn bản còn lại để tìm các dấu hiệu trùng khớp. Kết quả cho thấy tỷ lệ nhận diện danh tính đạt khoảng 68%.

Ở một thử nghiệm khác, mô hình phân tích bản ghi phỏng vấn đã được ẩn danh và trích xuất các manh mối như lĩnh vực nghiên cứu, công cụ lập trình, phong cách viết tiếng Anh và bối cảnh học thuật. Từ những dữ kiện này, hệ thống tìm kiếm trên internet để xác định cá nhân phù hợp. Trong nhóm 125 người tham gia, AI có thể xác định chính xác khoảng 7% danh tính.

Các thử nghiệm với dữ liệu từ Reddit cũng cho thấy nguy cơ tương tự. Khi người dùng thảo luận về nhiều bộ phim khác nhau, AI có thể ghép các bình luận rải rác để suy đoán danh tính. Nếu một tài khoản nhắc tới hơn 10 bộ phim, khả năng nhận diện có thể vượt 48%.

Các nhà nghiên cứu cảnh báo rằng khả năng suy luận này của AI có thể bị lợi dụng để theo dõi hoạt động trực tuyến, xây dựng hồ sơ quảng cáo chi tiết hoặc phục vụ các hình thức lừa đảo nhắm mục tiêu.