Theo cuộc điều tra của Wired và Proof News, Apple, Nvidia và Salesforce đã sử dụng phụ đề từ 173.536 video YouTube, trích xuất từ hơn 48.000 kênh, để huấn luyện các mô hình AI của mình. Danh sách các nhà sáng tạo nội dung bị ảnh hưởng bao gồm nhiều tên tuổi lớn như Marques Brownlee, MrBeast, PewDiePie, Stephen Colbert, John Oliver và Jimmy Kimmel.
Wired trích dẫn kết quả điều tra của Proof News: “Một số công ty công nghệ giàu có nhất thế giới trong đó có cả Apple đã sử dụng tài liệu từ hàng nghìn video YouTube để huấn luyện AI, bất chấp quy định của YouTube cấm thu thập tài liệu từ nền tảng mà không có sự cho phép.”
Việc thu thập dữ liệu này được cho là do EleutherAI, một tổ chức phi lợi nhuận tự nhận là hỗ trợ các nhà phát triển huấn luyện mô hình AI, thực hiện. Theo một bài báo nghiên cứu của EleutherAI, dữ liệu này là một phần của bộ dữ liệu có tên Pile.
Pile là một bộ dữ liệu mở, có thể truy cập bởi bất kỳ ai trên internet với đủ không gian lưu trữ và sức mạnh tính toán. Wired phát hiện ra rằng các công ty như Apple, Nvidia và Salesforce đều đã sử dụng Pile để huấn luyện AI của họ.
Đáng chú ý là chỉ có phụ đề, không phải hình ảnh, từ các video YouTube được sử dụng để huấn luyện. Tuy nhiên, các tệp phụ đề này thực chất là bản ghi chép (transcript) toàn bộ nội dung video.
Sau khi báo cáo của Wired được công bố, MKBHD đã bày tỏ sự bất bình trên nền tảng X: “Tôi phải trả tiền cho một dịch vụ (tính theo phút) để có được bản ghi chép chính xác hơn cho video của mình, sau đó tôi tải lên hệ thống phụ đề của YouTube. Vì vậy, các công ty thu thập bản ghi chép này đang đánh cắp công việc đã trả tiền theo nhiều cách”.