Theo một cuộc điều tra gần đây của Proof News được Wall Street Journal đăng tải, ba công ty công nghệ lớn – Apple, Nvidia và Anthropic – bị cáo buộc đã sử dụng một bộ dữ liệu có nguồn gốc từ YouTube mà không được sự cho phép của chủ sở hữu nội dung.
Bộ dữ liệu này, do tổ chức phi lợi nhuận EleutherAI tạo ra, chứa bản ghi từ hơn 173.000 video YouTube, bao gồm nội dung từ các kênh nổi tiếng như Marques Brownlee và MrBeast, cũng như các hãng tin lớn như The New York Times, BBC và ABC News.
Marques Brownlee, một YouTuber có ảnh hưởng lớn, đã lên tiếng về vấn đề này trên mạng xã hội X (trước là Twitter): “Apple đã sử dụng dữ liệu từ nhiều nguồn để huấn luyện AI của họ, trong đó có cả bản ghi từ các video YouTube của tôi.”
YouTube, kho lưu trữ video lớn nhất thế giới, được coi là nguồn dữ liệu quý giá cho việc phát triển AI. CEO YouTube Neal Mohan đã tuyên bố rằng việc sử dụng dữ liệu YouTube để huấn luyện các mô hình AI mà không được phép là vi phạm điều khoản dịch vụ của nền tảng.
Vấn đề minh bạch trong việc sử dụng dữ liệu để phát triển AI đang ngày càng được quan tâm. Gần đây, Apple đã phải đối mặt với chỉ trích từ các nghệ sĩ và nhiếp ảnh gia về tính minh bạch trong nguồn dữ liệu huấn luyện cho tính năng AI mới của họ.
Trong khi đó, OpenAI cũng né tránh câu hỏi về việc có sử dụng video YouTube để phát triển công cụ tạo video AI Sora hay không. Giám đốc công nghệ Mira Murati chỉ cho biết họ sử dụng “dữ liệu được cấp phép hoặc có sẵn công khai” mà không đi vào chi tiết.