AI RACE— Cuộc đua AI
Nghiên cứu

The Atlantic vạch trần 4 dataset khổng lồ đào tạo AI âm nhạc

Nhà báo của The Atlantic phát hiện 4 datasets chứa hàng chục triệu bài hát được sử dụng để đào tạo AI, và tạo công cụ cho phép công chúng tìm kiếm những dữ liệu này một cách minh bạch.

01:46 21/06/2026
The Atlantic vạch trần 4 dataset khổng lồ đào tạo AI âm nhạc

The Atlantic công bố các nguồn dữ liệu "bí mật"

Nhà báo Alex Reisner của The Atlantic vừa công bố một khám phá đáng chú ý: anh phát hiện 4 datasets chứa hàng chục triệu bài hát được sử dụng để đào tạo các mô hình AI. Để tăng tính minh bạch, The Atlantic đã chuyển đổi các dataset này thành cơ sở dữ liệu có khả năng tìm kiếm, cho phép bất kỳ ai cũng có thể kiểm tra những bài hát nào của mình nằm trong dữ liệu huấn luyện.

Quy mô vô cùng lớn

Theo phát hiện, hai trong số bốn datasets này có kích thước đáng kinh ngạc — chứa lần lượt 12 triệu và 9 triệu bài hát. Hai datasets còn lại nhỏ hơn nhưng vẫn rất đáng kể, mỗi cái chứa hơn 100.000 bài. Điều đáng chú ý là các datasets này đã được tải xuống hàng ngàn lần, và mặc dù không thể xác định chính xác ai sử dụng, cả Google lẫn Stability AI đều đã xác nhận sử dụng chúng trong các bài báo nghiên cứu của mình.

Vấn đề quyền tác giả và vi phạm Điều khoản Dịch vụ

Thách thức nằm ở cách thức các datasets này được sử dụng. Ba trong số bốn datasets được phân phối dưới dạng danh sách liên kết tới YouTube hoặc Spotify. Để biến những liên kết này thành dữ liệu đào tạo thực tế, các nhà phát triển AI sử dụng những công cụ tự động hóa có khả năng vượt qua các cơ chế đăng nhập, quảng cáo và những biện pháp bảo vệ của các nền tảng này. Vấn đề là các công cụ này vi phạm rõ ràng các Điều khoản Dịch vụ của YouTube và Spotify.

Những bài hát trong các datasets bao gồm tên tuổi lừng lẫy từ Lady Gaga, Fred Again, Radiohead, Aphex Twin, cho tới Wu-Tang Clan, Bruce Springsteen, và nhà soạn nhạc thử nghiệm Hainbach.

Nước đi minh bạch của The Atlantic

Để giúp công chúng có cái nhìn trong suốt hơn về những dữ liệu này, The Atlantic đã xây dựng nền tảng "AI Watchdog" cho phép tìm kiếm các bài hát, sách và nội dung khác được sử dụng để đào tạo các mô hình AI trên toàn cầu. Đây là bước tiến quan trọng trong việc tăng cường trách nhiệm và minh bạch trong lĩnh vực AI, đặc biệt khi vấn đề sử dụng dữ liệu nghệ sĩ mà không có sự đồng ý rõ ràng vẫn là chủ đề tranh cãi nóng hổi.

◗ Nguồn

The Verge21-06