• :
  • :

Kho dữ liệu nhạc lớn nhất thế giới trở thành mỏ vàng cho trí tuệ nhân tạo

Kho dữ liệu nhạc khổng lồ từ Spotify đang trở thành mỏ vàng cho trí tuệ nhân tạo, làm dấy lên lo ngại về bản quyền và khai thác dữ liệu.

Kho dữ liệu nhạc lớn nhất thế giới trở thành mỏ vàng cho trí tuệ nhân tạo

Kho dữ liệu âm nhạc khổng lồ do Anna’s Archive công bố đang đặt ngành công nghiệp âm nhạc trước thách thức mới trong kỷ nguyên trí tuệ nhân tạo. Đồ họa: Hạo Thiên

Một nhóm tin tặc vừa gây chấn động giới công nghệ và âm nhạc khi công bố đã thu thập và lưu trữ khoảng 300 terabyte dữ liệu từ Spotify, là nền tảng phát nhạc trực tuyến lớn nhất thế giới.

Kho dữ liệu này bao gồm hàng chục triệu tệp âm thanh, ảnh bìa album và khối lượng siêu dữ liệu khổng lồ, hiện được công bố thông qua Anna’s Archive, một công cụ tìm kiếm mã nguồn mở dành cho các thư viện ngầm.

Theo thông tin được công bố, Anna’s Archive hiện lưu trữ 86 triệu tệp âm thanh cùng hơn 256 triệu dòng siêu dữ liệu bài hát, tổng dung lượng khoảng 300TB.

Siêu dữ liệu âm nhạc bao gồm tên nghệ sĩ, nhạc sĩ, nhà sản xuất, thể loại, thời lượng, ngày phát hành và mã ISRC, mã định danh quốc tế cho từng bản ghi âm.

Với 186 triệu mã ISRC, nền tảng này tự nhận đang sở hữu cơ sở dữ liệu siêu dữ liệu âm nhạc công khai lớn nhất thế giới.

Nhóm đứng sau Anna’s Archive cho biết mục tiêu của họ là xây dựng một “kho lưu trữ bảo tồn” âm nhạc toàn diện, cho phép bất kỳ ai có đủ dung lượng lưu trữ đều có thể sao chép.

Theo kế hoạch, ngoài siêu dữ liệu đã được phát hành, 86 triệu tệp nhạc, chiếm khoảng 99,6% tổng lượt nghe trên Spotify – sẽ lần lượt được công bố thông qua các tệp torrent, sắp xếp theo mức độ phổ biến.

Động thái này đặc biệt đáng chú ý trong bối cảnh trí tuệ nhân tạo đang phát triển nhanh chóng. Các công ty AI hiện phụ thuộc mạnh vào dữ liệu quy mô lớn để huấn luyện mô hình, từ văn bản, hình ảnh cho tới âm thanh.

Một kho dữ liệu âm nhạc đồ sộ như vậy có thể trở thành nguồn tài nguyên hấp dẫn cho việc đào tạo các mô hình AI tạo nhạc, phân tích âm thanh hoặc đa phương thức, làm gia tăng căng thẳng vốn đã tồn tại giữa ngành AI và các chủ sở hữu bản quyền.

Spotify xác nhận đã phát hiện và vô hiệu hóa các tài khoản liên quan đến việc sao chép trái phép dữ liệu, đồng thời triển khai thêm các biện pháp bảo vệ.

Theo công ty, cuộc điều tra sơ bộ cho thấy một bên thứ ba đã thu thập siêu dữ liệu công khai và sử dụng các biện pháp bất hợp pháp để vượt qua hệ thống quản lý bản quyền kỹ thuật số (DRM), từ đó truy cập một phần tệp âm thanh.

Anna’s Archive hoạt động như một công cụ tìm kiếm, giúp người dùng truy cập nội dung được lưu trữ ở các nguồn khác trên internet, và khẳng định bản thân nền tảng không trực tiếp lưu trữ nội dung vi phạm bản quyền.

Trước đây, kho dữ liệu của nền tảng chủ yếu là sách, bài nghiên cứu và tài liệu học thuật. Việc mở rộng sang siêu dữ liệu và âm nhạc đánh dấu bước đi mới, đồng thời khiến Anna’s Archive trở thành mục tiêu thường xuyên trong các yêu cầu gỡ bỏ nội dung từ chủ sở hữu bản quyền.

Nhóm vận hành Anna’s Archive cho rằng các thư viện âm nhạc hiện nay tập trung quá nhiều vào nghệ sĩ nổi tiếng và các tệp chất lượng cao, khiến việc lưu trữ toàn bộ lịch sử âm nhạc nhân loại trở nên khó khăn.

Bằng cách ưu tiên tính toàn diện và sử dụng chỉ số mức độ phổ biến của Spotify, họ tuyên bố muốn tạo ra danh sách nhạc đại diện cho tất cả các bản ghi từng được phát hành.

Dù được biện minh dưới danh nghĩa “bảo tồn văn hóa”, kho dữ liệu 300TB này vẫn đặt ra câu hỏi lớn về ranh giới giữa lưu trữ, vi phạm bản quyền và việc khai thác dữ liệu trong kỷ nguyên AI, nơi giá trị của dữ liệu ngày càng trở nên nhạy cảm và gây tranh cãi.

Nguồn:https://laodong.vn/cong-nghe/kho-du-lieu-nhac-lon-nhat-the-gioi-tro-thanh-mo-vang-cho-tri-tue-nhan-tao-1630181.ldo Sao chép liên kết