《大西洋月刊》的記者 Alex Reisner 最近發現了四個用於訓練 AI 模型的音樂數據集,並將它們完全公開供公眾搜索。其中兩個數據集非常龐大,包含 1,200 萬和 900 萬首音樂曲目。其餘兩個雖然小得多,但每個都有超過 100,000 首歌曲,依然代表了相當可觀的訓練數據。根據 Reisner 的說法,這些數據集已被下載了數千次,雖然無法確定到底有誰使用過,但 Google 和 Stability 都在他們的研究論文中確認使用過這些數據集。
一些來源,例如 Free Music Archive 數據集,雖然可以免費用於個人串流,但在商業應用中需要獲得許可。雖然這些數據集理論上在互聯網上是免費的,但將它們用作訓練數據並不僅僅是下載 ZIP 文件然後給 AI 模型使用。正如 Reisner 所解釋的:
「我找到的三個數據集是以 YouTube 或 Spotify 上歌曲的鏈接列表形式分發的。AI 開發者使用自動化工具下載實際音頻,其中一些工具允許開發者繞過登錄、廣告,以及可能為創作者賺取收入或訂閱的機制。這些工具違反了這些平台的服務條款。」
出現在數據集中的名字包括流行歌手如 Lady Gaga 和 Fred Again..,還有 Radiohead、Aphex Twin、Wu-Tang Clan、Bruce Springsteen,以及實驗作曲家 Hainbach。你可以前往《大西洋月刊》的 AI 監察網站,自己搜索用於訓練全球 AI 模型的歌曲、書籍和其他媒體。
