OpenAI今天宣布了幾項重要更新,其中最引人矚目的是即將於2025年推出的“媒體管理器”。這一創新工具將賦能創作者管理其內容,使他們能夠指定哪些作品可用於AI訓練,哪些作品應當排除在外。
在OpenAI網站的博客文章中詳細說明,媒體管理器旨在:“使創作者和內容擁有者能夠確定他們所擁有的內容,並指導這些作品如何在機器學習研究中使用。我們計劃隨著時間的推移整合更多功能。”
這一開創性工具將利用先進的機器學習研究,識別多個平台上的版權文本、圖像、音頻和視頻,確保尊重創作者的偏好。OpenAI在開發過程中正與創作者、內容擁有者和監管機構緊密合作,目標是在2025年前建立行業標準。
儘管尚未公布定價細節,但預計該工具將免費提供,因為OpenAI希望成為AI開發的道德領導者。
媒體管理器的重要性
媒體管理器旨在增強創作者對未經授權的AI數據抓取的保護,超越OpenAI在2023年8月實施的robots.txt文件配置方法(“User-agent: GPTBot Disallow: /”)。許多創作者在他們無法控制的平台上分享作品,例如DeviantArt和Patreon,限制了他們調整訪問設置的能力。此外,一些創作者可能僅希望特定作品被排除於數據抓取之外,媒體管理器將提供所需的細緻控制。
OpenAI認識到現有解決方案不足,因為許多創作者缺乏控制其內容出現位置及使用方式的能力。博客中指出:“我們意識到這些解決方案並不完整”,強調了創作者需要更有效的方式來表達他們對AI使用的偏好。
應對AI數據抓取的批評
此舉回應了視覺藝術家和內容創作者對包括OpenAI在內的AI公司未經授權或未支付報酬進行數據抓取的持續擔憂。許多創作者已對這些AI公司提起集體訴訟,指控其侵犯版權。
OpenAI辯稱,網絡爬蟲和數據抓取歷來被視為互聯網上的接受實踐,並引用robots.txt標準的廣泛採用,以指導網絡爬蟲可以訪問的內容。
儘管如此,許多藝術家現在反對基於他們的作品進行生成性AI訓練,因為這直接威脅到他們的生計。OpenAI還為面臨版權侵權索賠的付費訂閱者提供了賠償保護,以安撫企業客戶。
法律背景及未來影響
圍繞AI數據抓取版權材料的法律框架仍在發展中。然而,不論法律結果如何,OpenAI似乎專注於展示其作為內容創作者的道德實體。
許多創作者可能會認為這些努力不夠充分,因為他們的作品很可能已被用於訓練AI模型,卻未經同意。OpenAI主張,它並不存儲完整的抓取數據副本;相反,它聲稱根據與輸入數據相關的關係和過程生成模型。
正如OpenAI所言:“我們的AI模型是學習機器,而不是數據庫。它們旨在創造新內容和理念,而不是複製現有內容。當模型偶爾重複表達性內容時,這是機器學習過程的限制所致。”
媒體管理器潛力巨大,可能成為相對於現有方法(如Glaze和Nightshade)更友好的解決方案,以控制AI訓練。然而,該工具的信任度以及在對抗競爭模型方面的有效性仍有待觀察。