大戰(zhàn)一觸即發(fā):OpenAI轉(zhuǎn)錄超過100萬小時(shí)的YouTube視頻來訓(xùn)練模型 – 藍(lán)點(diǎn)網(wǎng)
本周早些時(shí)候紐約時(shí)報(bào)發(fā)布了一篇內(nèi)容描述人工智能公司 OpenAI 在收集高質(zhì)量訓(xùn)練數(shù)據(jù)方面遇到的大戰(zhàn)的困難,昨夜紐約時(shí)報(bào)發(fā)布新內(nèi)容描述 OpenAI 如何處理這些問題。觸即
OpenAI 一開始迫切需要海量的錄超藍(lán)點(diǎn)杭州錢塘酒店上門服務(wù)靠譜電vx《134-8006-5952》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)訓(xùn)練數(shù)據(jù),報(bào)道稱為了解決訓(xùn)練數(shù)據(jù)問題 OpenAI 開發(fā)了語音轉(zhuǎn)錄模型 Whisper。過萬
該模型被用于轉(zhuǎn)錄 OpenAI 獲取的小時(shí)訓(xùn)練超過 100 萬小時(shí)的 YouTube 視頻,也就是視頻將 YouTube 視頻中的音頻內(nèi)容轉(zhuǎn)錄文字,然后再拿去訓(xùn)練 GPT-4。模型
OpenAI 顯然知道自己的大戰(zhàn)的這種做法存在法律上的爭議,不過該公司相信這是觸即合理使用的,而且 OpenAI 總裁 Greg Brockman 親自參與了上述所使用視頻的錄超藍(lán)點(diǎn)收集工作。
在被紐約時(shí)報(bào)報(bào)道后,過萬OpenAI 發(fā)言人表示,小時(shí)訓(xùn)練該公司為其每個(gè)模型策劃了獨(dú)特的視頻杭州錢塘酒店上門服務(wù)靠譜電vx《134-8006-5952》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)數(shù)據(jù)集,以幫助該公司了解世界并保持其全球研究競爭力,模型該公司使用了眾多數(shù)據(jù)源,大戰(zhàn)的包括公開數(shù)據(jù)和非公開數(shù)據(jù)的合作伙伴,并且 OpenAI 在考慮生成自己的合成數(shù)據(jù)。
不過早在 2021 年 OpenAI 就耗盡了有用的數(shù)據(jù)供應(yīng),包括轉(zhuǎn)錄的超過 100 萬小時(shí)的 YouTube 視頻、播客和其他有聲讀物,那時(shí)候 OpenAI 已經(jīng)使用這些數(shù)據(jù)進(jìn)行訓(xùn)練,模型數(shù)據(jù)也包括 GitHub 上的計(jì)算機(jī)代碼、國際象棋走棋數(shù)據(jù)庫以及 Quizlet 等。

谷歌稱相關(guān)行為已經(jīng)違規(guī):
對(duì)于上述報(bào)道谷歌自然不會(huì)坐視不理的,畢竟對(duì)谷歌來說,YouTube 內(nèi)容庫現(xiàn)在就是個(gè)金山,谷歌自己能用,但絕對(duì)不能給其他公司用。
谷歌發(fā)言人稱已經(jīng)注意到有關(guān) OpenAI 活動(dòng)的未經(jīng)證實(shí)的報(bào)告,谷歌的 robots.txt 文件和服務(wù)條款都禁止未經(jīng)授權(quán)的抓取或下載 YouTube 內(nèi)容,這與谷歌相關(guān)的條款相符。
本周 YouTube CEO 也就 OpenAI 使用 YouTube 數(shù)據(jù)來訓(xùn)練 Sora 模型的可能性發(fā)布了類似言論,同時(shí)她警告稱當(dāng)有明確的法律或技術(shù)依據(jù)時(shí),谷歌會(huì)采取技術(shù)和法律措施來防止此類未經(jīng)授權(quán)的使用。
谷歌自己使用 YouTube 數(shù)據(jù)訓(xùn)練 AI:
雖然谷歌強(qiáng)調(diào)保護(hù)創(chuàng)作者的內(nèi)容,不過谷歌也承認(rèn)他們也使用 YouTube 視頻來訓(xùn)練 AI,谷歌此前已經(jīng)透露該公司與創(chuàng)作者的協(xié)議中,可以使用一些 YouTube 內(nèi)容來訓(xùn)練模型。
數(shù)據(jù)收集方法也是類似的,即將 YouTube 的音頻內(nèi)容轉(zhuǎn)換為文字內(nèi)容后,再拿去訓(xùn)練模型,對(duì)谷歌來說 YouTube 的內(nèi)容庫可以提供海量數(shù)據(jù),是個(gè)不可多得的幾乎不用花錢的數(shù)據(jù)源。
接下來是否會(huì)出現(xiàn)法律訴訟:
考慮到 OpenAI 對(duì)數(shù)據(jù)的迫切需求,OpenAI 通過各種方式抓取受版權(quán)保護(hù)的內(nèi)容不足為奇,在初期也就是 2021 年前后這種情況估計(jì)還不會(huì)引起關(guān)注,但現(xiàn)在情況已經(jīng)不同了。
如果谷歌找到證據(jù)表明 OpenAI 抓取 YouTube 內(nèi)容用于訓(xùn)練,那么谷歌肯定會(huì)起訴 OpenAI,畢竟 OpenAI 的行為確實(shí)可能已經(jīng)違反了 YouTube 相關(guān)協(xié)議。
所以或許在不久之后我們就能看到各種因?yàn)閮?nèi)容版權(quán)問題引起的法律大戰(zhàn),到時(shí)候牽涉進(jìn)來的自然也不只是谷歌和 OpenAI,可能還有更多 AI 公司和內(nèi)容提供商牽涉進(jìn)來。
骨軟筋酥網(wǎng)



