正在閱讀:

AI廠商拿Robots協(xié)議當(dāng)草紙,互聯(lián)網(wǎng)秩序“禮樂(lè)崩壞”

掃一掃下載界面新聞APP

AI廠商拿Robots協(xié)議當(dāng)草紙,互聯(lián)網(wǎng)秩序“禮樂(lè)崩壞”

隨著流量紅利的枯竭,互聯(lián)網(wǎng)進(jìn)入存量競(jìng)爭(zhēng)時(shí)期后,就得刺刀見(jiàn)紅了。

圖片來(lái)源:界面新聞 匡達(dá)

文|三易生活

就在一眾AI大模型廠商還在為盈利發(fā)愁時(shí),英偉達(dá)靠賣算力已成功登頂全球市值第一公司的寶座,再次證明了當(dāng)淘金熱洶涌時(shí)候、只有賣鐵鏟的最賺錢。但訓(xùn)練大模型不僅要算力、還要有數(shù)據(jù),以至于Reddit、X等內(nèi)容平臺(tái)紛紛做起了數(shù)據(jù)買賣這個(gè)生意。只不過(guò),如今這個(gè)生意也越來(lái)越不好做了。

近日根據(jù)路透社報(bào)道,內(nèi)容授權(quán)初創(chuàng)公司TollBit近日向出版商發(fā)出警告稱,多家人工智能公司正在規(guī)避他們用于阻止抓取內(nèi)容的通用網(wǎng)絡(luò)標(biāo)準(zhǔn),并將抓取的內(nèi)容用于訓(xùn)練生成式AI系統(tǒng)。幾乎在同一時(shí)間,知名科技雜志《Wired》也發(fā)文稱,AI搜索公司Perplexity存在繞過(guò)機(jī)器人排除協(xié)議(Robots Exclusion Protocol),以獲取受限網(wǎng)絡(luò)內(nèi)容的行為。

再算上此前OpenAI使用YouTube上的視頻內(nèi)容訓(xùn)練打模型,谷歌也曾被曝出修改用戶協(xié)議、以免費(fèi)獲取旗下平臺(tái)用戶數(shù)據(jù)的消息。似乎上至一線巨頭、下至初創(chuàng)企業(yè),AI行業(yè)儼然集體化身為了“數(shù)據(jù)小偷”。

一直以來(lái),數(shù)據(jù)無(wú)疑是訓(xùn)練AI大模型的基礎(chǔ),而高質(zhì)量數(shù)據(jù)更是決定了大模型的性能上限,這也正是AI廠商如同饕餮般吞噬數(shù)據(jù)的真相。為此他們可謂是滿世界買數(shù)據(jù),但現(xiàn)實(shí)卻是可供交易的數(shù)據(jù)已經(jīng)滿足不了大模型的胃口了。

當(dāng)正常買賣數(shù)據(jù)這條路不好走了之后,“偷數(shù)據(jù)”似乎就變成了AI廠商心照不宣的操作。比如這次被部分AI廠商無(wú)視的Robots Exclusion Protocol(以下簡(jiǎn)稱Robots協(xié)議),其實(shí)是一個(gè)存放于網(wǎng)站根目錄下的ASCII編碼文本文件,它是控制網(wǎng)站被搜索內(nèi)容的一種策略,也就是/Robots.txt。

Robots協(xié)議的唯一作用,就是告訴user-agent(網(wǎng)絡(luò)爬蟲)網(wǎng)站中的哪些內(nèi)容允許被爬取、哪些內(nèi)容又不能抓取。以2008年9月宣布屏蔽百度搜索引擎的淘寶為例,當(dāng)時(shí)這家電商網(wǎng)站的Robots協(xié)議非常簡(jiǎn)單,直接就禁止了“Baiduspider”、即百度蜘蛛訪問(wèn)網(wǎng)站的任何部分。依靠這樣的Robots協(xié)議,淘寶避免了流量外溢到百度,進(jìn)而催生了其站內(nèi)的競(jìng)價(jià)排名體系。

為什么這樣簡(jiǎn)簡(jiǎn)單單的代碼就能攔住了百度的爬蟲呢?這是因?yàn)榘俣群炇鹆恕痘ヂ?lián)網(wǎng)搜索引擎服務(wù)自律公約》,承諾遵守Robots協(xié)議,并愿意限制搜索引擎抓取應(yīng)有行業(yè)公認(rèn)合理的正當(dāng)理由、不利用這一協(xié)議進(jìn)行不正當(dāng)競(jìng)爭(zhēng)行為。這也是后來(lái)百度起訴360違反Robots協(xié)議時(shí),會(huì)大義凜然指責(zé)360搜索在明確承認(rèn)Robots協(xié)議約束力后、又規(guī)避了這個(gè)協(xié)議的底氣。

盡管Robots協(xié)議并不俱備法律層面的強(qiáng)制力,甚至都不是行業(yè)自律公約,實(shí)質(zhì)上僅僅只是一個(gè)君子協(xié)定,可是在過(guò)去三十年里,Robots協(xié)議在事實(shí)層面成為了網(wǎng)站和搜索引擎共同遵守的一個(gè)有關(guān)數(shù)據(jù)抓取的規(guī)則。一個(gè)缺乏強(qiáng)制力的君子協(xié)定能存在、并得到不同文化背景互聯(lián)網(wǎng)公司的認(rèn)可,自然是有它的道理。

Robots協(xié)議的成功之處,就在于做到了搜索引擎和網(wǎng)站的雙贏。其中搜索引擎抓取了網(wǎng)站的網(wǎng)頁(yè)、讓自己的索引庫(kù)更加充實(shí),進(jìn)而滿足用戶對(duì)于信息的需求,而網(wǎng)站方則從搜索引擎處得到了流量作為回饋,進(jìn)而通過(guò)流量變現(xiàn)賺到真金白銀。

以AI搜索獨(dú)角獸Perplexity為代表的一眾AI廠商打破乃至無(wú)視Robots協(xié)議的趨勢(shì),如果要用一個(gè)詞來(lái)形容,“禮樂(lè)崩壞”似乎是最合適的。

周朝用“禮樂(lè)”實(shí)現(xiàn)了人人各安其位各樂(lè)其業(yè),長(zhǎng)幼有序尊卑井然,上下和睦貴賤相安的秩序,而互聯(lián)網(wǎng)的奠基人則用開(kāi)放、平等、協(xié)作、快速、分享塑造了互聯(lián)網(wǎng)世界的行為準(zhǔn)則?;ヂ?lián)網(wǎng)精神雖然并不要求每一個(gè)參與者都具備這種精神,但是Tim Berners-Lee、Marc Andreessen等早期互聯(lián)網(wǎng)的締造者,卻在頂層設(shè)計(jì)中用“無(wú)形的大手”促使每一個(gè)參與者需要遵循互聯(lián)網(wǎng)精神。

一個(gè)很簡(jiǎn)單的例子,就是如果大家曾經(jīng)不相信互聯(lián)網(wǎng)精神,那么Copy  to China根本就不會(huì)發(fā)生。所以問(wèn)題就來(lái)了,為什么互聯(lián)網(wǎng)世界如今會(huì)“禮樂(lè)崩壞”呢?韓非子有言,“事異則備變。上古競(jìng)于道德,中世逐于智謀,當(dāng)今爭(zhēng)于氣力”。早期的互聯(lián)網(wǎng)世界“競(jìng)于道德”,是因?yàn)楸藭r(shí)的互聯(lián)網(wǎng)還是蠻荒之地,大片的處女地等待著參與者來(lái)開(kāi)拓,一旦找對(duì)了賽道就能扶搖直上。

可到了移動(dòng)互聯(lián)網(wǎng)時(shí)代,隨著互聯(lián)網(wǎng)世界的拓荒時(shí)代結(jié)束,每一條賽道幾乎都站滿了巨頭,創(chuàng)業(yè)者就得靠智謀才能成功,否則即使成為風(fēng)口上的豬,風(fēng)停了也得摔下來(lái)。

而當(dāng)下隨著流量紅利的枯竭,互聯(lián)網(wǎng)進(jìn)入存量競(jìng)爭(zhēng)時(shí)期后,就得刺刀見(jiàn)紅了。這時(shí)候?qū)τ贏I廠商來(lái)說(shuō),獲取更多的數(shù)據(jù)以訓(xùn)練更強(qiáng)的模型、再用更強(qiáng)的模型拉到更多的投資才是王道,遵守Robots協(xié)議反而會(huì)讓自己在市場(chǎng)競(jìng)爭(zhēng)中落后。

當(dāng)然,AI廠商并非就想離經(jīng)叛道,而是他們拿不出讓數(shù)據(jù)擁有著滿意的籌碼。此前網(wǎng)站站長(zhǎng)愿意向Googlebot敞開(kāi)大門,還不是因?yàn)楣雀杷阉髂芑仞伭髁?,可AI廠商并不像搜索引擎那樣能用流量來(lái)作為報(bào)酬,反倒是AI廠商訓(xùn)練的大模型可能會(huì)代替網(wǎng)站。所以指望網(wǎng)站像接納搜索引擎一樣接納AI廠商,無(wú)異于難如登天。

所以當(dāng)數(shù)據(jù)擁有者不想給、可AI廠商偏偏又很想要的情況下,“禮樂(lè)崩壞”也就來(lái)了。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

AI廠商拿Robots協(xié)議當(dāng)草紙,互聯(lián)網(wǎng)秩序“禮樂(lè)崩壞”

隨著流量紅利的枯竭,互聯(lián)網(wǎng)進(jìn)入存量競(jìng)爭(zhēng)時(shí)期后,就得刺刀見(jiàn)紅了。

圖片來(lái)源:界面新聞 匡達(dá)

文|三易生活

就在一眾AI大模型廠商還在為盈利發(fā)愁時(shí),英偉達(dá)靠賣算力已成功登頂全球市值第一公司的寶座,再次證明了當(dāng)淘金熱洶涌時(shí)候、只有賣鐵鏟的最賺錢。但訓(xùn)練大模型不僅要算力、還要有數(shù)據(jù),以至于Reddit、X等內(nèi)容平臺(tái)紛紛做起了數(shù)據(jù)買賣這個(gè)生意。只不過(guò),如今這個(gè)生意也越來(lái)越不好做了。

近日根據(jù)路透社報(bào)道,內(nèi)容授權(quán)初創(chuàng)公司TollBit近日向出版商發(fā)出警告稱,多家人工智能公司正在規(guī)避他們用于阻止抓取內(nèi)容的通用網(wǎng)絡(luò)標(biāo)準(zhǔn),并將抓取的內(nèi)容用于訓(xùn)練生成式AI系統(tǒng)。幾乎在同一時(shí)間,知名科技雜志《Wired》也發(fā)文稱,AI搜索公司Perplexity存在繞過(guò)機(jī)器人排除協(xié)議(Robots Exclusion Protocol),以獲取受限網(wǎng)絡(luò)內(nèi)容的行為。

再算上此前OpenAI使用YouTube上的視頻內(nèi)容訓(xùn)練打模型,谷歌也曾被曝出修改用戶協(xié)議、以免費(fèi)獲取旗下平臺(tái)用戶數(shù)據(jù)的消息。似乎上至一線巨頭、下至初創(chuàng)企業(yè),AI行業(yè)儼然集體化身為了“數(shù)據(jù)小偷”。

一直以來(lái),數(shù)據(jù)無(wú)疑是訓(xùn)練AI大模型的基礎(chǔ),而高質(zhì)量數(shù)據(jù)更是決定了大模型的性能上限,這也正是AI廠商如同饕餮般吞噬數(shù)據(jù)的真相。為此他們可謂是滿世界買數(shù)據(jù),但現(xiàn)實(shí)卻是可供交易的數(shù)據(jù)已經(jīng)滿足不了大模型的胃口了。

當(dāng)正常買賣數(shù)據(jù)這條路不好走了之后,“偷數(shù)據(jù)”似乎就變成了AI廠商心照不宣的操作。比如這次被部分AI廠商無(wú)視的Robots Exclusion Protocol(以下簡(jiǎn)稱Robots協(xié)議),其實(shí)是一個(gè)存放于網(wǎng)站根目錄下的ASCII編碼文本文件,它是控制網(wǎng)站被搜索內(nèi)容的一種策略,也就是/Robots.txt。

Robots協(xié)議的唯一作用,就是告訴user-agent(網(wǎng)絡(luò)爬蟲)網(wǎng)站中的哪些內(nèi)容允許被爬取、哪些內(nèi)容又不能抓取。以2008年9月宣布屏蔽百度搜索引擎的淘寶為例,當(dāng)時(shí)這家電商網(wǎng)站的Robots協(xié)議非常簡(jiǎn)單,直接就禁止了“Baiduspider”、即百度蜘蛛訪問(wèn)網(wǎng)站的任何部分。依靠這樣的Robots協(xié)議,淘寶避免了流量外溢到百度,進(jìn)而催生了其站內(nèi)的競(jìng)價(jià)排名體系。

為什么這樣簡(jiǎn)簡(jiǎn)單單的代碼就能攔住了百度的爬蟲呢?這是因?yàn)榘俣群炇鹆恕痘ヂ?lián)網(wǎng)搜索引擎服務(wù)自律公約》,承諾遵守Robots協(xié)議,并愿意限制搜索引擎抓取應(yīng)有行業(yè)公認(rèn)合理的正當(dāng)理由、不利用這一協(xié)議進(jìn)行不正當(dāng)競(jìng)爭(zhēng)行為。這也是后來(lái)百度起訴360違反Robots協(xié)議時(shí),會(huì)大義凜然指責(zé)360搜索在明確承認(rèn)Robots協(xié)議約束力后、又規(guī)避了這個(gè)協(xié)議的底氣。

盡管Robots協(xié)議并不俱備法律層面的強(qiáng)制力,甚至都不是行業(yè)自律公約,實(shí)質(zhì)上僅僅只是一個(gè)君子協(xié)定,可是在過(guò)去三十年里,Robots協(xié)議在事實(shí)層面成為了網(wǎng)站和搜索引擎共同遵守的一個(gè)有關(guān)數(shù)據(jù)抓取的規(guī)則。一個(gè)缺乏強(qiáng)制力的君子協(xié)定能存在、并得到不同文化背景互聯(lián)網(wǎng)公司的認(rèn)可,自然是有它的道理。

Robots協(xié)議的成功之處,就在于做到了搜索引擎和網(wǎng)站的雙贏。其中搜索引擎抓取了網(wǎng)站的網(wǎng)頁(yè)、讓自己的索引庫(kù)更加充實(shí),進(jìn)而滿足用戶對(duì)于信息的需求,而網(wǎng)站方則從搜索引擎處得到了流量作為回饋,進(jìn)而通過(guò)流量變現(xiàn)賺到真金白銀。

以AI搜索獨(dú)角獸Perplexity為代表的一眾AI廠商打破乃至無(wú)視Robots協(xié)議的趨勢(shì),如果要用一個(gè)詞來(lái)形容,“禮樂(lè)崩壞”似乎是最合適的。

周朝用“禮樂(lè)”實(shí)現(xiàn)了人人各安其位各樂(lè)其業(yè),長(zhǎng)幼有序尊卑井然,上下和睦貴賤相安的秩序,而互聯(lián)網(wǎng)的奠基人則用開(kāi)放、平等、協(xié)作、快速、分享塑造了互聯(lián)網(wǎng)世界的行為準(zhǔn)則?;ヂ?lián)網(wǎng)精神雖然并不要求每一個(gè)參與者都具備這種精神,但是Tim Berners-Lee、Marc Andreessen等早期互聯(lián)網(wǎng)的締造者,卻在頂層設(shè)計(jì)中用“無(wú)形的大手”促使每一個(gè)參與者需要遵循互聯(lián)網(wǎng)精神。

一個(gè)很簡(jiǎn)單的例子,就是如果大家曾經(jīng)不相信互聯(lián)網(wǎng)精神,那么Copy  to China根本就不會(huì)發(fā)生。所以問(wèn)題就來(lái)了,為什么互聯(lián)網(wǎng)世界如今會(huì)“禮樂(lè)崩壞”呢?韓非子有言,“事異則備變。上古競(jìng)于道德,中世逐于智謀,當(dāng)今爭(zhēng)于氣力”。早期的互聯(lián)網(wǎng)世界“競(jìng)于道德”,是因?yàn)楸藭r(shí)的互聯(lián)網(wǎng)還是蠻荒之地,大片的處女地等待著參與者來(lái)開(kāi)拓,一旦找對(duì)了賽道就能扶搖直上。

可到了移動(dòng)互聯(lián)網(wǎng)時(shí)代,隨著互聯(lián)網(wǎng)世界的拓荒時(shí)代結(jié)束,每一條賽道幾乎都站滿了巨頭,創(chuàng)業(yè)者就得靠智謀才能成功,否則即使成為風(fēng)口上的豬,風(fēng)停了也得摔下來(lái)。

而當(dāng)下隨著流量紅利的枯竭,互聯(lián)網(wǎng)進(jìn)入存量競(jìng)爭(zhēng)時(shí)期后,就得刺刀見(jiàn)紅了。這時(shí)候?qū)τ贏I廠商來(lái)說(shuō),獲取更多的數(shù)據(jù)以訓(xùn)練更強(qiáng)的模型、再用更強(qiáng)的模型拉到更多的投資才是王道,遵守Robots協(xié)議反而會(huì)讓自己在市場(chǎng)競(jìng)爭(zhēng)中落后。

當(dāng)然,AI廠商并非就想離經(jīng)叛道,而是他們拿不出讓數(shù)據(jù)擁有著滿意的籌碼。此前網(wǎng)站站長(zhǎng)愿意向Googlebot敞開(kāi)大門,還不是因?yàn)楣雀杷阉髂芑仞伭髁浚葾I廠商并不像搜索引擎那樣能用流量來(lái)作為報(bào)酬,反倒是AI廠商訓(xùn)練的大模型可能會(huì)代替網(wǎng)站。所以指望網(wǎng)站像接納搜索引擎一樣接納AI廠商,無(wú)異于難如登天。

所以當(dāng)數(shù)據(jù)擁有者不想給、可AI廠商偏偏又很想要的情況下,“禮樂(lè)崩壞”也就來(lái)了。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。