正在閱讀:

當(dāng)搜索框用上 ChatGPT

掃一掃下載界面新聞APP

當(dāng)搜索框用上 ChatGPT

您今天「手氣不錯(cuò)」嗎?

圖片來(lái)源:Pexels-PhotoMIX Company

文|書(shū)航 

谷歌電腦版首頁(yè)的格局,是和別處不同的:

在搜索框旁邊有兩個(gè)按鈕,而不是一個(gè)。在常規(guī)搜索按鈕的右邊還有一個(gè)「手氣不錯(cuò)」(I'm Feeling Lucky)按鈕。

在講到 ChatGPT 以及同類生成式 AI 和搜索引擎的關(guān)系之前,讓我們先來(lái)看看這個(gè)按鈕。

「手氣不錯(cuò)」,但點(diǎn)開(kāi)搜索結(jié)果頁(yè)更棒

在搜索框內(nèi)鍵入關(guān)鍵字后,如點(diǎn)擊「手氣不錯(cuò)」,將會(huì)跳轉(zhuǎn)到搜索結(jié)果的第一條。如果什么都不輸入,點(diǎn)擊「手氣不錯(cuò)」則會(huì)進(jìn)入谷歌的節(jié)日 Logo(Doodles)頁(yè)面。

「手氣不錯(cuò)」自谷歌 1998 年成立時(shí)就已經(jīng)存在。在早期,它的正確用法是輸入網(wǎng)站名字直達(dá)該網(wǎng)站,而不需要再多點(diǎn)一次。

該按鈕也被用作「搜索炸彈」攻擊,即使用搜索引擎優(yōu)化(SEO)手段,讓不正確或惡意的結(jié)果排到最前面。2006 年 9 月,在搜索框輸入「failure(失敗)」「miserable failure(慘?。乖冱c(diǎn)擊「手氣不錯(cuò)」都會(huì)跳轉(zhuǎn)到時(shí)任美國(guó)總統(tǒng)小布什的官方簡(jiǎn)歷頁(yè)面,因?yàn)樗凰⒌搅怂阉鹘Y(jié)果的第一條。

「手氣不錯(cuò)」按鈕并沒(méi)有進(jìn)入谷歌搜索的手機(jī)版,或其它有搜索框的地方。在 PC 端它也被弱化,因?yàn)檩斎腙P(guān)鍵字時(shí),搜索框自動(dòng)向下展開(kāi)聯(lián)想詞,遮住了該按鈕。在 PC 搜索結(jié)果頁(yè)也沒(méi)有這個(gè)按鈕。

不過(guò),谷歌的語(yǔ)音助手 Google Assistant 如果接到一些類似「什么是……」的提問(wèn),如果沒(méi)有預(yù)設(shè)答案,也會(huì)念出搜索結(jié)果的第一項(xiàng),或者維基百科條目。這可以被看作是變相的「手氣不錯(cuò)」,因?yàn)樽罱K也是只呈現(xiàn)一條結(jié)果。

「手氣不錯(cuò)」保留至今僅僅是一個(gè)情懷的體現(xiàn)。相比以前,谷歌首頁(yè)也已經(jīng)很少有人訪問(wèn)了。人們?cè)絹?lái)越多通過(guò)瀏覽器界面上的搜索框或地址欄進(jìn)入谷歌搜索,他們看到的第一個(gè)頁(yè)面就是搜索結(jié)果頁(yè),而不是谷歌首頁(yè)。

因此,過(guò)去數(shù)年谷歌對(duì)搜索結(jié)果頁(yè)做了重大改進(jìn)。現(xiàn)在結(jié)果頁(yè)的信息量更豐富,包括從目標(biāo)頁(yè)面文字中提取出的那一段有意義的文本。而「手氣不錯(cuò)」并沒(méi)有做任何調(diào)整。比如,現(xiàn)在用搜索框輸入數(shù)學(xué)公式,搜索結(jié)果頁(yè)會(huì)顯示一個(gè)計(jì)算器,但「手氣不錯(cuò)」會(huì)引導(dǎo)到一個(gè)谷歌外部的網(wǎng)頁(yè),而不是直接展示運(yùn)算結(jié)果。

搜索結(jié)果頁(yè)也包含維基百科、新聞、圖片等大量有價(jià)值的信息。如果搜索的是一個(gè)門(mén)戶網(wǎng)站或論壇,那么結(jié)果頁(yè)還附帶該站的一個(gè)站內(nèi)搜索框,不點(diǎn)開(kāi)就可以搜索該站內(nèi)容;如果搜索的是某款軟件,官網(wǎng)的下載鏈接都會(huì)被提取出來(lái)。

同時(shí),越來(lái)越多的搜索結(jié)果頁(yè)加入了「人們還在問(wèn)」(People also ask)板塊;每個(gè)搜索結(jié)果及板塊旁邊都提供「關(guān)于此結(jié)果」(About this result)功能,介紹該搜索結(jié)果的來(lái)源,以及為什么呈現(xiàn)在這個(gè)位置上。

因此,搜索結(jié)果頁(yè)現(xiàn)在已經(jīng)比提供一個(gè)「直達(dá)」鏈接的「手氣不錯(cuò)」更能滿足用戶的需要了。谷歌這一點(diǎn)和百度等競(jìng)品都一樣,搜索引擎?zhèn)冇媒Y(jié)構(gòu)化的信息呈現(xiàn),盡量把人們留在自己站內(nèi)而不跳轉(zhuǎn)出去。

然后,我們把搜到的東西講給別人聽(tīng)

現(xiàn)在,不論用谷歌還是百度,搜索更像是打開(kāi)一個(gè)與關(guān)鍵字有關(guān)的「面板」——對(duì),就像蘋(píng)果發(fā)布會(huì)總結(jié)某款新手機(jī)時(shí)候的那種拼圖版面,試圖在你的屏幕上顯示所有可能的信息,并把它們鋪滿。那種常見(jiàn)的一頁(yè)頁(yè)的搜索結(jié)果,要繼續(xù)滾動(dòng)下去才有。

而作為搜索引擎的使用者,一個(gè)人類,你看到這些東西的時(shí)候要做的事情,其實(shí)是在自己的大腦里總結(jié)它們,并將它們轉(zhuǎn)換為一段話。比如說(shuō),如果要搜索的這個(gè)問(wèn)題是你老婆問(wèn)你的,她讓你幫她搜一下。那么你回答她的方式并不是給她看你的屏幕,而是自己總結(jié)一下再講給她。而且你最好不要試圖逐字念維基百科的結(jié)果,她希望聽(tīng)到的或許只有一兩個(gè)字。

這時(shí)候你是什么?

你就是一個(gè) ChatGPT 啊。

好的,我們終于要進(jìn)入正題了。

根據(jù) CNBC 報(bào)道,谷歌將更快引入類似 ChatGPT 的自家產(chǎn)品 LaMDA 到搜索引擎中。谷歌的某款設(shè)計(jì)中的新版首頁(yè),就是替換掉「手氣不錯(cuò)」按鈕,取而代之的是隨著關(guān)鍵字輸入,展示 AI 選出的 5 個(gè)你最有可能提的問(wèn)題。而當(dāng)你打出一句自然語(yǔ)言后,可以點(diǎn)擊搜索框最右邊的聊天按鈕,將頁(yè)面切換為類似 ChatGPT 的對(duì)話模式。

在這方面,LaMDA 可以幫助我們做的工作,其實(shí)就是總結(jié)「搜索結(jié)果頁(yè)首屏」可能呈現(xiàn)出來(lái)的關(guān)鍵信息,并將其轉(zhuǎn)換為自然語(yǔ)言。這次,你就可以直接念屏幕上的內(nèi)容給老婆聽(tīng)了。

這些內(nèi)容現(xiàn)在仍然沒(méi)有實(shí)際可用的產(chǎn)品原型曝光。另外一邊,微軟已經(jīng)宣告將在必應(yīng)搜索整合 ChatGPT 本尊,甚至功能都已經(jīng)做好了,甚至都對(duì)外放出來(lái)了——雖然只有短短的 5 分鐘,但已經(jīng)足夠至少 3 個(gè)人在 Twitter 上放出截圖。

根據(jù)截圖,必應(yīng)的 ChatGPT 整合使用了這樣一個(gè)流程:

首先拆開(kāi)自然語(yǔ)言提問(wèn),將它們轉(zhuǎn)換為普通的搜索關(guān)鍵字。

精選出上述關(guān)鍵字的 5 條最相關(guān)的結(jié)果。

提取結(jié)果中與問(wèn)題直接相關(guān)的段落,并合并同類項(xiàng)。

以這些語(yǔ)料喂入 ChatGPT,生成一段連貫的段落。段落中來(lái)自某個(gè)來(lái)源的一段話或幾個(gè)詞,會(huì)用角標(biāo)形式給出資料來(lái)源。

這樣做的好處顯而易見(jiàn),可以減少對(duì)算法的干擾,避免它分心處理困難的語(yǔ)義分歧;可以事先過(guò)濾關(guān)鍵字,以免惹出麻煩;可以解決未聯(lián)網(wǎng)的 ChatGPT 「瞎編」的困境。

當(dāng)然,我之前也說(shuō)過(guò),將材料限定在 Prompt 給出的有限文本中,也意味著要放棄它早前從那鍋大雜燴里面學(xué)到的不知哪兒來(lái)的「知識(shí)」,成品可能變得干巴巴的,沒(méi)有使出十成功力。而這也可能意味著每一次請(qǐng)求結(jié)果的運(yùn)算都更節(jié)能,成本更低,甚至如果轉(zhuǎn)化后的關(guān)鍵字別人搜過(guò),還可以直接調(diào)用此前生成好的內(nèi)容呢。真是一舉多得。

這話是你說(shuō)的,你可要負(fù)責(zé)啊

當(dāng)人們望著攤開(kāi)的搜索結(jié)果「面板」自己歸納總結(jié)的時(shí)候,是人們自己對(duì)具體采信哪條信息,放棄另一些信息來(lái)負(fù)責(zé)。比如去搜索一些疾病,搜完往往感覺(jué)都是「絕癥」。但造成這種誤解的責(zé)任只能歸結(jié)于用戶本人。

然而,如果是 AI 幫你總結(jié)這一頁(yè)到底說(shuō)了什么,而你看到的只是它嚼過(guò)的成品,那就變成搜索引擎要對(duì)這段話負(fù)責(zé)了?!m然站在搜索引擎的角度看,它也很無(wú)辜,它也避免不了,但我們不用等實(shí)際產(chǎn)品上線就會(huì)推斷出,結(jié)局一定會(huì)是這樣。

因此,谷歌們一定要注意不讓這些 AI 對(duì)搜索結(jié)果的演繹演變?yōu)樾碌摹杆阉髡◤棥?。?dāng)然,也不是完全束手無(wú)策:它們都做了很長(zhǎng)時(shí)間的語(yǔ)音助手,在如何規(guī)避違規(guī)或政治不正確的結(jié)果時(shí),積累了一些經(jīng)驗(yàn)。比如在必應(yīng)那種模式下,在拆分搜索關(guān)鍵字階段即可開(kāi)始干預(yù)。

不同的是,因?yàn)檎Z(yǔ)音助手的技術(shù)相對(duì)比較落后,它們更缺乏「自信」,也更多用車(chē)轱轆話搪塞過(guò)去,以至于人們有一個(gè)它們就玩玩就好的心理預(yù)期。ChatGPT 讓人感到「革命性」的重要原因,恰恰是它對(duì)自己說(shuō)的東西充滿自信,即使那只是一本正經(jīng)的胡說(shuō)八道。這使得它的危險(xiǎn)性也直線上升。

即使通過(guò)腳注方式讓每一句話都可以溯源,這種 AI 輔助的搜索依然沒(méi)解決下一個(gè)問(wèn)題,就是 FT 專欄作者描述的「劣幣驅(qū)逐良幣」:「如果不可靠的文字可以免費(fèi)獲得,而原創(chuàng)研究既昂貴又費(fèi)力,那么前者將會(huì)蓬勃發(fā)展?!?/p>

AIGC 的內(nèi)容對(duì)一般大眾已經(jīng)足夠可用,但對(duì)專業(yè)人士來(lái)說(shuō)非常粗糙。同時(shí)他們對(duì)其中借鑒拼湊的痕跡也十分敏感。有些人類畫(huà)師咒罵說(shuō) Midjourney 或 NovelAI 這種 AI 生成的畫(huà)作,實(shí)際上是將人類作品「分尸」以后拼貼而成的「尸塊」。

但實(shí)際上,使用搜索引擎的人類做的就是拼貼,沒(méi)什么神秘的。以前我們說(shuō)程序員「面向谷歌編程」,其實(shí)很多人是通往 StackOverflow,該站也是 ChatGPT 解答大量編程問(wèn)題所使用的信息來(lái)源。現(xiàn)在該站據(jù)報(bào)因?yàn)椴簧僭就ㄟ^(guò)搜索找過(guò)來(lái)的訪問(wèn)者轉(zhuǎn)而詢問(wèn) ChatGPT,而損失了一大部分流量。反過(guò)來(lái),這又會(huì)導(dǎo)致站內(nèi)人類回答者受到的激勵(lì)變少,與讀者的交互也變少,長(zhǎng)遠(yuǎn)來(lái)看不利于維持社區(qū)氛圍,生成更多的內(nèi)容。

人類對(duì)創(chuàng)作社區(qū)的貢獻(xiàn),固然有一些是源于金錢(qián)激勵(lì),但也有不少是純粹的「我為人人,人人為我」,比如維基百科以及 StackOverflow。這些站點(diǎn)在幫助大量新生碼農(nóng)入門(mén)的同時(shí),也鼓勵(lì)他們「班門(mén)弄斧」地分享,通過(guò)獲得良性反饋達(dá)到自己經(jīng)驗(yàn)和技能上的進(jìn)步。

專家也是一步一個(gè)腳印踏上來(lái)的,沒(méi)有初學(xué)者,哪來(lái)的專家?但 AIGC 有可能通過(guò)掐掉初學(xué)者的幼苗,讓人類能做的貢獻(xiàn)僅限于那些已經(jīng)練成的專家,再過(guò)幾代人,那就沒(méi)什么知識(shí)傳承了。而現(xiàn)在的 AI 還完全不會(huì)憑空創(chuàng)造。它們只是總結(jié),而且經(jīng)常是瞎貓碰死耗子這樣的總結(jié)。

AI 犯的錯(cuò)誤能改正嗎?

從原理上講,大模型有天生缺陷。更正一個(gè)錯(cuò)誤對(duì)人類來(lái)說(shuō)是非常容易的(當(dāng)然人類的自主意志或許不愿意認(rèn)錯(cuò)),但對(duì)現(xiàn)在的生成式 AI 很困難。即使是開(kāi)發(fā)者,也很難定位錯(cuò)誤具體出現(xiàn)在哪里,只能通過(guò)喂養(yǎng)新的材料試圖快速更正。當(dāng)微軟曾經(jīng)研發(fā)的聊天機(jī)器人 Tay 難以抵擋大量惡意操作激發(fā)出的錯(cuò)誤用例時(shí),它只能選擇關(guān)停。

要想治本揪出病根,而不是看到危機(jī)了打個(gè)補(bǔ)丁這樣的方法,行得通嗎?

國(guó)內(nèi)的北京智源人工智能研究院就做了這樣的嘗試。在我之前對(duì)它們的采訪中,它們?cè)?jīng)組織多條技術(shù)路線賽馬。有人做了類似 Wikidata 的中國(guó)版知識(shí)圖譜,希望教會(huì) AI 認(rèn)知不同事物之間的邏輯關(guān)系,雄心勃勃。但最后,智源對(duì)外正式發(fā)布的第一個(gè)成果,是另一條路線的大模型「悟道」。這也是 ChatGPT 蹚過(guò)的同一條路線。

大模型源于大數(shù)據(jù),但大數(shù)據(jù)不必然產(chǎn)生(好的)大模型。同樣的數(shù)據(jù),從什么方向煉,或者拿來(lái)以后是否要再篩一下,都可能導(dǎo)致完全不同的結(jié)果,機(jī)器學(xué)習(xí)的黑箱也讓不同人的經(jīng)驗(yàn)不能復(fù)用。

如果大模型就等于大數(shù)據(jù),那百度擁有的中文數(shù)據(jù)量當(dāng)然是國(guó)內(nèi)最大的。但我之前說(shuō)過(guò),就算是百度,他們煉丹的過(guò)程也極其艱難。因?yàn)樯厦嫠f(shuō)的數(shù)據(jù)質(zhì)量和煉丹路徑問(wèn)題,悟道目前還是中文大模型的獨(dú)苗。(雖然悟道有少數(shù)用例,但功能開(kāi)放很有限,其實(shí)外界也很難感知它的成品和 ChatGPT 之間是否有可比性?,F(xiàn)在只能是說(shuō)它們煉出了這么一個(gè)東西而已。)

智源驕傲地說(shuō),現(xiàn)在 AI 從「大煉模型」已經(jīng)改為「煉大模型」,從數(shù)據(jù)上云、算力上云,已經(jīng)進(jìn)化到了模型上云。還想重新造輪子的小散現(xiàn)在已經(jīng)追不上他們了。不過(guò),這中間發(fā)生了一個(gè)插曲:智源宣布自己大模型階段性成果的那篇論文《A Roadmap for Big Model》,其中居然有大量段落是直接復(fù)制粘貼過(guò)來(lái)的,實(shí)在是觀感不佳。

當(dāng)然這確實(shí)只是一個(gè)插曲,因?yàn)檫@論文不是它們工作的核心內(nèi)容。煉丹肯定能煉出來(lái)東西,這玩意的成本就擺在那里,造假?zèng)]什么意義。同時(shí)它致敬的來(lái)源本身是谷歌的科學(xué)家 Nicholas Carlini,其實(shí)也說(shuō)明了集中力量煉大模型已經(jīng)是跨越東西方的行業(yè)共識(shí)。

反過(guò)來(lái)說(shuō),這也宣告了 AI 也是朝著深度學(xué)習(xí)原理未知的「黑箱」方向一條道走到黑,專家系統(tǒng)以及知識(shí)圖譜路線再一次被打入冷宮。今后,即使大模型因?yàn)楸O(jiān)管原因,因?yàn)檎握_原因必須要有可解釋性,那也是用新的機(jī)器學(xué)習(xí)來(lái)解釋,用一個(gè)「黑箱」來(lái)解釋另一個(gè)「黑箱」,補(bǔ)丁永遠(yuǎn)打下去,類似人類的 Prompt 工程。真正「治本」是沒(méi)有指望了。

從這個(gè)角度來(lái)說(shuō),就像 Lecun 說(shuō)過(guò)的,以及微軟的洪小文在 2019 年 6 月就說(shuō)過(guò)的(我現(xiàn)場(chǎng)聽(tīng)了他那場(chǎng)演講),當(dāng)今的 AIGC 相比早前的機(jī)器學(xué)習(xí)沒(méi)有質(zhì)的飛躍,只是模型終于大過(guò)了可以「騙過(guò)」普通人類的那個(gè)臨界點(diǎn)。在此之前,其實(shí)更多進(jìn)步主要是業(yè)內(nèi)自嗨,大家都是很會(huì)自我安慰的,比如谷歌那個(gè)神棍員工把一點(diǎn)蛛絲馬跡附會(huì)為 AI 有自我意識(shí),創(chuàng)造了自己的語(yǔ)言什么的。這當(dāng)然是扯淡。

所以,ChatGPT 這種「信誓旦旦,虛心接受,堅(jiān)決不改」的玩世不恭勁兒我們還得忍耐好一陣子。當(dāng)然,必應(yīng)方案中將來(lái)源鏈接與文本對(duì)應(yīng)的辦法更討巧,但以這個(gè)路線實(shí)現(xiàn)的 AIGC,依然不可能有從無(wú)到有的自我創(chuàng)造。

所以……?

當(dāng) ChatGPT 幫我們撰寫(xiě)文書(shū),做總結(jié)陳詞的時(shí)候——我不知道別人怎么想,但我多少有一種開(kāi)車(chē)時(shí),從手動(dòng)擋變?yōu)樽詣?dòng)擋,再前進(jìn)到特斯拉「Autopilot」讓我偶爾能松開(kāi)方向盤(pán)的那種感覺(jué)。(巧了,谷歌和百度也都在做自動(dòng)駕駛。)

適當(dāng)?shù)母倪M(jìn)解放了我的雙手,讓我精力更充沛。但完全的接管,則還是因?yàn)榘踩颍荒茏屛曳判?。在?chē)廂里,自動(dòng)駕駛判斷錯(cuò)誤,會(huì)付出生命的代價(jià)。在工作中,直接使用 ChatGPT 生成的結(jié)果而不潤(rùn)色核查,就要讓我自己為這些結(jié)果發(fā)布后的后果負(fù)責(zé)。

其結(jié)果是,我不得不再自行,或者使用別人的人力,來(lái)做事實(shí)核查與潤(rùn)色調(diào)整。就像我不得不仍然兩手放在方向盤(pán)上,時(shí)不時(shí)下意識(shí)地轉(zhuǎn)轉(zhuǎn)。

我并沒(méi)有什么內(nèi)幕信息,上文描述的情況全都來(lái)自公開(kāi)資料,它們也只是 AI 搜索可能的其中一種實(shí)現(xiàn)形式。當(dāng)然,它的效果會(huì)好于目前智能音箱能做到的那種「手氣不錯(cuò)」模式。

大多數(shù)人可能用到的會(huì)是類似自動(dòng)擋這樣,相對(duì)全手動(dòng)擋是「低收益低風(fēng)險(xiǎn)」的改進(jìn)。少數(shù)人會(huì)越來(lái)越拔高其中 AIGC 所占比重,進(jìn)入「高收益高風(fēng)險(xiǎn)」的領(lǐng)域。其中多條技術(shù)路線相互競(jìng)爭(zhēng),最后也許跑出一兩個(gè)成功的,并且可以被大規(guī)模復(fù)制的辦法(這一點(diǎn)非常重要),讓原本的高風(fēng)險(xiǎn)也變成低風(fēng)險(xiǎn),于是所有人得到更大的收益。我能想到的 AIGC 進(jìn)化路線,也不外如此。

此時(shí),當(dāng)前機(jī)器學(xué)習(xí)的黑箱模式,就變成了 AIGC 模式大規(guī)模復(fù)制的最大障礙。因?yàn)槟闵踔炼伎赡懿恢滥阕约菏窃趺闯晒Φ?,你都不能再做第二個(gè)同類產(chǎn)品出來(lái)。從這個(gè)角度上講,中國(guó)廠家即使跟風(fēng)研究 ChatGPT 競(jìng)品,也沒(méi)什么丟人的。不論用看上去不可能的「白箱」模式,還是用可信賴、高可靠性的黑箱解釋黑箱,只要攻克了可解釋性這個(gè)深度學(xué)習(xí)的大難關(guān),對(duì)全行業(yè)也有著重大意義。

最后,祝你每次用 AI 搜索的時(shí)候都「手氣不錯(cuò)」,得到的結(jié)果不用人工修改,就可以直接用。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

當(dāng)搜索框用上 ChatGPT

您今天「手氣不錯(cuò)」嗎?

圖片來(lái)源:Pexels-PhotoMIX Company

文|書(shū)航 

谷歌電腦版首頁(yè)的格局,是和別處不同的:

在搜索框旁邊有兩個(gè)按鈕,而不是一個(gè)。在常規(guī)搜索按鈕的右邊還有一個(gè)「手氣不錯(cuò)」(I'm Feeling Lucky)按鈕。

在講到 ChatGPT 以及同類生成式 AI 和搜索引擎的關(guān)系之前,讓我們先來(lái)看看這個(gè)按鈕。

「手氣不錯(cuò)」,但點(diǎn)開(kāi)搜索結(jié)果頁(yè)更棒

在搜索框內(nèi)鍵入關(guān)鍵字后,如點(diǎn)擊「手氣不錯(cuò)」,將會(huì)跳轉(zhuǎn)到搜索結(jié)果的第一條。如果什么都不輸入,點(diǎn)擊「手氣不錯(cuò)」則會(huì)進(jìn)入谷歌的節(jié)日 Logo(Doodles)頁(yè)面。

「手氣不錯(cuò)」自谷歌 1998 年成立時(shí)就已經(jīng)存在。在早期,它的正確用法是輸入網(wǎng)站名字直達(dá)該網(wǎng)站,而不需要再多點(diǎn)一次。

該按鈕也被用作「搜索炸彈」攻擊,即使用搜索引擎優(yōu)化(SEO)手段,讓不正確或惡意的結(jié)果排到最前面。2006 年 9 月,在搜索框輸入「failure(失敗)」「miserable failure(慘?。乖冱c(diǎn)擊「手氣不錯(cuò)」都會(huì)跳轉(zhuǎn)到時(shí)任美國(guó)總統(tǒng)小布什的官方簡(jiǎn)歷頁(yè)面,因?yàn)樗凰⒌搅怂阉鹘Y(jié)果的第一條。

「手氣不錯(cuò)」按鈕并沒(méi)有進(jìn)入谷歌搜索的手機(jī)版,或其它有搜索框的地方。在 PC 端它也被弱化,因?yàn)檩斎腙P(guān)鍵字時(shí),搜索框自動(dòng)向下展開(kāi)聯(lián)想詞,遮住了該按鈕。在 PC 搜索結(jié)果頁(yè)也沒(méi)有這個(gè)按鈕。

不過(guò),谷歌的語(yǔ)音助手 Google Assistant 如果接到一些類似「什么是……」的提問(wèn),如果沒(méi)有預(yù)設(shè)答案,也會(huì)念出搜索結(jié)果的第一項(xiàng),或者維基百科條目。這可以被看作是變相的「手氣不錯(cuò)」,因?yàn)樽罱K也是只呈現(xiàn)一條結(jié)果。

「手氣不錯(cuò)」保留至今僅僅是一個(gè)情懷的體現(xiàn)。相比以前,谷歌首頁(yè)也已經(jīng)很少有人訪問(wèn)了。人們?cè)絹?lái)越多通過(guò)瀏覽器界面上的搜索框或地址欄進(jìn)入谷歌搜索,他們看到的第一個(gè)頁(yè)面就是搜索結(jié)果頁(yè),而不是谷歌首頁(yè)。

因此,過(guò)去數(shù)年谷歌對(duì)搜索結(jié)果頁(yè)做了重大改進(jìn)。現(xiàn)在結(jié)果頁(yè)的信息量更豐富,包括從目標(biāo)頁(yè)面文字中提取出的那一段有意義的文本。而「手氣不錯(cuò)」并沒(méi)有做任何調(diào)整。比如,現(xiàn)在用搜索框輸入數(shù)學(xué)公式,搜索結(jié)果頁(yè)會(huì)顯示一個(gè)計(jì)算器,但「手氣不錯(cuò)」會(huì)引導(dǎo)到一個(gè)谷歌外部的網(wǎng)頁(yè),而不是直接展示運(yùn)算結(jié)果。

搜索結(jié)果頁(yè)也包含維基百科、新聞、圖片等大量有價(jià)值的信息。如果搜索的是一個(gè)門(mén)戶網(wǎng)站或論壇,那么結(jié)果頁(yè)還附帶該站的一個(gè)站內(nèi)搜索框,不點(diǎn)開(kāi)就可以搜索該站內(nèi)容;如果搜索的是某款軟件,官網(wǎng)的下載鏈接都會(huì)被提取出來(lái)。

同時(shí),越來(lái)越多的搜索結(jié)果頁(yè)加入了「人們還在問(wèn)」(People also ask)板塊;每個(gè)搜索結(jié)果及板塊旁邊都提供「關(guān)于此結(jié)果」(About this result)功能,介紹該搜索結(jié)果的來(lái)源,以及為什么呈現(xiàn)在這個(gè)位置上。

因此,搜索結(jié)果頁(yè)現(xiàn)在已經(jīng)比提供一個(gè)「直達(dá)」鏈接的「手氣不錯(cuò)」更能滿足用戶的需要了。谷歌這一點(diǎn)和百度等競(jìng)品都一樣,搜索引擎?zhèn)冇媒Y(jié)構(gòu)化的信息呈現(xiàn),盡量把人們留在自己站內(nèi)而不跳轉(zhuǎn)出去。

然后,我們把搜到的東西講給別人聽(tīng)

現(xiàn)在,不論用谷歌還是百度,搜索更像是打開(kāi)一個(gè)與關(guān)鍵字有關(guān)的「面板」——對(duì),就像蘋(píng)果發(fā)布會(huì)總結(jié)某款新手機(jī)時(shí)候的那種拼圖版面,試圖在你的屏幕上顯示所有可能的信息,并把它們鋪滿。那種常見(jiàn)的一頁(yè)頁(yè)的搜索結(jié)果,要繼續(xù)滾動(dòng)下去才有。

而作為搜索引擎的使用者,一個(gè)人類,你看到這些東西的時(shí)候要做的事情,其實(shí)是在自己的大腦里總結(jié)它們,并將它們轉(zhuǎn)換為一段話。比如說(shuō),如果要搜索的這個(gè)問(wèn)題是你老婆問(wèn)你的,她讓你幫她搜一下。那么你回答她的方式并不是給她看你的屏幕,而是自己總結(jié)一下再講給她。而且你最好不要試圖逐字念維基百科的結(jié)果,她希望聽(tīng)到的或許只有一兩個(gè)字。

這時(shí)候你是什么?

你就是一個(gè) ChatGPT 啊。

好的,我們終于要進(jìn)入正題了。

根據(jù) CNBC 報(bào)道,谷歌將更快引入類似 ChatGPT 的自家產(chǎn)品 LaMDA 到搜索引擎中。谷歌的某款設(shè)計(jì)中的新版首頁(yè),就是替換掉「手氣不錯(cuò)」按鈕,取而代之的是隨著關(guān)鍵字輸入,展示 AI 選出的 5 個(gè)你最有可能提的問(wèn)題。而當(dāng)你打出一句自然語(yǔ)言后,可以點(diǎn)擊搜索框最右邊的聊天按鈕,將頁(yè)面切換為類似 ChatGPT 的對(duì)話模式。

在這方面,LaMDA 可以幫助我們做的工作,其實(shí)就是總結(jié)「搜索結(jié)果頁(yè)首屏」可能呈現(xiàn)出來(lái)的關(guān)鍵信息,并將其轉(zhuǎn)換為自然語(yǔ)言。這次,你就可以直接念屏幕上的內(nèi)容給老婆聽(tīng)了。

這些內(nèi)容現(xiàn)在仍然沒(méi)有實(shí)際可用的產(chǎn)品原型曝光。另外一邊,微軟已經(jīng)宣告將在必應(yīng)搜索整合 ChatGPT 本尊,甚至功能都已經(jīng)做好了,甚至都對(duì)外放出來(lái)了——雖然只有短短的 5 分鐘,但已經(jīng)足夠至少 3 個(gè)人在 Twitter 上放出截圖。

根據(jù)截圖,必應(yīng)的 ChatGPT 整合使用了這樣一個(gè)流程:

首先拆開(kāi)自然語(yǔ)言提問(wèn),將它們轉(zhuǎn)換為普通的搜索關(guān)鍵字。

精選出上述關(guān)鍵字的 5 條最相關(guān)的結(jié)果。

提取結(jié)果中與問(wèn)題直接相關(guān)的段落,并合并同類項(xiàng)。

以這些語(yǔ)料喂入 ChatGPT,生成一段連貫的段落。段落中來(lái)自某個(gè)來(lái)源的一段話或幾個(gè)詞,會(huì)用角標(biāo)形式給出資料來(lái)源。

這樣做的好處顯而易見(jiàn),可以減少對(duì)算法的干擾,避免它分心處理困難的語(yǔ)義分歧;可以事先過(guò)濾關(guān)鍵字,以免惹出麻煩;可以解決未聯(lián)網(wǎng)的 ChatGPT 「瞎編」的困境。

當(dāng)然,我之前也說(shuō)過(guò),將材料限定在 Prompt 給出的有限文本中,也意味著要放棄它早前從那鍋大雜燴里面學(xué)到的不知哪兒來(lái)的「知識(shí)」,成品可能變得干巴巴的,沒(méi)有使出十成功力。而這也可能意味著每一次請(qǐng)求結(jié)果的運(yùn)算都更節(jié)能,成本更低,甚至如果轉(zhuǎn)化后的關(guān)鍵字別人搜過(guò),還可以直接調(diào)用此前生成好的內(nèi)容呢。真是一舉多得。

這話是你說(shuō)的,你可要負(fù)責(zé)啊

當(dāng)人們望著攤開(kāi)的搜索結(jié)果「面板」自己歸納總結(jié)的時(shí)候,是人們自己對(duì)具體采信哪條信息,放棄另一些信息來(lái)負(fù)責(zé)。比如去搜索一些疾病,搜完往往感覺(jué)都是「絕癥」。但造成這種誤解的責(zé)任只能歸結(jié)于用戶本人。

然而,如果是 AI 幫你總結(jié)這一頁(yè)到底說(shuō)了什么,而你看到的只是它嚼過(guò)的成品,那就變成搜索引擎要對(duì)這段話負(fù)責(zé)了?!m然站在搜索引擎的角度看,它也很無(wú)辜,它也避免不了,但我們不用等實(shí)際產(chǎn)品上線就會(huì)推斷出,結(jié)局一定會(huì)是這樣。

因此,谷歌們一定要注意不讓這些 AI 對(duì)搜索結(jié)果的演繹演變?yōu)樾碌摹杆阉髡◤棥?。?dāng)然,也不是完全束手無(wú)策:它們都做了很長(zhǎng)時(shí)間的語(yǔ)音助手,在如何規(guī)避違規(guī)或政治不正確的結(jié)果時(shí),積累了一些經(jīng)驗(yàn)。比如在必應(yīng)那種模式下,在拆分搜索關(guān)鍵字階段即可開(kāi)始干預(yù)。

不同的是,因?yàn)檎Z(yǔ)音助手的技術(shù)相對(duì)比較落后,它們更缺乏「自信」,也更多用車(chē)轱轆話搪塞過(guò)去,以至于人們有一個(gè)它們就玩玩就好的心理預(yù)期。ChatGPT 讓人感到「革命性」的重要原因,恰恰是它對(duì)自己說(shuō)的東西充滿自信,即使那只是一本正經(jīng)的胡說(shuō)八道。這使得它的危險(xiǎn)性也直線上升。

即使通過(guò)腳注方式讓每一句話都可以溯源,這種 AI 輔助的搜索依然沒(méi)解決下一個(gè)問(wèn)題,就是 FT 專欄作者描述的「劣幣驅(qū)逐良幣」:「如果不可靠的文字可以免費(fèi)獲得,而原創(chuàng)研究既昂貴又費(fèi)力,那么前者將會(huì)蓬勃發(fā)展?!?/p>

AIGC 的內(nèi)容對(duì)一般大眾已經(jīng)足夠可用,但對(duì)專業(yè)人士來(lái)說(shuō)非常粗糙。同時(shí)他們對(duì)其中借鑒拼湊的痕跡也十分敏感。有些人類畫(huà)師咒罵說(shuō) Midjourney 或 NovelAI 這種 AI 生成的畫(huà)作,實(shí)際上是將人類作品「分尸」以后拼貼而成的「尸塊」。

但實(shí)際上,使用搜索引擎的人類做的就是拼貼,沒(méi)什么神秘的。以前我們說(shuō)程序員「面向谷歌編程」,其實(shí)很多人是通往 StackOverflow,該站也是 ChatGPT 解答大量編程問(wèn)題所使用的信息來(lái)源。現(xiàn)在該站據(jù)報(bào)因?yàn)椴簧僭就ㄟ^(guò)搜索找過(guò)來(lái)的訪問(wèn)者轉(zhuǎn)而詢問(wèn) ChatGPT,而損失了一大部分流量。反過(guò)來(lái),這又會(huì)導(dǎo)致站內(nèi)人類回答者受到的激勵(lì)變少,與讀者的交互也變少,長(zhǎng)遠(yuǎn)來(lái)看不利于維持社區(qū)氛圍,生成更多的內(nèi)容。

人類對(duì)創(chuàng)作社區(qū)的貢獻(xiàn),固然有一些是源于金錢(qián)激勵(lì),但也有不少是純粹的「我為人人,人人為我」,比如維基百科以及 StackOverflow。這些站點(diǎn)在幫助大量新生碼農(nóng)入門(mén)的同時(shí),也鼓勵(lì)他們「班門(mén)弄斧」地分享,通過(guò)獲得良性反饋達(dá)到自己經(jīng)驗(yàn)和技能上的進(jìn)步。

專家也是一步一個(gè)腳印踏上來(lái)的,沒(méi)有初學(xué)者,哪來(lái)的專家?但 AIGC 有可能通過(guò)掐掉初學(xué)者的幼苗,讓人類能做的貢獻(xiàn)僅限于那些已經(jīng)練成的專家,再過(guò)幾代人,那就沒(méi)什么知識(shí)傳承了。而現(xiàn)在的 AI 還完全不會(huì)憑空創(chuàng)造。它們只是總結(jié),而且經(jīng)常是瞎貓碰死耗子這樣的總結(jié)。

AI 犯的錯(cuò)誤能改正嗎?

從原理上講,大模型有天生缺陷。更正一個(gè)錯(cuò)誤對(duì)人類來(lái)說(shuō)是非常容易的(當(dāng)然人類的自主意志或許不愿意認(rèn)錯(cuò)),但對(duì)現(xiàn)在的生成式 AI 很困難。即使是開(kāi)發(fā)者,也很難定位錯(cuò)誤具體出現(xiàn)在哪里,只能通過(guò)喂養(yǎng)新的材料試圖快速更正。當(dāng)微軟曾經(jīng)研發(fā)的聊天機(jī)器人 Tay 難以抵擋大量惡意操作激發(fā)出的錯(cuò)誤用例時(shí),它只能選擇關(guān)停。

要想治本揪出病根,而不是看到危機(jī)了打個(gè)補(bǔ)丁這樣的方法,行得通嗎?

國(guó)內(nèi)的北京智源人工智能研究院就做了這樣的嘗試。在我之前對(duì)它們的采訪中,它們?cè)?jīng)組織多條技術(shù)路線賽馬。有人做了類似 Wikidata 的中國(guó)版知識(shí)圖譜,希望教會(huì) AI 認(rèn)知不同事物之間的邏輯關(guān)系,雄心勃勃。但最后,智源對(duì)外正式發(fā)布的第一個(gè)成果,是另一條路線的大模型「悟道」。這也是 ChatGPT 蹚過(guò)的同一條路線。

大模型源于大數(shù)據(jù),但大數(shù)據(jù)不必然產(chǎn)生(好的)大模型。同樣的數(shù)據(jù),從什么方向煉,或者拿來(lái)以后是否要再篩一下,都可能導(dǎo)致完全不同的結(jié)果,機(jī)器學(xué)習(xí)的黑箱也讓不同人的經(jīng)驗(yàn)不能復(fù)用。

如果大模型就等于大數(shù)據(jù),那百度擁有的中文數(shù)據(jù)量當(dāng)然是國(guó)內(nèi)最大的。但我之前說(shuō)過(guò),就算是百度,他們煉丹的過(guò)程也極其艱難。因?yàn)樯厦嫠f(shuō)的數(shù)據(jù)質(zhì)量和煉丹路徑問(wèn)題,悟道目前還是中文大模型的獨(dú)苗。(雖然悟道有少數(shù)用例,但功能開(kāi)放很有限,其實(shí)外界也很難感知它的成品和 ChatGPT 之間是否有可比性。現(xiàn)在只能是說(shuō)它們煉出了這么一個(gè)東西而已。)

智源驕傲地說(shuō),現(xiàn)在 AI 從「大煉模型」已經(jīng)改為「煉大模型」,從數(shù)據(jù)上云、算力上云,已經(jīng)進(jìn)化到了模型上云。還想重新造輪子的小散現(xiàn)在已經(jīng)追不上他們了。不過(guò),這中間發(fā)生了一個(gè)插曲:智源宣布自己大模型階段性成果的那篇論文《A Roadmap for Big Model》,其中居然有大量段落是直接復(fù)制粘貼過(guò)來(lái)的,實(shí)在是觀感不佳。

當(dāng)然這確實(shí)只是一個(gè)插曲,因?yàn)檫@論文不是它們工作的核心內(nèi)容。煉丹肯定能煉出來(lái)東西,這玩意的成本就擺在那里,造假?zèng)]什么意義。同時(shí)它致敬的來(lái)源本身是谷歌的科學(xué)家 Nicholas Carlini,其實(shí)也說(shuō)明了集中力量煉大模型已經(jīng)是跨越東西方的行業(yè)共識(shí)。

反過(guò)來(lái)說(shuō),這也宣告了 AI 也是朝著深度學(xué)習(xí)原理未知的「黑箱」方向一條道走到黑,專家系統(tǒng)以及知識(shí)圖譜路線再一次被打入冷宮。今后,即使大模型因?yàn)楸O(jiān)管原因,因?yàn)檎握_原因必須要有可解釋性,那也是用新的機(jī)器學(xué)習(xí)來(lái)解釋,用一個(gè)「黑箱」來(lái)解釋另一個(gè)「黑箱」,補(bǔ)丁永遠(yuǎn)打下去,類似人類的 Prompt 工程。真正「治本」是沒(méi)有指望了。

從這個(gè)角度來(lái)說(shuō),就像 Lecun 說(shuō)過(guò)的,以及微軟的洪小文在 2019 年 6 月就說(shuō)過(guò)的(我現(xiàn)場(chǎng)聽(tīng)了他那場(chǎng)演講),當(dāng)今的 AIGC 相比早前的機(jī)器學(xué)習(xí)沒(méi)有質(zhì)的飛躍,只是模型終于大過(guò)了可以「騙過(guò)」普通人類的那個(gè)臨界點(diǎn)。在此之前,其實(shí)更多進(jìn)步主要是業(yè)內(nèi)自嗨,大家都是很會(huì)自我安慰的,比如谷歌那個(gè)神棍員工把一點(diǎn)蛛絲馬跡附會(huì)為 AI 有自我意識(shí),創(chuàng)造了自己的語(yǔ)言什么的。這當(dāng)然是扯淡。

所以,ChatGPT 這種「信誓旦旦,虛心接受,堅(jiān)決不改」的玩世不恭勁兒我們還得忍耐好一陣子。當(dāng)然,必應(yīng)方案中將來(lái)源鏈接與文本對(duì)應(yīng)的辦法更討巧,但以這個(gè)路線實(shí)現(xiàn)的 AIGC,依然不可能有從無(wú)到有的自我創(chuàng)造。

所以……?

當(dāng) ChatGPT 幫我們撰寫(xiě)文書(shū),做總結(jié)陳詞的時(shí)候——我不知道別人怎么想,但我多少有一種開(kāi)車(chē)時(shí),從手動(dòng)擋變?yōu)樽詣?dòng)擋,再前進(jìn)到特斯拉「Autopilot」讓我偶爾能松開(kāi)方向盤(pán)的那種感覺(jué)。(巧了,谷歌和百度也都在做自動(dòng)駕駛。)

適當(dāng)?shù)母倪M(jìn)解放了我的雙手,讓我精力更充沛。但完全的接管,則還是因?yàn)榘踩颍荒茏屛曳判?。在?chē)廂里,自動(dòng)駕駛判斷錯(cuò)誤,會(huì)付出生命的代價(jià)。在工作中,直接使用 ChatGPT 生成的結(jié)果而不潤(rùn)色核查,就要讓我自己為這些結(jié)果發(fā)布后的后果負(fù)責(zé)。

其結(jié)果是,我不得不再自行,或者使用別人的人力,來(lái)做事實(shí)核查與潤(rùn)色調(diào)整。就像我不得不仍然兩手放在方向盤(pán)上,時(shí)不時(shí)下意識(shí)地轉(zhuǎn)轉(zhuǎn)。

我并沒(méi)有什么內(nèi)幕信息,上文描述的情況全都來(lái)自公開(kāi)資料,它們也只是 AI 搜索可能的其中一種實(shí)現(xiàn)形式。當(dāng)然,它的效果會(huì)好于目前智能音箱能做到的那種「手氣不錯(cuò)」模式。

大多數(shù)人可能用到的會(huì)是類似自動(dòng)擋這樣,相對(duì)全手動(dòng)擋是「低收益低風(fēng)險(xiǎn)」的改進(jìn)。少數(shù)人會(huì)越來(lái)越拔高其中 AIGC 所占比重,進(jìn)入「高收益高風(fēng)險(xiǎn)」的領(lǐng)域。其中多條技術(shù)路線相互競(jìng)爭(zhēng),最后也許跑出一兩個(gè)成功的,并且可以被大規(guī)模復(fù)制的辦法(這一點(diǎn)非常重要),讓原本的高風(fēng)險(xiǎn)也變成低風(fēng)險(xiǎn),于是所有人得到更大的收益。我能想到的 AIGC 進(jìn)化路線,也不外如此。

此時(shí),當(dāng)前機(jī)器學(xué)習(xí)的黑箱模式,就變成了 AIGC 模式大規(guī)模復(fù)制的最大障礙。因?yàn)槟闵踔炼伎赡懿恢滥阕约菏窃趺闯晒Φ?,你都不能再做第二個(gè)同類產(chǎn)品出來(lái)。從這個(gè)角度上講,中國(guó)廠家即使跟風(fēng)研究 ChatGPT 競(jìng)品,也沒(méi)什么丟人的。不論用看上去不可能的「白箱」模式,還是用可信賴、高可靠性的黑箱解釋黑箱,只要攻克了可解釋性這個(gè)深度學(xué)習(xí)的大難關(guān),對(duì)全行業(yè)也有著重大意義。

最后,祝你每次用 AI 搜索的時(shí)候都「手氣不錯(cuò)」,得到的結(jié)果不用人工修改,就可以直接用。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。