正在閱讀:

百度想要定義AI原生應用,但搶跑不等于領跑

掃一掃下載界面新聞APP

百度想要定義AI原生應用,但搶跑不等于領跑

一方面押注自己,另一方面也將籌碼均勻分布到「生態(tài)」。百度如何才能避免讓這種熱情淪為一廂情愿?

文|新莓daybreak  史圣園

編輯|翟文婷

百度高調(diào)發(fā)布文心大模型4.0,再次將人們的目光聚焦在生成式AI。

李彥宏的說法是,與GPT4相比,文心 4.0的綜合水平已經(jīng)毫不遜色,理解、生成、邏輯和記憶四大能力,都有明顯提升。

基礎模型的能力決定著AI 原生應用的可能性。

AI 時代,搭建應用的技術成本顯著降低,最重要的還是找到「場景」。未來將有大量的大模型應用井噴,已成為行業(yè)內(nèi)、投資圈的共識。問題在于,什么時候才能產(chǎn)生真正意義上的AI爆款應用?

百度的解題方法是,一方面押注自己,將既有產(chǎn)品線用 AI重構;另一方面也將籌碼均勻分布到「生態(tài)」。百度智能云應用商店、靈境插件平臺,試圖搭建 AI 時代的 App Store,擴大命中「殺手級應用」的概率。

問題是,百度如何才能避免讓這種熱情淪為一廂情愿呢?

畢竟現(xiàn)實是,C端用戶使用AI應用的頻次并不高,找不到打開AI的正確方式;B端客戶采買的決策鏈路復雜漫長,同時擔心數(shù)據(jù)安全。這個行業(yè)癥結,百度是否有正確解法?

喊話 GPT 4

學界普遍認為,參數(shù)規(guī)模越大,模型的通用能力越強。

此次發(fā)布會上,李彥宏沒有提及文心大模型 4.0 的參數(shù)規(guī)模,而是著重展現(xiàn)了貼合生活場景的模型能力。據(jù)《晚點 LatePost》報道,該版本參數(shù)規(guī)?;蜻_到萬億級別。

李彥宏依次展示了文心大模型的四大能力:

·理解能力,他用公積金異地貸款為例,展示文心 4.0 對于前后亂序、表述模糊、潛臺詞洞察的能力。

·生成能力,讓大模型根據(jù)需求,生成一整套汽車的營銷素材,包括文案、海報、視頻等多模態(tài)內(nèi)容。

·邏輯能力,舉例的場景是家長輔導功課,文心一言給孩子講解數(shù)學題,包括解題思路、計算過程,以及知識點的延伸。

·記憶能力則是通過小說創(chuàng)作的案例,不斷補充人物關系、戲劇沖突等細節(jié),展示大模型在多輪對話中的記憶力。

值得一提的是,這四個場景均跟生活和工作中的「生產(chǎn)力」相關,強調(diào)切實的信息價值,弱化了休閑娛樂場景的陪伴、互動能力??雌饋恚男囊谎缘亩ㄎ桓袷且粋€「萬金油」助手。

主動發(fā)出這樣的信號,或許說明百度對模型能力有著更高的要求,想要積累更多的高質(zhì)量用戶數(shù)據(jù)。大模型的幻覺、行業(yè)知識的缺乏,是其廣泛落地的最大障礙。

娛樂場景的閑聊,雖然門檻低、有趣、易傳播,更容易積累大量的語料,單個用戶就能在一天中聊幾百個來回,但這些數(shù)據(jù)對底層模型的知識提升較為有限。而行業(yè)用戶所提出的問題、給出的反饋,才能真的讓大模型更懂業(yè)務場景。

新莓 daybreak 選取了一個注冊會計師考試題目,來實際測試文心 4.0和 GPT-4 目前的能力。該題目的計算過程,涉及 4 個解題步驟。

很遺憾,中外兩款大模型都未能正確回答,但均給出了解題思路。目前線上版本的文心一言依靠文心3.5模型,在第一步就出現(xiàn)了計算錯誤;而文心 4.0 和GPT-4 均是在第三步出現(xiàn)了計算錯誤。由此看來,各家大模型的推理能力均有待加強。

CPA考題,各家大模型均計算錯誤

當我們提示「計算步驟中是否出現(xiàn)數(shù)據(jù)錯誤」時,GPT-4 修正了數(shù)據(jù)錯誤,并給出了正確回答;而文心3.5、4.0 均開啟了另一個話題,試圖說明「數(shù)據(jù)計算出現(xiàn)錯誤」是什么原因,雖然文心4.0的解釋更翔實,但它并未能理解這句指示的真正意圖。GPT-4的上下文記憶和理解能力,目前略勝一籌。

GPT4 在用戶提示下修正了錯誤

以上測試,均是在未經(jīng)微調(diào)的通用應用上進行的測試。在實際應用時,往往需要用業(yè)務數(shù)據(jù)對模型進行微調(diào);然而,通用大模型在某個特定任務上的能力上升,可能會伴隨著其他場景上的能力下降。因此,針對不同的領域任務,推出不同的微調(diào)接口,對于實際應用尤為重要。

一些企業(yè)客戶已經(jīng)開始接入文心4.0體驗測試,某金融機構的IT部門告訴新莓daybreak,4.0版本的知識問答能力比之前有較大的提升。

AI重構應用

「沒有構建于基礎模型之上的豐富的 AI 原生應用,大模型就一文不值。」李彥宏說。他認為,AI 原生應用就是基于大模型的理解、生成、邏輯和記憶能力開發(fā)出來的應用。

此前,李彥宏曾從更感性的角度給出 AI 原生應用的定義。除了以上四點技術能力外,還需要滿足兩個條件:能用自然語言交互、每個功能不超過兩級菜單。

換言之,AI 原生應用,應該是簡單、直覺、輕量的。

改革先從自家的產(chǎn)品做起,百度搜索、網(wǎng)盤、文庫、地圖、智能辦公(如流)、輸入法等全線產(chǎn)品,都進行了 AI 化改造。

先來看搜索。百度曾靠搜索起家,后來知乎、微博、小紅書、B站,紛紛搶占了用戶的搜索時間。

早在2年前,抖音的搜索月活達5.5億次+,快手搜索月活達3億次+,單日視頻搜索量達2.5億次+;截至2023年2月,小紅書日均搜索查詢量達3億次。比起各類社交媒體上的專業(yè)領域KOL,百家號、貼吧構筑的內(nèi)容池,顯得吸引力不足。另一方面,僅能命中文本關鍵詞的搜索形式,無法很好地搜索圖片、視頻等內(nèi)容,已經(jīng)無法滿足多元的搜索需求。

這一次,百度搜索想借助 AI 變得更懂用戶。李彥宏介紹,「新搜索不再是給你一堆鏈接,而是通過大模型去理解,生成一個最好的答案?!顾麑⑿滤阉鞯奶攸c歸納為「極致滿足、推薦激發(fā)、多輪交互」。

用大白話說,搜索引擎不再只是按照你輸入的關鍵詞搜內(nèi)容,而是跟你聊天,并將結果整理成更易懂、易用的通俗語言。如果「對話」是搜索未來的產(chǎn)品形態(tài),那么被顛覆的不僅是用戶體驗,還有搜索引擎的商業(yè)模式。

AI 搜索,不再是搬運內(nèi)容,而是在創(chuàng)造內(nèi)容。

如果當 AI 的創(chuàng)造包含廣告的成分,且不加以區(qū)分,那么用戶將無法信任搜索的結果。如果限制商業(yè)行為對AI回復的干擾,那么競價排名的廣告收入勢必會受影響。目前,線上使用的百度搜索仍然是老版本,只是多了一個喚起 AI 助手的入口。

百度文庫、百度網(wǎng)盤也紛紛在各自的界面上加入了 AI 助手。網(wǎng)盤助手和文庫助手都可以幫助用戶總結內(nèi)容、提煉要點。功能都是好功能,但放在一起,不免讓人覺得,各條產(chǎn)品線的 AI 助手大同小異。

讓人眼前一亮的是 AI 版輸入法。百度輸入法的 AI 功能叫「超會寫」,主打「讓你社交溝通不再精神內(nèi)耗」,洞察到了一個剛需、高頻、且對生成文案容錯率較高的場景。但目前,點擊輸入欄的按鈕喚起AI的交互,還是略顯刻意。AI功能和輸入法的融合,微信輸入法更潤物細無聲,將輸入本身變成召喚術:在輸入文字后,自動聯(lián)想到優(yōu)化表達、喚起音樂等貼合場景的需求。

微信輸入法的AI喚醒方式更加自然

百度 AI 原生應用商店也一并上線,截止 10 月 22 日,共有 55 款應用。生態(tài)中的智能應用,集中在智能客服、AI輔助寫作、專業(yè)知識問答等幾個場景,和百度自有產(chǎn)品線的應用場景高度重合,但多了一些行業(yè)屬性。

如何先用起來

阻礙 B 端用戶應用大模型的,主要是成本和預期的問題。無論規(guī)模,企業(yè)們都非常看重數(shù)據(jù)的私密性。

Cathy 是一家大模型公司的解決方案工程師,她說,即使是云端私有化的方式,一些客戶還是感到不安。「客戶最開始試驗的,都是一些對數(shù)據(jù)安全要求不太嚴格的功能。但如果后續(xù)想要一些深度功能,就紛紛都要求私有化了。」

但如果要將大模型做私有化部署,價格往往需要幾千萬元,整個決策鏈路就要被無限拉長。

David 所在的創(chuàng)業(yè)科技公司長期服務企業(yè)客戶。不僅是他們,客戶公司的部門領導也更喜歡短平快、立竿見影的小項目,讓自己的部門先做起來?!复笮蜋C構的招投標,如果從部門上升到整個公司層面,就會變得極其復雜?!?/p>

「客戶的需求都比較理想化,他們都希望用稍微小一點的模型,最好可以私有化部署,然后還能達到很好的效果?!笵avid 說,經(jīng)過他們測試,如果企業(yè)內(nèi)部的數(shù)據(jù)質(zhì)量足夠高,在 6B、13B 的小參數(shù)模型上進行特定任務訓練,也能達到相對理想的效果。

David還補充道,「不僅僅是私有化的成本,單次推理的成本也會更低,速度還會更快。我的親身體會是,小參數(shù)的模型,客戶接受起來更容易一些?!?/p>

而對于大多數(shù) C 端用戶來說,真正使用 AI 的頻次并不高。一些 AI 應用的定價從側面證實,用戶訂閱 AI 服務頗有點沖動消費的意味?!笧?AI 付費,感覺像是辦了個健身房的年卡會員,是在消費一種『我會更加高效』的感覺?!?/p>

海外用戶量較大的兩款文檔處理類 AI 工具,ChatPDF 和 PDF.ai,都將月度會員的權益放大到幾乎「無限次使用」,再收取十幾美元的價格。

這兩款產(chǎn)品都出自個人開發(fā)者之手,他們沒有賠本賺吆喝的必要。從實際使用情況來看,很少有用戶高頻使用,十幾美元就足夠覆蓋用戶消耗的成本。用戶使用程度不夠深入,或許也說明,AI 現(xiàn)有的能力,并沒有達到用戶的期待。

但也不是絕對的。程序員是為數(shù)不多認真在使用 AI 產(chǎn)品的人群。

GitHub Copilot 的售價也是每月10美元,華爾街日報卻報道稱,平均每位付費用戶每月給微軟帶來了20 美元的虧損。從另一個角度看,微軟每月用 20 美元的價格,雇傭了一個認真的用戶,提供高質(zhì)量的數(shù)據(jù)幫他們訓練 AI。

人人都知道下一個機會在應用層,可是找準場景、利用 AI 絲滑地升級現(xiàn)有產(chǎn)品,又談何容易。

企業(yè)用戶還在擔心數(shù)據(jù)安全,大量個人用戶找不到 AI 的正確打開方式。大模型想要兌現(xiàn)商業(yè)價值,似乎長路漫漫。

而百度的搶跑似乎在告訴我們,快人一步,至少意味著更多空間和可能。

本文為轉載內(nèi)容,授權事宜請聯(lián)系原著作權人。

百度

6k
  • 李彥宏堅稱不做視頻生成模型,中國版Sora到底值不值得做?
  • 盤前機會前瞻| 工信部最新發(fā)聲!高級自動駕駛技術有望實現(xiàn)重大突破,這幾家公司與百度、小鵬深度合作部分產(chǎn)品已經(jīng)量產(chǎn)(附概念股)

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

百度想要定義AI原生應用,但搶跑不等于領跑

一方面押注自己,另一方面也將籌碼均勻分布到「生態(tài)」。百度如何才能避免讓這種熱情淪為一廂情愿?

文|新莓daybreak  史圣園

編輯|翟文婷

百度高調(diào)發(fā)布文心大模型4.0,再次將人們的目光聚焦在生成式AI。

李彥宏的說法是,與GPT4相比,文心 4.0的綜合水平已經(jīng)毫不遜色,理解、生成、邏輯和記憶四大能力,都有明顯提升。

基礎模型的能力決定著AI 原生應用的可能性。

AI 時代,搭建應用的技術成本顯著降低,最重要的還是找到「場景」。未來將有大量的大模型應用井噴,已成為行業(yè)內(nèi)、投資圈的共識。問題在于,什么時候才能產(chǎn)生真正意義上的AI爆款應用?

百度的解題方法是,一方面押注自己,將既有產(chǎn)品線用 AI重構;另一方面也將籌碼均勻分布到「生態(tài)」。百度智能云應用商店、靈境插件平臺,試圖搭建 AI 時代的 App Store,擴大命中「殺手級應用」的概率。

問題是,百度如何才能避免讓這種熱情淪為一廂情愿呢?

畢竟現(xiàn)實是,C端用戶使用AI應用的頻次并不高,找不到打開AI的正確方式;B端客戶采買的決策鏈路復雜漫長,同時擔心數(shù)據(jù)安全。這個行業(yè)癥結,百度是否有正確解法?

喊話 GPT 4

學界普遍認為,參數(shù)規(guī)模越大,模型的通用能力越強。

此次發(fā)布會上,李彥宏沒有提及文心大模型 4.0 的參數(shù)規(guī)模,而是著重展現(xiàn)了貼合生活場景的模型能力。據(jù)《晚點 LatePost》報道,該版本參數(shù)規(guī)模或達到萬億級別。

李彥宏依次展示了文心大模型的四大能力:

·理解能力,他用公積金異地貸款為例,展示文心 4.0 對于前后亂序、表述模糊、潛臺詞洞察的能力。

·生成能力,讓大模型根據(jù)需求,生成一整套汽車的營銷素材,包括文案、海報、視頻等多模態(tài)內(nèi)容。

·邏輯能力,舉例的場景是家長輔導功課,文心一言給孩子講解數(shù)學題,包括解題思路、計算過程,以及知識點的延伸。

·記憶能力則是通過小說創(chuàng)作的案例,不斷補充人物關系、戲劇沖突等細節(jié),展示大模型在多輪對話中的記憶力。

值得一提的是,這四個場景均跟生活和工作中的「生產(chǎn)力」相關,強調(diào)切實的信息價值,弱化了休閑娛樂場景的陪伴、互動能力??雌饋?,文心一言的定位更像是一個「萬金油」助手。

主動發(fā)出這樣的信號,或許說明百度對模型能力有著更高的要求,想要積累更多的高質(zhì)量用戶數(shù)據(jù)。大模型的幻覺、行業(yè)知識的缺乏,是其廣泛落地的最大障礙。

娛樂場景的閑聊,雖然門檻低、有趣、易傳播,更容易積累大量的語料,單個用戶就能在一天中聊幾百個來回,但這些數(shù)據(jù)對底層模型的知識提升較為有限。而行業(yè)用戶所提出的問題、給出的反饋,才能真的讓大模型更懂業(yè)務場景。

新莓 daybreak 選取了一個注冊會計師考試題目,來實際測試文心 4.0和 GPT-4 目前的能力。該題目的計算過程,涉及 4 個解題步驟。

很遺憾,中外兩款大模型都未能正確回答,但均給出了解題思路。目前線上版本的文心一言依靠文心3.5模型,在第一步就出現(xiàn)了計算錯誤;而文心 4.0 和GPT-4 均是在第三步出現(xiàn)了計算錯誤。由此看來,各家大模型的推理能力均有待加強。

CPA考題,各家大模型均計算錯誤

當我們提示「計算步驟中是否出現(xiàn)數(shù)據(jù)錯誤」時,GPT-4 修正了數(shù)據(jù)錯誤,并給出了正確回答;而文心3.5、4.0 均開啟了另一個話題,試圖說明「數(shù)據(jù)計算出現(xiàn)錯誤」是什么原因,雖然文心4.0的解釋更翔實,但它并未能理解這句指示的真正意圖。GPT-4的上下文記憶和理解能力,目前略勝一籌。

GPT4 在用戶提示下修正了錯誤

以上測試,均是在未經(jīng)微調(diào)的通用應用上進行的測試。在實際應用時,往往需要用業(yè)務數(shù)據(jù)對模型進行微調(diào);然而,通用大模型在某個特定任務上的能力上升,可能會伴隨著其他場景上的能力下降。因此,針對不同的領域任務,推出不同的微調(diào)接口,對于實際應用尤為重要。

一些企業(yè)客戶已經(jīng)開始接入文心4.0體驗測試,某金融機構的IT部門告訴新莓daybreak,4.0版本的知識問答能力比之前有較大的提升。

AI重構應用

「沒有構建于基礎模型之上的豐富的 AI 原生應用,大模型就一文不值?!估顝┖暾f。他認為,AI 原生應用就是基于大模型的理解、生成、邏輯和記憶能力開發(fā)出來的應用。

此前,李彥宏曾從更感性的角度給出 AI 原生應用的定義。除了以上四點技術能力外,還需要滿足兩個條件:能用自然語言交互、每個功能不超過兩級菜單。

換言之,AI 原生應用,應該是簡單、直覺、輕量的。

改革先從自家的產(chǎn)品做起,百度搜索、網(wǎng)盤、文庫、地圖、智能辦公(如流)、輸入法等全線產(chǎn)品,都進行了 AI 化改造。

先來看搜索。百度曾靠搜索起家,后來知乎、微博、小紅書、B站,紛紛搶占了用戶的搜索時間。

早在2年前,抖音的搜索月活達5.5億次+,快手搜索月活達3億次+,單日視頻搜索量達2.5億次+;截至2023年2月,小紅書日均搜索查詢量達3億次。比起各類社交媒體上的專業(yè)領域KOL,百家號、貼吧構筑的內(nèi)容池,顯得吸引力不足。另一方面,僅能命中文本關鍵詞的搜索形式,無法很好地搜索圖片、視頻等內(nèi)容,已經(jīng)無法滿足多元的搜索需求。

這一次,百度搜索想借助 AI 變得更懂用戶。李彥宏介紹,「新搜索不再是給你一堆鏈接,而是通過大模型去理解,生成一個最好的答案?!顾麑⑿滤阉鞯奶攸c歸納為「極致滿足、推薦激發(fā)、多輪交互」。

用大白話說,搜索引擎不再只是按照你輸入的關鍵詞搜內(nèi)容,而是跟你聊天,并將結果整理成更易懂、易用的通俗語言。如果「對話」是搜索未來的產(chǎn)品形態(tài),那么被顛覆的不僅是用戶體驗,還有搜索引擎的商業(yè)模式。

AI 搜索,不再是搬運內(nèi)容,而是在創(chuàng)造內(nèi)容。

如果當 AI 的創(chuàng)造包含廣告的成分,且不加以區(qū)分,那么用戶將無法信任搜索的結果。如果限制商業(yè)行為對AI回復的干擾,那么競價排名的廣告收入勢必會受影響。目前,線上使用的百度搜索仍然是老版本,只是多了一個喚起 AI 助手的入口。

百度文庫、百度網(wǎng)盤也紛紛在各自的界面上加入了 AI 助手。網(wǎng)盤助手和文庫助手都可以幫助用戶總結內(nèi)容、提煉要點。功能都是好功能,但放在一起,不免讓人覺得,各條產(chǎn)品線的 AI 助手大同小異。

讓人眼前一亮的是 AI 版輸入法。百度輸入法的 AI 功能叫「超會寫」,主打「讓你社交溝通不再精神內(nèi)耗」,洞察到了一個剛需、高頻、且對生成文案容錯率較高的場景。但目前,點擊輸入欄的按鈕喚起AI的交互,還是略顯刻意。AI功能和輸入法的融合,微信輸入法更潤物細無聲,將輸入本身變成召喚術:在輸入文字后,自動聯(lián)想到優(yōu)化表達、喚起音樂等貼合場景的需求。

微信輸入法的AI喚醒方式更加自然

百度 AI 原生應用商店也一并上線,截止 10 月 22 日,共有 55 款應用。生態(tài)中的智能應用,集中在智能客服、AI輔助寫作、專業(yè)知識問答等幾個場景,和百度自有產(chǎn)品線的應用場景高度重合,但多了一些行業(yè)屬性。

如何先用起來

阻礙 B 端用戶應用大模型的,主要是成本和預期的問題。無論規(guī)模,企業(yè)們都非??粗財?shù)據(jù)的私密性。

Cathy 是一家大模型公司的解決方案工程師,她說,即使是云端私有化的方式,一些客戶還是感到不安?!缚蛻糇铋_始試驗的,都是一些對數(shù)據(jù)安全要求不太嚴格的功能。但如果后續(xù)想要一些深度功能,就紛紛都要求私有化了?!?/p>

但如果要將大模型做私有化部署,價格往往需要幾千萬元,整個決策鏈路就要被無限拉長。

David 所在的創(chuàng)業(yè)科技公司長期服務企業(yè)客戶。不僅是他們,客戶公司的部門領導也更喜歡短平快、立竿見影的小項目,讓自己的部門先做起來?!复笮蜋C構的招投標,如果從部門上升到整個公司層面,就會變得極其復雜?!?/p>

「客戶的需求都比較理想化,他們都希望用稍微小一點的模型,最好可以私有化部署,然后還能達到很好的效果?!笵avid 說,經(jīng)過他們測試,如果企業(yè)內(nèi)部的數(shù)據(jù)質(zhì)量足夠高,在 6B、13B 的小參數(shù)模型上進行特定任務訓練,也能達到相對理想的效果。

David還補充道,「不僅僅是私有化的成本,單次推理的成本也會更低,速度還會更快。我的親身體會是,小參數(shù)的模型,客戶接受起來更容易一些。」

而對于大多數(shù) C 端用戶來說,真正使用 AI 的頻次并不高。一些 AI 應用的定價從側面證實,用戶訂閱 AI 服務頗有點沖動消費的意味。「為 AI 付費,感覺像是辦了個健身房的年卡會員,是在消費一種『我會更加高效』的感覺?!?/p>

海外用戶量較大的兩款文檔處理類 AI 工具,ChatPDF 和 PDF.ai,都將月度會員的權益放大到幾乎「無限次使用」,再收取十幾美元的價格。

這兩款產(chǎn)品都出自個人開發(fā)者之手,他們沒有賠本賺吆喝的必要。從實際使用情況來看,很少有用戶高頻使用,十幾美元就足夠覆蓋用戶消耗的成本。用戶使用程度不夠深入,或許也說明,AI 現(xiàn)有的能力,并沒有達到用戶的期待。

但也不是絕對的。程序員是為數(shù)不多認真在使用 AI 產(chǎn)品的人群。

GitHub Copilot 的售價也是每月10美元,華爾街日報卻報道稱,平均每位付費用戶每月給微軟帶來了20 美元的虧損。從另一個角度看,微軟每月用 20 美元的價格,雇傭了一個認真的用戶,提供高質(zhì)量的數(shù)據(jù)幫他們訓練 AI。

人人都知道下一個機會在應用層,可是找準場景、利用 AI 絲滑地升級現(xiàn)有產(chǎn)品,又談何容易。

企業(yè)用戶還在擔心數(shù)據(jù)安全,大量個人用戶找不到 AI 的正確打開方式。大模型想要兌現(xiàn)商業(yè)價值,似乎長路漫漫。

而百度的搶跑似乎在告訴我們,快人一步,至少意味著更多空間和可能。

本文為轉載內(nèi)容,授權事宜請聯(lián)系原著作權人。