正在閱讀:

大模型落地難題怎樣破解?百川智能用搜索給出答案

掃一掃下載界面新聞APP

大模型落地難題怎樣破解?百川智能用搜索給出答案

“光靠模型本身做得再大都是不夠的,大模型+搜索才能構(gòu)成完整的技術(shù)棧。 ”

圖源:百川智能

界面新聞?dòng)浾?| 李京亞

大模型一周年之際,業(yè)界對(duì)各類工作的重要程度開始達(dá)成共識(shí),比如多位開發(fā)者就公認(rèn),擴(kuò)展大模型上下文長(zhǎng)度是非常重要的工作,甚至?xí)蔀榇竽P吐涞氐钠款i,向量數(shù)據(jù)庫則是另一個(gè)。

從ChatGPT的4K到GPT-4的32K,從MPT-7B的65K到Claude的100K,進(jìn)入下半年,大模型的上下文窗口正變得越來越大。為在長(zhǎng)文檔問答、長(zhǎng)文本摘要和RAG(檢索增強(qiáng)生成)等多種應(yīng)用場(chǎng)景中迅速落地,國內(nèi)方面以百川智能、月之暗面、智譜AI為代表的大模型頭部公司紛紛加入上下文窗口競(jìng)逐賽。到了年尾時(shí)段,王小川似乎又找到了另一種令大模型走向?qū)嵱玫姆椒?,即與自己曾經(jīng)最擅長(zhǎng)的領(lǐng)域——搜索結(jié)合起來。

“今天大模型領(lǐng)域有三大問題要去解決,第一,幻覺要通過更大的模型去減少;第二,模型是靜態(tài)的知識(shí)庫,需要升級(jí),之前像OpenAI GPT4停在2019年的數(shù)據(jù),到現(xiàn)在最新更新到20234月份,停在那里不動(dòng);第三,今天尤其在垂直領(lǐng)域里面,做商業(yè)落地的時(shí)候,專業(yè)領(lǐng)域知識(shí)不足,每個(gè)企業(yè)都有自己的垂直數(shù)據(jù),還有公開的網(wǎng)絡(luò)數(shù)據(jù),如何利用起來。”12月19日下午的一場(chǎng)交流會(huì)上,百川智能CEO王小川對(duì)界面新聞等媒體提出了對(duì)行業(yè)的預(yù)判,“光靠模型本身做得再大都是不夠的,大模型+搜索才能構(gòu)成完整的技術(shù)棧。

簡(jiǎn)單說,王小川的意思是指,搜索增強(qiáng)才是大模型落地應(yīng)用的關(guān)鍵。

當(dāng)日下午,百川智能宣布開放基于搜索增強(qiáng)的Baichuan2-Turbo系列API,包含Baichuan2-Turbo-192K及Baichuan2-Turbo兩款產(chǎn)品。在支持192K超長(zhǎng)上下文窗口的基礎(chǔ)上,百川還發(fā)布了搜索增強(qiáng)知識(shí)庫的能力,可以讓企業(yè)從私有化部署上把云端知識(shí)上傳,做成一個(gè)外掛系統(tǒng),跟Baichuan2系統(tǒng)做對(duì)接,這樣,每個(gè)企業(yè)就可以定制自己的硬盤,做到即插即用。

百川智能的Baichuan2-192k大模型是10月30日發(fā)布的,其依靠高達(dá)192k的上下文窗口長(zhǎng)度,居全球上下文窗口之首。此番發(fā)布的Baichuan2-Turbo-192K比之前的運(yùn)行速度更快,效率精度更高。據(jù)悉,百川智能通過長(zhǎng)窗口+搜索增強(qiáng)的方式,在192K長(zhǎng)上下文窗口的基礎(chǔ)上,將大模型能夠獲取的文本規(guī)模提升至5000萬tokens(大模型處理文本時(shí)的最小單位),相當(dāng)于1億漢字。

搜索增強(qiáng)gif  圖源:百川智能現(xiàn)場(chǎng)演示
為實(shí)現(xiàn)更好的向量檢索效果,百川智能自研的向量模型使用了超過1.5T token 的高質(zhì)量中文數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。多信息源歸納提取gif 圖源:百川智能現(xiàn)場(chǎng)演示

百川智能聯(lián)合創(chuàng)始人洪濤對(duì)記者解釋稱,百川的整個(gè)搜索增強(qiáng)知識(shí)庫是可看作是一個(gè)外掛的硬盤,而上下文窗口在百川體系里相當(dāng)于內(nèi)存,“Baichuan2-192k可以一次容納35萬漢字,這次測(cè)試的知識(shí)庫相當(dāng)于5000w token,接近1億漢字,整整高兩個(gè)數(shù)量級(jí),可以理解成現(xiàn)在的電腦內(nèi)存是G級(jí)別,硬盤是T級(jí)別。 ”

目前,用戶可通過官網(wǎng)入口體驗(yàn)搜索增強(qiáng)和長(zhǎng)窗口加持后的通用智能。從現(xiàn)場(chǎng)演示可以看出,搜索增強(qiáng)的確能有效解決大模型落地應(yīng)用的諸多問題。

在具體實(shí)施上,模型是先根據(jù)用戶的提示詞,在海量的文檔中檢索出最相關(guān)的內(nèi)容,再將這些文檔與提示詞一起放到長(zhǎng)窗口中,從而節(jié)省推理費(fèi)用與時(shí)間成本。

在現(xiàn)場(chǎng)演示中,百川智能的知識(shí)庫可以推斷出用戶輸入背后深層的問題,能理解用戶的真實(shí)意圖,能引導(dǎo)模型回答出更準(zhǔn)確的答案。

為精準(zhǔn)理解用戶意圖,百川智能使用自研大語言模型對(duì)用戶意圖理解進(jìn)行微調(diào),已經(jīng)有能力將用戶連續(xù)多輪、口語化的提示詞Prompt信息轉(zhuǎn)換為更符合傳統(tǒng)搜索引擎理解的關(guān)鍵詞或語義結(jié)構(gòu)。

王小川解釋稱,他們是通過稀疏檢索和向量檢索跟搜索的系統(tǒng)對(duì)接的方式,攻克了一部分技術(shù)難點(diǎn),達(dá)到了語義理解方面的更好效果。首先,百川智能為了讓向量模型實(shí)現(xiàn)更好的檢索效果,融入了稀疏檢索這樣的模型,而這個(gè)“來自于此前搜索的多年積累”;其次,“用戶需求是口語化、復(fù)雜的上下文相關(guān)的提示詞prompt,而傳統(tǒng)的搜索是基于一個(gè)關(guān)鍵詞Prompt,這兩個(gè)對(duì)齊是今天搜索長(zhǎng)窗口要面臨的問題?!?/p>

據(jù)百川智能技術(shù)聯(lián)合創(chuàng)始人陳煒鵬介紹,當(dāng)下,構(gòu)建大模型知識(shí)庫的主流方法是向量檢索,但其效果過于依賴訓(xùn)練數(shù)據(jù)的覆蓋,在訓(xùn)練數(shù)據(jù)未覆蓋的領(lǐng)域泛化能力有明顯折扣,本質(zhì)上,向量數(shù)據(jù)庫的檢索方式性能較低,只適用于規(guī)模較小的企業(yè)團(tuán)隊(duì),而稀疏檢索對(duì)嚴(yán)格的語義、漂移和效率都有更好的表現(xiàn),并且用到的正是搜狗過去做搜索引擎時(shí)基于符號(hào)的搜索方式。

目前,百川正在深入探索稀疏檢索與向量檢索并行的混合檢索方式,并做到了將目標(biāo)文檔的召回率提升到了95%的成果,大幅領(lǐng)先于市面上絕大多數(shù)開源向量模型的80%召回率。

圖源:百川智能現(xiàn)場(chǎng)演示

“召回率越高,準(zhǔn)確度越高,這樣搜索系統(tǒng)會(huì)使得大模型工作得更好?!蓖跣〈ū硎?。

此外,百川智能還參考Meta提出的鏈?zhǔn)津?yàn)證(Chain-of-Verification,簡(jiǎn)寫CoVe)方法來減少大語言模型幻覺,目前,百川可以做到將真實(shí)場(chǎng)景的用戶復(fù)雜問題拆分成多個(gè)獨(dú)立可并行檢索的子結(jié)構(gòu)問題,從而讓大模型針對(duì)每個(gè)子問題進(jìn)行定向的知識(shí)庫搜索,提供更加準(zhǔn)確的答案。

“在今天尤其從國內(nèi)來看,搜索增強(qiáng)是大模型走向?qū)嵱玫牡谝徊?,甚至是最關(guān)鍵的一步。”王小川坦言。


百川智能搜索增強(qiáng)數(shù)據(jù)庫在博金大模型挑戰(zhàn)賽中表現(xiàn)不錯(cuò),在金融數(shù)據(jù)集(文檔理解部分)、MultiFieldQA-zh和DuReader三個(gè)行業(yè)主流知識(shí)庫測(cè)試集上的得分均領(lǐng)先GPT-3.5、GPT-4等行業(yè)頭部模型。
 

這場(chǎng)發(fā)布會(huì)表面推出了三款產(chǎn)品,實(shí)際上也是百川智能首次對(duì)外介紹公司的To B業(yè)務(wù)進(jìn)展。王小川表示,百川的搜索增強(qiáng)最大意愿并非解決幻覺問題,而是解決可定制化,后者是To B商業(yè)路線的最大需求,“光靠一個(gè)API調(diào)用是不夠的”,因?yàn)椤?/span>企業(yè)有很多私有數(shù)據(jù),如何為模型所用是關(guān)鍵,要通過大模型+搜索增強(qiáng)來實(shí)現(xiàn)?!?/p>

重B端的同時(shí),百川智能也并沒有忽視對(duì)C端的探索,王小川也在現(xiàn)場(chǎng)反復(fù)提到了對(duì)C端產(chǎn)品的看重,還稱正在研發(fā)幾款超級(jí)應(yīng)用。

“C端不會(huì)做小”。他表示,搜索增強(qiáng)對(duì)B、C兩端都很有用,而C端產(chǎn)品有時(shí)需要在公域上去做一做,“一方面跟騰訊有合作,一方面我們自己有傳統(tǒng)的搜索積累,自研的搜索,尤其是在搜索里面怎么跟大模型對(duì)齊,做了非常多工作?!?/p>

王小川透露,多家行業(yè)頭部企業(yè)已與百川智能達(dá)成合作,包括阿里與騰訊,合作的方式主要包括,在深度融合百川智能長(zhǎng)上下文窗口和搜索增強(qiáng)知識(shí)庫的能力基礎(chǔ)上,對(duì)自身業(yè)務(wù)進(jìn)行智能側(cè)升級(jí)。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。

評(píng)論

暫無評(píng)論哦,快來評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

大模型落地難題怎樣破解?百川智能用搜索給出答案

“光靠模型本身做得再大都是不夠的,大模型+搜索才能構(gòu)成完整的技術(shù)棧。 ”

圖源:百川智能

界面新聞?dòng)浾?| 李京亞

大模型一周年之際,業(yè)界對(duì)各類工作的重要程度開始達(dá)成共識(shí),比如多位開發(fā)者就公認(rèn),擴(kuò)展大模型上下文長(zhǎng)度是非常重要的工作,甚至?xí)蔀榇竽P吐涞氐钠款i,向量數(shù)據(jù)庫則是另一個(gè)。

從ChatGPT的4K到GPT-4的32K,從MPT-7B的65K到Claude的100K,進(jìn)入下半年,大模型的上下文窗口正變得越來越大。為在長(zhǎng)文檔問答、長(zhǎng)文本摘要和RAG(檢索增強(qiáng)生成)等多種應(yīng)用場(chǎng)景中迅速落地,國內(nèi)方面以百川智能、月之暗面、智譜AI為代表的大模型頭部公司紛紛加入上下文窗口競(jìng)逐賽。到了年尾時(shí)段,王小川似乎又找到了另一種令大模型走向?qū)嵱玫姆椒?,即與自己曾經(jīng)最擅長(zhǎng)的領(lǐng)域——搜索結(jié)合起來。

“今天大模型領(lǐng)域有三大問題要去解決,第一,幻覺要通過更大的模型去減少;第二,模型是靜態(tài)的知識(shí)庫,需要升級(jí),之前像OpenAI GPT4停在2019年的數(shù)據(jù),到現(xiàn)在最新更新到20234月份,停在那里不動(dòng);第三,今天尤其在垂直領(lǐng)域里面,做商業(yè)落地的時(shí)候,專業(yè)領(lǐng)域知識(shí)不足,每個(gè)企業(yè)都有自己的垂直數(shù)據(jù),還有公開的網(wǎng)絡(luò)數(shù)據(jù),如何利用起來。”12月19日下午的一場(chǎng)交流會(huì)上,百川智能CEO王小川對(duì)界面新聞等媒體提出了對(duì)行業(yè)的預(yù)判,“光靠模型本身做得再大都是不夠的,大模型+搜索才能構(gòu)成完整的技術(shù)棧。

簡(jiǎn)單說,王小川的意思是指,搜索增強(qiáng)才是大模型落地應(yīng)用的關(guān)鍵。

當(dāng)日下午,百川智能宣布開放基于搜索增強(qiáng)的Baichuan2-Turbo系列API,包含Baichuan2-Turbo-192K及Baichuan2-Turbo兩款產(chǎn)品。在支持192K超長(zhǎng)上下文窗口的基礎(chǔ)上,百川還發(fā)布了搜索增強(qiáng)知識(shí)庫的能力,可以讓企業(yè)從私有化部署上把云端知識(shí)上傳,做成一個(gè)外掛系統(tǒng),跟Baichuan2系統(tǒng)做對(duì)接,這樣,每個(gè)企業(yè)就可以定制自己的硬盤,做到即插即用。

百川智能的Baichuan2-192k大模型是10月30日發(fā)布的,其依靠高達(dá)192k的上下文窗口長(zhǎng)度,居全球上下文窗口之首。此番發(fā)布的Baichuan2-Turbo-192K比之前的運(yùn)行速度更快,效率精度更高。據(jù)悉,百川智能通過長(zhǎng)窗口+搜索增強(qiáng)的方式,在192K長(zhǎng)上下文窗口的基礎(chǔ)上,將大模型能夠獲取的文本規(guī)模提升至5000萬tokens(大模型處理文本時(shí)的最小單位),相當(dāng)于1億漢字。

搜索增強(qiáng)gif  圖源:百川智能現(xiàn)場(chǎng)演示
為實(shí)現(xiàn)更好的向量檢索效果,百川智能自研的向量模型使用了超過1.5T token 的高質(zhì)量中文數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。多信息源歸納提取gif 圖源:百川智能現(xiàn)場(chǎng)演示

百川智能聯(lián)合創(chuàng)始人洪濤對(duì)記者解釋稱,百川的整個(gè)搜索增強(qiáng)知識(shí)庫是可看作是一個(gè)外掛的硬盤,而上下文窗口在百川體系里相當(dāng)于內(nèi)存,“Baichuan2-192k可以一次容納35萬漢字,這次測(cè)試的知識(shí)庫相當(dāng)于5000w token,接近1億漢字,整整高兩個(gè)數(shù)量級(jí),可以理解成現(xiàn)在的電腦內(nèi)存是G級(jí)別,硬盤是T級(jí)別。 ”

目前,用戶可通過官網(wǎng)入口體驗(yàn)搜索增強(qiáng)和長(zhǎng)窗口加持后的通用智能。從現(xiàn)場(chǎng)演示可以看出,搜索增強(qiáng)的確能有效解決大模型落地應(yīng)用的諸多問題。

在具體實(shí)施上,模型是先根據(jù)用戶的提示詞,在海量的文檔中檢索出最相關(guān)的內(nèi)容,再將這些文檔與提示詞一起放到長(zhǎng)窗口中,從而節(jié)省推理費(fèi)用與時(shí)間成本。

在現(xiàn)場(chǎng)演示中,百川智能的知識(shí)庫可以推斷出用戶輸入背后深層的問題,能理解用戶的真實(shí)意圖,能引導(dǎo)模型回答出更準(zhǔn)確的答案。

為精準(zhǔn)理解用戶意圖,百川智能使用自研大語言模型對(duì)用戶意圖理解進(jìn)行微調(diào),已經(jīng)有能力將用戶連續(xù)多輪、口語化的提示詞Prompt信息轉(zhuǎn)換為更符合傳統(tǒng)搜索引擎理解的關(guān)鍵詞或語義結(jié)構(gòu)。

王小川解釋稱,他們是通過稀疏檢索和向量檢索跟搜索的系統(tǒng)對(duì)接的方式,攻克了一部分技術(shù)難點(diǎn),達(dá)到了語義理解方面的更好效果。首先,百川智能為了讓向量模型實(shí)現(xiàn)更好的檢索效果,融入了稀疏檢索這樣的模型,而這個(gè)“來自于此前搜索的多年積累”;其次,“用戶需求是口語化、復(fù)雜的上下文相關(guān)的提示詞prompt,而傳統(tǒng)的搜索是基于一個(gè)關(guān)鍵詞Prompt,這兩個(gè)對(duì)齊是今天搜索長(zhǎng)窗口要面臨的問題?!?/p>

據(jù)百川智能技術(shù)聯(lián)合創(chuàng)始人陳煒鵬介紹,當(dāng)下,構(gòu)建大模型知識(shí)庫的主流方法是向量檢索,但其效果過于依賴訓(xùn)練數(shù)據(jù)的覆蓋,在訓(xùn)練數(shù)據(jù)未覆蓋的領(lǐng)域泛化能力有明顯折扣,本質(zhì)上,向量數(shù)據(jù)庫的檢索方式性能較低,只適用于規(guī)模較小的企業(yè)團(tuán)隊(duì),而稀疏檢索對(duì)嚴(yán)格的語義、漂移和效率都有更好的表現(xiàn),并且用到的正是搜狗過去做搜索引擎時(shí)基于符號(hào)的搜索方式。

目前,百川正在深入探索稀疏檢索與向量檢索并行的混合檢索方式,并做到了將目標(biāo)文檔的召回率提升到了95%的成果,大幅領(lǐng)先于市面上絕大多數(shù)開源向量模型的80%召回率。

圖源:百川智能現(xiàn)場(chǎng)演示

“召回率越高,準(zhǔn)確度越高,這樣搜索系統(tǒng)會(huì)使得大模型工作得更好。”王小川表示。

此外,百川智能還參考Meta提出的鏈?zhǔn)津?yàn)證(Chain-of-Verification,簡(jiǎn)寫CoVe)方法來減少大語言模型幻覺,目前,百川可以做到將真實(shí)場(chǎng)景的用戶復(fù)雜問題拆分成多個(gè)獨(dú)立可并行檢索的子結(jié)構(gòu)問題,從而讓大模型針對(duì)每個(gè)子問題進(jìn)行定向的知識(shí)庫搜索,提供更加準(zhǔn)確的答案。

“在今天尤其從國內(nèi)來看,搜索增強(qiáng)是大模型走向?qū)嵱玫牡谝徊?,甚至是最關(guān)鍵的一步?!蓖跣〈ㄌ寡?。


百川智能搜索增強(qiáng)數(shù)據(jù)庫在博金大模型挑戰(zhàn)賽中表現(xiàn)不錯(cuò),在金融數(shù)據(jù)集(文檔理解部分)、MultiFieldQA-zh和DuReader三個(gè)行業(yè)主流知識(shí)庫測(cè)試集上的得分均領(lǐng)先GPT-3.5、GPT-4等行業(yè)頭部模型。
 

這場(chǎng)發(fā)布會(huì)表面推出了三款產(chǎn)品,實(shí)際上也是百川智能首次對(duì)外介紹公司的To B業(yè)務(wù)進(jìn)展。王小川表示,百川的搜索增強(qiáng)最大意愿并非解決幻覺問題,而是解決可定制化,后者是To B商業(yè)路線的最大需求,“光靠一個(gè)API調(diào)用是不夠的”,因?yàn)椤?/span>企業(yè)有很多私有數(shù)據(jù),如何為模型所用是關(guān)鍵,要通過大模型+搜索增強(qiáng)來實(shí)現(xiàn)?!?/p>

重B端的同時(shí),百川智能也并沒有忽視對(duì)C端的探索,王小川也在現(xiàn)場(chǎng)反復(fù)提到了對(duì)C端產(chǎn)品的看重,還稱正在研發(fā)幾款超級(jí)應(yīng)用。

“C端不會(huì)做小”。他表示,搜索增強(qiáng)對(duì)B、C兩端都很有用,而C端產(chǎn)品有時(shí)需要在公域上去做一做,“一方面跟騰訊有合作,一方面我們自己有傳統(tǒng)的搜索積累,自研的搜索,尤其是在搜索里面怎么跟大模型對(duì)齊,做了非常多工作?!?/p>

王小川透露,多家行業(yè)頭部企業(yè)已與百川智能達(dá)成合作,包括阿里與騰訊,合作的方式主要包括,在深度融合百川智能長(zhǎng)上下文窗口和搜索增強(qiáng)知識(shí)庫的能力基礎(chǔ)上,對(duì)自身業(yè)務(wù)進(jìn)行智能側(cè)升級(jí)。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。