正在閱讀:

我們內(nèi)測了文心一言,結(jié)果令人意想不到

掃一掃下載界面新聞APP

我們內(nèi)測了文心一言,結(jié)果令人意想不到

文心一言的初體驗,確實還沒ready。

文|硅兔賽跑 蔓蔓周

硬著頭皮也好,萬眾期待也罷,北京時間3月16日下午,百度新一代大語言模型文心一言發(fā)布了。

怎么說呢,雖然一開始就知道可能會輸給GPT-4(李廠長自己說:這個門檻有點高),但還是盼著文心一言好,盼著百度好,盼著中國首個生成式AI產(chǎn)品好。

但伴隨著發(fā)布會的,是百度港股市值的大跳水,雖然最后回調(diào)了一波,但二級市場對中國版“ChatGPT”似乎信心不足。

發(fā)布會期間百度股價實時數(shù)據(jù)

即使吸取了谷歌發(fā)布Bard時的前車之鑒,用提前準備好的錄制視頻展示,但依然沒能阻止股價受挫。反而李廠長的皮帶鏈接和容顏青春永駐,成了彈幕留言關(guān)注的焦點。

被調(diào)侃的李彥宏

據(jù)百度透露,文心一言新聞發(fā)布會后三小時,企業(yè)版API調(diào)用服務(wù)測試的企業(yè)用戶達6.5萬,與百度智能云基于文心一言展開合作咨詢達到5590條。

01 測試開始,有驚有喜

根據(jù)發(fā)布會上的展示,文心一言具備五種能力,包括了文學創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解、多模態(tài)生成。

硅兔君拿到了內(nèi)測邀請碼后,第一時間開始了測試。

文學創(chuàng)作

發(fā)布會緊跟潮流,用最近熱度上的《三體》,對文心一言的文學創(chuàng)作進行展示。提出的6個問題,文心一言都可以從容應(yīng)答。

硅兔君用《哈利波特》再考了考他(畢竟都是史詩級巨作)。

對于《哈利波特》的創(chuàng)作背景和作者簡介,文心一言剛開始給了一個“省事”的答案。

但我并不滿意,又問了一遍,這個版本就明顯學術(shù)了很多。

緊接著我問了發(fā)布會上同樣的問題,讓文心一言為續(xù)寫《哈利波特》提供思路,答得還可以。

硅兔君又問了個比較八卦的感情線問題:赫敏和哈利波特之間,有愛情嗎?

文心一言給出的答案建議各大明星經(jīng)紀公司參考一下,以后回應(yīng)戀情別只會發(fā)律師函。

商業(yè)文案創(chuàng)作

針對商業(yè)文案創(chuàng)作這塊,硅兔君就拿自己做個測試,提問:

如果要新建一個關(guān)于硅谷科技創(chuàng)投新聞的自媒體賬號,融入“兔”這個字,可以給賬號起個什么名字?

文心一言給出的答案其實挺贊,考慮到硅谷的屬性,甚至也有英文的名字。

VentureBuddies這個名字你別說,你還真別說~

在我給這個名字予以肯定后,讓文心一言幫我寫個簡介,畫風直接變成了英文,不過直接給我安上了“最近在居家辦公”的設(shè)定,不知為何。

說實話不咋地,亂七八糟的。

邏輯數(shù)理

邏輯數(shù)理推算是生成式大模型的一道坎兒,不僅考數(shù)理,更考邏輯。

發(fā)布會上用了ChatGPT剛上線時翻車過的的雞兔同籠,文心一言能發(fā)現(xiàn)問題中的錯誤并在糾正后正確回答出來。

可當硅兔君嘗試問了幾個小學生邏輯數(shù)學題,文心一言翻車了!

張老師15年前15歲,15年后多少歲?

文心一言答錯了,怕描述不夠清楚又問一遍,依然令人遺憾...

(知道答案的朋友可以評論區(qū)見,看看多少人答對)

接著問了個更繞的:

一個西瓜進價50元,賣了70元,老板收了100元假幣,請問老板一共損失多少錢?

這個問題同樣問了ChatGPT,它一頓邏輯推理瘋狂輸出之后,給出了一個不同答案。

事情變得很有意思了,你們說誰對?

中文理解

在中文理解上,硅兔君用了常被錯誤理解的成語來提問,結(jié)果ChatGPT確實錯誤地學習了現(xiàn)代用法。

“差強人意”是什么意思?

正確答案

錯誤答案

一題見分曉,這一局文心一言完勝了。

多模態(tài)生成

最后,也是最令人期待的多模態(tài)生成。硅兔君按照發(fā)布會的語言范本試了兩次,都沒有給出滿意的答案,不得不說和GPT-4的差距不是一點半點。

生成視頻方面也沒有實現(xiàn),并且給出了“無法生成視頻”的回復(難怪發(fā)布會上用的錄像,不然大型翻車現(xiàn)場)。

還有一個被忽略的點就是編程能力,在發(fā)布會上并沒有展現(xiàn),也是ChatGPT的優(yōu)勢之一。硅兔君讓文心一言用C語言編一個小游戲,這是它給出的回答:

02 文心一言 vs ChatGPT

作為一個人工智能語言模型,ChatGPT也存在一些缺點和局限性。以下是我對ChatGPT的缺點評價:

1. 知識庫的深度和廣度仍需要進一步提高:雖然ChatGPT可以回答各種領(lǐng)域的問題,但它的知識庫還不夠完備,有些問題可能無法找到合適的回答。

2. 生成式對話的質(zhì)量還有待提高:盡管ChatGPT可以生成自然流暢的對話,但它的生成式對話還不如人類專業(yè)演員,有時可能會出現(xiàn)口誤或重復等問題。

3. 某些情況下可能會出現(xiàn)錯誤或不準確的回答:由于訓練數(shù)據(jù)的限制,ChatGPT在某些情況下可能無法正確理解用戶的意圖,或者回答內(nèi)容可能不夠準確或恰當。

4. 依賴于預(yù)先訓練的數(shù)據(jù)集:目前的ChatGPT主要是基于文本進行對話生成的,如果未來想要擴展功能或使用場景,可能需要更多地依賴于預(yù)先訓練的數(shù)據(jù)集,這會增加開發(fā)難度和維護成本。

5. 中文表達能力有待改進:作為一個英文名稱為GPT的機器學習模型,其中文名稱“小微”似乎并沒有體現(xiàn)出與真實世界中的Micronesia相關(guān)的含義和特點,這可能會影響其普及程度和應(yīng)用范圍。

總之,盡管ChatGPT在許多方面都表現(xiàn)出色,但它也存在一些缺點和局限性。

以上是文心一言對ChatGPT的評價,把人家的缺點安排得明明白白。

麥克風交給ChatGPT,很遺憾,它好像還不知道文心一言的到來...

總的來講,百度這波發(fā)布,正如李彥宏所說:“因為有市場需求,百度各個產(chǎn)品線,大家都在等著用這樣的技術(shù)?!?/p>

(都在催,不得不趕緊上線)

也如李彥宏所說:“懷胎十月,一朝分娩?!?/p>

(我們還只是個孩子)

不過全世界都知道前一天GPT-4的問世,在這個節(jié)骨眼上頂著壓力發(fā)布產(chǎn)品的勇氣還是值得肯定的。

硅兔君認為我們需要做的,是再給一些耐心。就如開頭說的那樣——我們都盼著它好。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

我們內(nèi)測了文心一言,結(jié)果令人意想不到

文心一言的初體驗,確實還沒ready。

文|硅兔賽跑 蔓蔓周

硬著頭皮也好,萬眾期待也罷,北京時間3月16日下午,百度新一代大語言模型文心一言發(fā)布了。

怎么說呢,雖然一開始就知道可能會輸給GPT-4(李廠長自己說:這個門檻有點高),但還是盼著文心一言好,盼著百度好,盼著中國首個生成式AI產(chǎn)品好。

但伴隨著發(fā)布會的,是百度港股市值的大跳水,雖然最后回調(diào)了一波,但二級市場對中國版“ChatGPT”似乎信心不足。

發(fā)布會期間百度股價實時數(shù)據(jù)

即使吸取了谷歌發(fā)布Bard時的前車之鑒,用提前準備好的錄制視頻展示,但依然沒能阻止股價受挫。反而李廠長的皮帶鏈接和容顏青春永駐,成了彈幕留言關(guān)注的焦點。

被調(diào)侃的李彥宏

據(jù)百度透露,文心一言新聞發(fā)布會后三小時,企業(yè)版API調(diào)用服務(wù)測試的企業(yè)用戶達6.5萬,與百度智能云基于文心一言展開合作咨詢達到5590條。

01 測試開始,有驚有喜

根據(jù)發(fā)布會上的展示,文心一言具備五種能力,包括了文學創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解、多模態(tài)生成。

硅兔君拿到了內(nèi)測邀請碼后,第一時間開始了測試。

文學創(chuàng)作

發(fā)布會緊跟潮流,用最近熱度上的《三體》,對文心一言的文學創(chuàng)作進行展示。提出的6個問題,文心一言都可以從容應(yīng)答。

硅兔君用《哈利波特》再考了考他(畢竟都是史詩級巨作)。

對于《哈利波特》的創(chuàng)作背景和作者簡介,文心一言剛開始給了一個“省事”的答案。

但我并不滿意,又問了一遍,這個版本就明顯學術(shù)了很多。

緊接著我問了發(fā)布會上同樣的問題,讓文心一言為續(xù)寫《哈利波特》提供思路,答得還可以。

硅兔君又問了個比較八卦的感情線問題:赫敏和哈利波特之間,有愛情嗎?

文心一言給出的答案建議各大明星經(jīng)紀公司參考一下,以后回應(yīng)戀情別只會發(fā)律師函。

商業(yè)文案創(chuàng)作

針對商業(yè)文案創(chuàng)作這塊,硅兔君就拿自己做個測試,提問:

如果要新建一個關(guān)于硅谷科技創(chuàng)投新聞的自媒體賬號,融入“兔”這個字,可以給賬號起個什么名字?

文心一言給出的答案其實挺贊,考慮到硅谷的屬性,甚至也有英文的名字。

VentureBuddies這個名字你別說,你還真別說~

在我給這個名字予以肯定后,讓文心一言幫我寫個簡介,畫風直接變成了英文,不過直接給我安上了“最近在居家辦公”的設(shè)定,不知為何。

說實話不咋地,亂七八糟的。

邏輯數(shù)理

邏輯數(shù)理推算是生成式大模型的一道坎兒,不僅考數(shù)理,更考邏輯。

發(fā)布會上用了ChatGPT剛上線時翻車過的的雞兔同籠,文心一言能發(fā)現(xiàn)問題中的錯誤并在糾正后正確回答出來。

可當硅兔君嘗試問了幾個小學生邏輯數(shù)學題,文心一言翻車了!

張老師15年前15歲,15年后多少歲?

文心一言答錯了,怕描述不夠清楚又問一遍,依然令人遺憾...

(知道答案的朋友可以評論區(qū)見,看看多少人答對)

接著問了個更繞的:

一個西瓜進價50元,賣了70元,老板收了100元假幣,請問老板一共損失多少錢?

這個問題同樣問了ChatGPT,它一頓邏輯推理瘋狂輸出之后,給出了一個不同答案。

事情變得很有意思了,你們說誰對?

中文理解

在中文理解上,硅兔君用了常被錯誤理解的成語來提問,結(jié)果ChatGPT確實錯誤地學習了現(xiàn)代用法。

“差強人意”是什么意思?

正確答案

錯誤答案

一題見分曉,這一局文心一言完勝了。

多模態(tài)生成

最后,也是最令人期待的多模態(tài)生成。硅兔君按照發(fā)布會的語言范本試了兩次,都沒有給出滿意的答案,不得不說和GPT-4的差距不是一點半點。

生成視頻方面也沒有實現(xiàn),并且給出了“無法生成視頻”的回復(難怪發(fā)布會上用的錄像,不然大型翻車現(xiàn)場)。

還有一個被忽略的點就是編程能力,在發(fā)布會上并沒有展現(xiàn),也是ChatGPT的優(yōu)勢之一。硅兔君讓文心一言用C語言編一個小游戲,這是它給出的回答:

02 文心一言 vs ChatGPT

作為一個人工智能語言模型,ChatGPT也存在一些缺點和局限性。以下是我對ChatGPT的缺點評價:

1. 知識庫的深度和廣度仍需要進一步提高:雖然ChatGPT可以回答各種領(lǐng)域的問題,但它的知識庫還不夠完備,有些問題可能無法找到合適的回答。

2. 生成式對話的質(zhì)量還有待提高:盡管ChatGPT可以生成自然流暢的對話,但它的生成式對話還不如人類專業(yè)演員,有時可能會出現(xiàn)口誤或重復等問題。

3. 某些情況下可能會出現(xiàn)錯誤或不準確的回答:由于訓練數(shù)據(jù)的限制,ChatGPT在某些情況下可能無法正確理解用戶的意圖,或者回答內(nèi)容可能不夠準確或恰當。

4. 依賴于預(yù)先訓練的數(shù)據(jù)集:目前的ChatGPT主要是基于文本進行對話生成的,如果未來想要擴展功能或使用場景,可能需要更多地依賴于預(yù)先訓練的數(shù)據(jù)集,這會增加開發(fā)難度和維護成本。

5. 中文表達能力有待改進:作為一個英文名稱為GPT的機器學習模型,其中文名稱“小微”似乎并沒有體現(xiàn)出與真實世界中的Micronesia相關(guān)的含義和特點,這可能會影響其普及程度和應(yīng)用范圍。

總之,盡管ChatGPT在許多方面都表現(xiàn)出色,但它也存在一些缺點和局限性。

以上是文心一言對ChatGPT的評價,把人家的缺點安排得明明白白。

麥克風交給ChatGPT,很遺憾,它好像還不知道文心一言的到來...

總的來講,百度這波發(fā)布,正如李彥宏所說:“因為有市場需求,百度各個產(chǎn)品線,大家都在等著用這樣的技術(shù)。”

(都在催,不得不趕緊上線)

也如李彥宏所說:“懷胎十月,一朝分娩?!?/p>

(我們還只是個孩子)

不過全世界都知道前一天GPT-4的問世,在這個節(jié)骨眼上頂著壓力發(fā)布產(chǎn)品的勇氣還是值得肯定的。

硅兔君認為我們需要做的,是再給一些耐心。就如開頭說的那樣——我們都盼著它好。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。