正在閱讀:

Ilya離開OpenAl,谷歌一口氣拿出十余款新品也難出風(fēng)頭?

掃一掃下載界面新聞APP

Ilya離開OpenAl,谷歌一口氣拿出十余款新品也難出風(fēng)頭?

每一次發(fā)布會似乎都成了一場無聲的較量。

文|經(jīng)緯創(chuàng)投

頂著壓力開發(fā)布會是一種什么樣的體驗(yàn)?

「代表谷歌為開發(fā)者提供所有服務(wù)」的谷歌I/O來到第16年。去年的I/O帶來了Gemini,今年帶有火藥味的發(fā)布會則更加值得期待。被競爭對手忌憚已久的谷歌,能否超越前一天剛剛截胡發(fā)布的ChatGPT-4o?

發(fā)布會現(xiàn)場,谷歌帶來了可以實(shí)時(shí)理解鏡頭世界的多模態(tài)Agent助手Astra、搜索業(yè)務(wù)來了一次徹底的AI化改造、Gemini系列模型卷起了長文本、效果超過Sora的視覺模型Veo……谷歌一口氣拿出來十余款A(yù)I新品,勢必要掙回這口氣。

但就連llya也來搶谷歌風(fēng)頭。凌晨,OpenAI首席科學(xué)家Ilya Sutskever在X發(fā)布自己離開OpenAI消息,稱“我決定離開 OpenAl。再見,感謝你們所做的一切。我很期待接下來的計(jì)劃--這個(gè)項(xiàng)目對我個(gè)人來說意義重大,我會在適當(dāng)?shù)臅r(shí)候分享細(xì)節(jié)。”

谷歌的反抗只是一個(gè)序幕,硅谷將進(jìn)入競爭異常激烈的AI月。在這之后,微軟2024Build年度大會、英偉達(dá)季度財(cái)報(bào)、蘋果2024年度開發(fā)者大會陸續(xù)到場,這個(gè)“AI月”注定不一般。那么,高強(qiáng)度下的硅谷,“不(強(qiáng)迫)加班文化”現(xiàn)狀如何?各家巨頭都打的什么算盤?有哪些發(fā)布值得期待?以下,Enjoy:

01 Google I/O 帶來哪些新花樣?

前一天OpenAI用GPT-4o吸引了全世界的眼球,Google要在今年的Google I/O上拿出什么樣的產(chǎn)品翻盤呢?

Gemini模型家族

關(guān)于Gemini的具體信息,是由Deepmind的CEO Demis Hassabis上臺介紹。這也是這位傳奇人物第一次Google I/O演講。

谷歌宣布Gemini 1.5 Pro升級到200萬tokens,并全面支持Workspace,同時(shí)Gemini 1.5 Pro將面向全球開發(fā)者開放。新版本長度再次刷新,達(dá)到200萬tokens。

除了能生成創(chuàng)意文本、代碼外,Gemini 1.5 Pro最大的特色是能根據(jù)用戶輸入的文本提示,理解、總結(jié)上傳的視頻、音頻內(nèi)容進(jìn)行深度總結(jié)。谷歌同時(shí)面向開發(fā)者推出支持200 萬 tokens的 Gemini 1.5 Pro 模型的預(yù)覽,并表示最終的目標(biāo)將是 " 無限上下文 "。

關(guān)于大模型 API 的最新定價(jià),其中 Gemini 1.5 Pro 定價(jià)為 7 美元 /100 萬 Tokens,12.8K 上下文窗口的版本定價(jià)為 3.5 美元 /100 萬 Tokens;而 Gemini 1.5 的起售價(jià)為 0.35 美元 /100 萬 Tokens。

此次推出的Gemini 家族的新成員,則是針對端側(cè)的模型Gemini 1.5 flash,同樣有100萬和200萬token的版本。哈薩比斯曾說,谷歌之所以創(chuàng)建 Gemini 1.5 Flash,是因?yàn)殚_發(fā)人員需要一個(gè)比谷歌今年 2 月發(fā)布的 Gemini 1.5 Pro 更輕便、更便宜的模型。

谷歌展示的" 未來的人工智能助手 ",也是被OpenAI狙擊的項(xiàng)目——"Astra" ,可以通過用戶打開的攝像頭識別物體,與用戶實(shí)時(shí)語音交互。

哈薩比斯表示,這樣的 AI 助手需要像人類一樣理解這個(gè)動態(tài)且復(fù)雜的世界。需要記得住它看到的東西,這樣才能理解對話并付諸于行動。同時(shí)它也得能積極主動接受教導(dǎo),以及自然、無延遲地進(jìn)行交流。在演示視頻中,谷歌的 AI 助手能夠通過攝像頭視頻,識別 " 什么東西能發(fā)出聲音 "、" 現(xiàn)在身處何地 " 等指令。

演示視頻中,官方還展示了Astra與AR眼鏡相結(jié)合的效果。戴上眼鏡后,Astra的回答會實(shí)時(shí)顯示在眼前,比如幫助修改白板上的流程圖時(shí),會用箭頭指出修改位置。

此外,谷歌還發(fā)布了開源模型Gemma 的2.0版本,270億參數(shù)。并為它拓展了PaliGemma這個(gè)多模態(tài)版本。

多模態(tài)生成模型

面對OpenAI的圍獵,Google針對Sora發(fā)布了一款全新的視覺模型Voe。谷歌還表示,Veo 具有對自然語言和視覺語義的高級理解能力,能夠生成與用戶創(chuàng)意愿景緊密匹配的視頻——準(zhǔn)確呈現(xiàn)詳細(xì)的長提示并捕捉情感。Veo甚至還能理解電影術(shù)語,如“延時(shí)”或“航拍鏡頭”。

用戶僅需寫出文本提示即可生成視頻,比如文本提示:"一艘宇宙飛船在浩瀚的太空中穿梭,星星劃過,高速,科幻。"

當(dāng)你輸入" 在寧靜的山地平移鏡頭,相機(jī)慢慢露出白雪皚皚的山峰、花崗巖巖石和倒映天空的清澈湖泊。 ",可以得到如下的效果。

在Voe的展示中,用戶可以通過點(diǎn)擊擴(kuò)展,而繼續(xù)增加視頻生成的時(shí)長,并且可以保持一致性。

此外,谷歌還發(fā)布了文生圖像模型Imagen 3。從細(xì)節(jié)擬真度來看與Midjourney v6能達(dá)到同一級別,比起Dalle-3更勝一籌。而且在對細(xì)節(jié)的跟隨上也要更細(xì)致;音樂生成方面,谷歌給Lydia增加了新拓展 Music AI Sandbox。

AI搜索,25年來最大的更新之一

谷歌正式推出了“AI Overviews”搜索體驗(yàn),將于本周開始向美國地區(qū)開放,后續(xù)會推廣到更多國家和地區(qū)。這應(yīng)該是其搜索引擎 25 年來最大的更新之一。

谷歌搜索業(yè)務(wù)負(fù)責(zé)人 Liz Reid 開始具體介紹 AI Overviews 功能。Reid 表示,在進(jìn)行搜索時(shí),搜素引擎具備多步驟推理的能力,例如尋找一個(gè)瑜伽教室,同時(shí)展示新手優(yōu)惠報(bào)價(jià),和距離特定位置的步行時(shí)間。這個(gè) AI 搜索引擎助手,還能介紹食譜、安排行程,以及接受視頻形式的提問(例如視頻中的相機(jī)怎么使用)。

谷歌還介紹了AI搜索的計(jì)劃能力。用戶可以直接在搜索里獲得一個(gè)完整的計(jì)劃。比如搜索類似“為一群人創(chuàng)建一個(gè)易于準(zhǔn)備的三天餐飲計(jì)劃”,您將獲得一個(gè)起點(diǎn),包含來自網(wǎng)絡(luò)各處的各種食譜。這是其他搜索軟件暫時(shí)還沒有專精的能力。

此外,靠Gemini的多模態(tài)功能,谷歌可以做到利用聲音搜歌曲,利用圖片搜產(chǎn)品。甚至可以用Circle to Secarch 功能圈出圖片中的一部分去搜索。在搜索時(shí),你可以通過視頻提問,比如錄一段視頻問道:“為什么這個(gè)放不上去?”

谷歌全家桶AI能力升級

結(jié)合Gemini的Workspace。你可以通過 Side Panel(一個(gè)能喚起Gemini的側(cè)邊欄)功能總結(jié)一系列郵件,可以總結(jié)你的賬單,形成一個(gè)Sheet。

“Ask Photo”更新后可以與照片進(jìn)行對話。比如,你可以問Photo app,“我的汽車牌照是多少”。然后Gemini就在照片里尋找出來你的車告訴你答案。

谷歌 Gemini 總經(jīng)理 Sissie Hsiao 介紹了 Gemini App 的更新。與周一的 OpenAI 一樣,從今年夏天開始,Gemini 也將支持語音實(shí)時(shí)交互,同時(shí)今年晚些時(shí)候還將上線實(shí)時(shí)視頻交互功能。未來幾個(gè)月內(nèi),谷歌也將推出類似于 GPTs 的自定義 AI 助手功能。

在安卓系統(tǒng)方面,谷歌將實(shí)現(xiàn)的" 三大突破 ",分別是 " 畫圈圈搜索 "、Gemini 手機(jī) AI 助手,第三是在手機(jī)本地運(yùn)行的 AI。

谷歌表示,今年晚些時(shí)候,能夠在本地運(yùn)行的多模態(tài) Gemini Nano 模型將登陸 Pixel 手機(jī),意味著手機(jī)將能通過文字、圖片、視頻、音頻,理解用戶的世界。

發(fā)布會現(xiàn)場,谷歌宣布了第六代數(shù)據(jù)中心 AI 芯片 Tensor 處理器單元(TPU)--Trillium,并表示將于今年晚些時(shí)候推出交付。

作為發(fā)布會最后的彩蛋,谷歌 CEO 皮查伊最后用 Gemini 總結(jié)了今天的發(fā)布會稿子里總共提了多少次 AI —— 121 次。

02 谷歌的護(hù)城河有多深?

在當(dāng)今這個(gè)AI 時(shí)代,Google的危機(jī)愈來愈重。

但身在谷歌的人未必如此認(rèn)為。

作為谷歌的員工,Zellweger一開始加入谷歌就是為了從事注定失敗的 Daydream 頭盔的工業(yè)設(shè)計(jì),后來他又轉(zhuǎn)到了 Pixel 硬件團(tuán)隊(duì)。

在他看來,“受CEO影響,從公司的角度來看,我們需要成功,這種壓力是存在的,制造硬件已經(jīng)從一種愛好變成了 Google 業(yè)務(wù)的關(guān)鍵元素?!?/p>

而谷歌CEO本人桑達(dá)爾·皮查伊在采訪中的回答,流露出對谷歌護(hù)城河的自信。

早在2016年,他正式擔(dān)任谷歌CEO,以此身份發(fā)布了第一封致股東信。信中,他說:

“我們將從移動優(yōu)先走向人工智能優(yōu)先的世界?!?/p>

似乎一直被認(rèn)為落后的谷歌暗地里早有準(zhǔn)備?;蛘呖鋸垇碇v,AI的第一波浪潮,還是谷歌掀起的水花。然而,不少網(wǎng)友仍然調(diào)侃其為“起了個(gè)大早,趕了個(gè)晚集”。

谷歌的“保守”對于稱霸來說,很難,但作為護(hù)城河而言,足夠用。

每個(gè)時(shí)代、每個(gè)公司,都或多或少在管理和員工身上多下功夫。能夠讓谷歌與眾不同的地方,還在于獨(dú)到的員工成長文化。

谷歌創(chuàng)始人拉里·配齊和謝爾蓋·布林曾倡導(dǎo)“20%時(shí)間”文化,允許員工將工作20%的時(shí)間用以個(gè)人興趣和創(chuàng)新當(dāng)中,希望用創(chuàng)造力支撐發(fā)言權(quán),這無疑可以篩選一批有活力的開放員工。正如英特爾前CEO安迪·格魯夫所說,“只有偏執(zhí)狂才能生存?!?/p>

針對近日廣受挑戰(zhàn)的搜索引擎,皮查伊也有自己的看法。 谷歌搜索的獨(dú)特之處在于,即使有時(shí)會直接給出答案,但我們始終會鏈接到各種來源。

多年來,谷歌一直在搜索中提供直接的答案。現(xiàn)在的模式入手,我們只是借助生成式人工智能在實(shí)現(xiàn)這一點(diǎn)。

鏈接功能將一直存在,理解并滿足這些多樣化的需求,正是搜索的真正魅力所在。

他還曾就搜索質(zhì)量面臨的質(zhì)疑進(jìn)行正面回答:

技術(shù)或行業(yè)發(fā)生變革,伴隨著大量新內(nèi)容的涌現(xiàn),人工智能領(lǐng)域亦然。谷歌會把它當(dāng)成一項(xiàng)挑戰(zhàn)。我堅(jiān)信,成功應(yīng)對這種挑戰(zhàn)將重新定義高質(zhì)量的產(chǎn)品,這將是搜索取得成功的關(guān)鍵。谷歌深知被給予了很高的期望,我們也清楚需要為此承擔(dān)的責(zé)任。

當(dāng)被問道相較GPT,谷歌似乎錯(cuò)失了許多重要機(jī)會時(shí),皮查伊表示:

從長遠(yuǎn)的視角看待這個(gè)問題,互聯(lián)網(wǎng)興起時(shí),谷歌甚至還不存在,對吧?

谷歌是第一家專注于搜索的公司。

谷歌是第一家推出電子郵件服務(wù)的公司。

谷歌是第一家開發(fā)瀏覽器的公司。

因此,我認(rèn)為人工智能領(lǐng)域也正處于其最早期的階段。

當(dāng)然,皮查伊也清楚地知道,對所有公司,尤其是那些規(guī)模龐大的企業(yè)來說,最大的潛在威脅就是執(zhí)行力不足。

03 進(jìn)入AI月,每個(gè)玩家生怕落后,大模型大招不斷,大牛紛紛炫技

從5月10日到6月10日,AI領(lǐng)域的玩家接連上陣,發(fā)新品、更新財(cái)報(bào),給開發(fā)者和投資者們貢獻(xiàn)一場場精彩絕倫的科技盛宴。

硅谷大牛們似乎從不懈怠,一個(gè)接著一個(gè)的炫技……

就在谷歌的I/O開發(fā)者大會2024前一天,OpenAI一夜改寫歷史,在發(fā)布會上閃亮官宣了新產(chǎn)品:GPT-4o。就連發(fā)布會本身都是AI在開,難分真假的CTO Mira Murati意味著OpenAI朝著更加自然的人機(jī)交互邁進(jìn)。

微軟也不甘示弱,5月21日,微軟將舉辦2024 Build年度開發(fā)者大會。

根據(jù)官方公布的信息,兩場分論壇將分別聚焦“下一代Windows on Arm”和“全新的Windows AI功能”。

其中,“下一代Windows on Arm”分論壇將著重介紹有關(guān)應(yīng)用程序“行業(yè)領(lǐng)先性能”的詳細(xì)信息,以及“Arm驅(qū)動的Windows的新體驗(yàn)”,例如采用NPU功能的智能Windows應(yīng)用程序,可能包括更多的Windows AI功能。

此外,微軟還將詳細(xì)介紹Windows開發(fā)者體驗(yàn)方面的一些改進(jìn)。

AI之外,明星產(chǎn)品Copilot可能將成為2024微軟Build年度開發(fā)者大會的重點(diǎn)議題之一。

一場振奮人心的技術(shù)革新,說不定又將在一夜之間誕生。

緊接著的下一天,英偉達(dá)將于5月22日公布一季度財(cái)報(bào)。

借著AI浪潮,“賣鏟人”英偉達(dá)財(cái)報(bào)表現(xiàn)一直頗為亮眼,今年年初公布的財(cái)報(bào)更是展現(xiàn)了強(qiáng)勁的收入和凈利潤增長。而在市場的表現(xiàn)上,據(jù)市場研究機(jī)構(gòu) Trendforce 最新報(bào)告顯示,英偉達(dá)已經(jīng)超越高通,成為 2023 年全球收入最高的芯片設(shè)計(jì)廠商。

雖然英偉達(dá)發(fā)布財(cái)報(bào)當(dāng)天不會透露太多新品動作,但市場上流傳了不少消息——據(jù)《經(jīng)濟(jì)日報(bào)》報(bào)道,業(yè)內(nèi)傳聞,手機(jī)芯片大廠聯(lián)發(fā)科正攜手AI芯片大廠英偉達(dá)(NVIDIA)開發(fā)基于Arm架構(gòu)的AI PC處理器,預(yù)計(jì)將在今年三季度完成設(shè)計(jì)定案(tape out),第四季度進(jìn)入驗(yàn)證,售價(jià)或?qū)⒏哌_(dá)300美元。

大差不差、緊隨其后的蘋果也有秘密武器?6月10日至6月14日,蘋果將舉行年度全球開發(fā)者大會(WWDC)。

在AI潮席卷全球的時(shí)候,蘋果不斷調(diào)整自身戰(zhàn)略以期追趕時(shí)代潮流,但效果總是不盡如人意。

MR頭顯Vision Pro被寄予蘋果近十年來開辟新品類的希望,但首發(fā)美國后的反響不佳。不及市場預(yù)期的出貨量和后期疲軟的用戶需求,給蘋果潑了一盆冷水。

而另一個(gè)備受矚目的電動汽車項(xiàng)目也被取消,部分員工將轉(zhuǎn)移到蘋果的人工智能(AI)部門。而生成式人工智能項(xiàng)目,正是公司日程表里愈發(fā)重要的事項(xiàng)。

可以看到,蘋果對于AI的焦慮和急迫。

蘋果全球營銷高級副總裁Greg Joswiak在X上表示:“請?jiān)谌諝v標(biāo)記上WWDC24吧。這場活動將絕對震撼!”這里的彩蛋是,Joswiak特意把“Absolutely Incredible(絕對不可思議)”的首字母拼成大寫,合起來就是當(dāng)下最火的科技概念——AI。

04 硅谷加班卷瘋了,鐵打的程序員、流水的加班線?

改編《北京人在紐約》中一句經(jīng)典臺詞描述硅谷,似乎毫無爭議:「愛TA,就把TA送到硅谷;恨他,也把他送到硅谷?!?/p>

高薪、高自由度的硅谷,既被奉為「Work Life Balance」的自由天堂,也被認(rèn)為是「加班文化」最強(qiáng)的“內(nèi)卷”集中地。硅谷公司不強(qiáng)迫加班,原因很簡單:加班無法與工作質(zhì)量劃等號。同時(shí),硅谷公司不缺少加班,原因同樣簡單:上班無法脫離工作狂的生活獨(dú)立存在。

GPT的到來,讓硅谷的「卷」文化更上一層樓。

只不過這次技術(shù)迭代,傷害的大多數(shù)是工程師。如同英偉達(dá)CEO黃仁勛所說,AI正位于iPhone時(shí)刻。整個(gè)硅谷都在壓力中爆發(fā),試圖在發(fā)布上與對手分出毫厘之勝。

一位硅谷員工甚至將這種狀態(tài)概括為“邊飛、邊造飛機(jī)”。

亞馬遜的工程師也是如此。美好的周末計(jì)劃被一條Slack消息打破。夜以繼日地加班,結(jié)果卻是項(xiàng)目優(yōu)先級降低。幾千行代碼付諸東流。

專家們無時(shí)無刻不在緊急開發(fā)的功能、軟件,讓工程師的心也跟著跌宕起伏。項(xiàng)目順利則功成名就;項(xiàng)目叫停則進(jìn)度歸0。這便是此時(shí)此刻的「硅谷狀態(tài)」。不少工程師陷入職業(yè)倦怠,隨之揭開了AI熱不為人知的另一面:很急,但不知道在急什么。

抱怨聲的出現(xiàn)不會暫停巨頭公司的任何決定。

微軟首席財(cái)務(wù)官Amy Hood曾表示,公司正在調(diào)整人手,將優(yōu)先專注AI,并且優(yōu)先投資AI。因?yàn)?,未來十年的關(guān)鍵因素。

Meta CEO扎克伯格也是如此,他認(rèn)為,未來幾年,應(yīng)該大力投資、開發(fā)更先進(jìn)的模型和世界上規(guī)模最大的AI服務(wù)。

亞馬遜CEO Andy Jassy鼓勵(lì)投資者增加對生成式AI的資本投入,他認(rèn)為,技術(shù)領(lǐng)域很少見到如此的機(jī)會,甚至從互聯(lián)網(wǎng)問世以來。

速度的加持下,匆忙的產(chǎn)出、單薄的人力偶爾也會導(dǎo)致翻車,Gemini的倉皇下線、Bard的備受質(zhì)疑,都是如此。

對比之下,谷歌的上班文化,也走著相似的硅谷風(fēng)。谷歌鼓勵(lì)「不加班」,但要求「on call」。這意味著需要你的時(shí)候,你就要在。不少局外者將這種模式稱為超越「996」的「24*7」。

天堂與地獄的區(qū)別,似乎區(qū)別在于工作是否只是工作本身。如果作為興趣,如果成為生活,似乎越“虐”越有“事業(yè)感”。

本質(zhì)上,每個(gè)人的工作觀不同,加班狂屢見不鮮,朝九晚五、渴望下班的打工人更是擁有自己的快樂。

然而,在硅谷,「卷」已經(jīng)成為囊括大多數(shù)程序員的形容詞,也是當(dāng)下AI競賽的真實(shí)寫照。

現(xiàn)在,每一次發(fā)布會似乎都成了一場無聲的較量。

科技巨頭們像商量好了一樣你追我趕,都想以各自的創(chuàng)新技術(shù)證明自身、搶得一份里程碑式成就?!鞍倌4髴?zhàn)”時(shí)期的到來,在高強(qiáng)度壓力中全面釋放了AI的潛力,也讓每一位“姍姍來遲”的公司,都可能成為最終的贏家。因此,每一次突破,都不容錯(cuò)過。

一切革命性時(shí)刻,都值得拭目以待。

參考文獻(xiàn):

1. 硅谷AI工程師內(nèi)卷崩潰記:996寫代碼項(xiàng)目被砍,連續(xù)熬夜只為討好投資人!by新智元

2.科技界的“AI月”即將開啟!OpenAI、谷歌、微軟等巨頭將帶來哪些顛覆性體驗(yàn)和期待?by每日經(jīng)濟(jì)新聞

3.谷歌CEO最新訪談:AI浪潮仍處于早期階段,公司未來最大威脅是執(zhí)行力不足(視頻+實(shí)錄) by騰訊科技

4.獨(dú)家專訪谷歌CEO桑達(dá)爾·皮查伊:基于我的個(gè)人經(jīng)歷,我一直相信人和人性 by DeepTech深科技

5.谷歌的這場活動已經(jīng)辦了16年,為何它叫I/O?by科技行者

6.跟 OpenAI 爭奪「iPhone 合作權(quán)」的 Google,后天要發(fā)布什么才能 「彎道超車」 by愛范兒

7.谷歌一夜亮出十幾款產(chǎn)品對陣OpenAI:什么都有,只是沒有驚喜 by騰訊科技

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

谷歌

6.4k
  • 谷歌任命原Character.AI首席執(zhí)行官為Gemini聯(lián)合技術(shù)負(fù)責(zé)人
  • 英國競爭與市場管理局結(jié)束對谷歌和蘋果應(yīng)用商店調(diào)查,計(jì)劃推出數(shù)字市場競爭新制度

評論

暫無評論哦,快來評價(jià)一下吧!

下載界面新聞

微信公眾號

微博

Ilya離開OpenAl,谷歌一口氣拿出十余款新品也難出風(fēng)頭?

每一次發(fā)布會似乎都成了一場無聲的較量。

文|經(jīng)緯創(chuàng)投

頂著壓力開發(fā)布會是一種什么樣的體驗(yàn)?

「代表谷歌為開發(fā)者提供所有服務(wù)」的谷歌I/O來到第16年。去年的I/O帶來了Gemini,今年帶有火藥味的發(fā)布會則更加值得期待。被競爭對手忌憚已久的谷歌,能否超越前一天剛剛截胡發(fā)布的ChatGPT-4o?

發(fā)布會現(xiàn)場,谷歌帶來了可以實(shí)時(shí)理解鏡頭世界的多模態(tài)Agent助手Astra、搜索業(yè)務(wù)來了一次徹底的AI化改造、Gemini系列模型卷起了長文本、效果超過Sora的視覺模型Veo……谷歌一口氣拿出來十余款A(yù)I新品,勢必要掙回這口氣。

但就連llya也來搶谷歌風(fēng)頭。凌晨,OpenAI首席科學(xué)家Ilya Sutskever在X發(fā)布自己離開OpenAI消息,稱“我決定離開 OpenAl。再見,感謝你們所做的一切。我很期待接下來的計(jì)劃--這個(gè)項(xiàng)目對我個(gè)人來說意義重大,我會在適當(dāng)?shù)臅r(shí)候分享細(xì)節(jié)?!?/p>

谷歌的反抗只是一個(gè)序幕,硅谷將進(jìn)入競爭異常激烈的AI月。在這之后,微軟2024Build年度大會、英偉達(dá)季度財(cái)報(bào)、蘋果2024年度開發(fā)者大會陸續(xù)到場,這個(gè)“AI月”注定不一般。那么,高強(qiáng)度下的硅谷,“不(強(qiáng)迫)加班文化”現(xiàn)狀如何?各家巨頭都打的什么算盤?有哪些發(fā)布值得期待?以下,Enjoy:

01 Google I/O 帶來哪些新花樣?

前一天OpenAI用GPT-4o吸引了全世界的眼球,Google要在今年的Google I/O上拿出什么樣的產(chǎn)品翻盤呢?

Gemini模型家族

關(guān)于Gemini的具體信息,是由Deepmind的CEO Demis Hassabis上臺介紹。這也是這位傳奇人物第一次Google I/O演講。

谷歌宣布Gemini 1.5 Pro升級到200萬tokens,并全面支持Workspace,同時(shí)Gemini 1.5 Pro將面向全球開發(fā)者開放。新版本長度再次刷新,達(dá)到200萬tokens。

除了能生成創(chuàng)意文本、代碼外,Gemini 1.5 Pro最大的特色是能根據(jù)用戶輸入的文本提示,理解、總結(jié)上傳的視頻、音頻內(nèi)容進(jìn)行深度總結(jié)。谷歌同時(shí)面向開發(fā)者推出支持200 萬 tokens的 Gemini 1.5 Pro 模型的預(yù)覽,并表示最終的目標(biāo)將是 " 無限上下文 "。

關(guān)于大模型 API 的最新定價(jià),其中 Gemini 1.5 Pro 定價(jià)為 7 美元 /100 萬 Tokens,12.8K 上下文窗口的版本定價(jià)為 3.5 美元 /100 萬 Tokens;而 Gemini 1.5 的起售價(jià)為 0.35 美元 /100 萬 Tokens。

此次推出的Gemini 家族的新成員,則是針對端側(cè)的模型Gemini 1.5 flash,同樣有100萬和200萬token的版本。哈薩比斯曾說,谷歌之所以創(chuàng)建 Gemini 1.5 Flash,是因?yàn)殚_發(fā)人員需要一個(gè)比谷歌今年 2 月發(fā)布的 Gemini 1.5 Pro 更輕便、更便宜的模型。

谷歌展示的" 未來的人工智能助手 ",也是被OpenAI狙擊的項(xiàng)目——"Astra" ,可以通過用戶打開的攝像頭識別物體,與用戶實(shí)時(shí)語音交互。

哈薩比斯表示,這樣的 AI 助手需要像人類一樣理解這個(gè)動態(tài)且復(fù)雜的世界。需要記得住它看到的東西,這樣才能理解對話并付諸于行動。同時(shí)它也得能積極主動接受教導(dǎo),以及自然、無延遲地進(jìn)行交流。在演示視頻中,谷歌的 AI 助手能夠通過攝像頭視頻,識別 " 什么東西能發(fā)出聲音 "、" 現(xiàn)在身處何地 " 等指令。

演示視頻中,官方還展示了Astra與AR眼鏡相結(jié)合的效果。戴上眼鏡后,Astra的回答會實(shí)時(shí)顯示在眼前,比如幫助修改白板上的流程圖時(shí),會用箭頭指出修改位置。

此外,谷歌還發(fā)布了開源模型Gemma 的2.0版本,270億參數(shù)。并為它拓展了PaliGemma這個(gè)多模態(tài)版本。

多模態(tài)生成模型

面對OpenAI的圍獵,Google針對Sora發(fā)布了一款全新的視覺模型Voe。谷歌還表示,Veo 具有對自然語言和視覺語義的高級理解能力,能夠生成與用戶創(chuàng)意愿景緊密匹配的視頻——準(zhǔn)確呈現(xiàn)詳細(xì)的長提示并捕捉情感。Veo甚至還能理解電影術(shù)語,如“延時(shí)”或“航拍鏡頭”。

用戶僅需寫出文本提示即可生成視頻,比如文本提示:"一艘宇宙飛船在浩瀚的太空中穿梭,星星劃過,高速,科幻。"

當(dāng)你輸入" 在寧靜的山地平移鏡頭,相機(jī)慢慢露出白雪皚皚的山峰、花崗巖巖石和倒映天空的清澈湖泊。 ",可以得到如下的效果。

在Voe的展示中,用戶可以通過點(diǎn)擊擴(kuò)展,而繼續(xù)增加視頻生成的時(shí)長,并且可以保持一致性。

此外,谷歌還發(fā)布了文生圖像模型Imagen 3。從細(xì)節(jié)擬真度來看與Midjourney v6能達(dá)到同一級別,比起Dalle-3更勝一籌。而且在對細(xì)節(jié)的跟隨上也要更細(xì)致;音樂生成方面,谷歌給Lydia增加了新拓展 Music AI Sandbox。

AI搜索,25年來最大的更新之一

谷歌正式推出了“AI Overviews”搜索體驗(yàn),將于本周開始向美國地區(qū)開放,后續(xù)會推廣到更多國家和地區(qū)。這應(yīng)該是其搜索引擎 25 年來最大的更新之一。

谷歌搜索業(yè)務(wù)負(fù)責(zé)人 Liz Reid 開始具體介紹 AI Overviews 功能。Reid 表示,在進(jìn)行搜索時(shí),搜素引擎具備多步驟推理的能力,例如尋找一個(gè)瑜伽教室,同時(shí)展示新手優(yōu)惠報(bào)價(jià),和距離特定位置的步行時(shí)間。這個(gè) AI 搜索引擎助手,還能介紹食譜、安排行程,以及接受視頻形式的提問(例如視頻中的相機(jī)怎么使用)。

谷歌還介紹了AI搜索的計(jì)劃能力。用戶可以直接在搜索里獲得一個(gè)完整的計(jì)劃。比如搜索類似“為一群人創(chuàng)建一個(gè)易于準(zhǔn)備的三天餐飲計(jì)劃”,您將獲得一個(gè)起點(diǎn),包含來自網(wǎng)絡(luò)各處的各種食譜。這是其他搜索軟件暫時(shí)還沒有專精的能力。

此外,靠Gemini的多模態(tài)功能,谷歌可以做到利用聲音搜歌曲,利用圖片搜產(chǎn)品。甚至可以用Circle to Secarch 功能圈出圖片中的一部分去搜索。在搜索時(shí),你可以通過視頻提問,比如錄一段視頻問道:“為什么這個(gè)放不上去?”

谷歌全家桶AI能力升級

結(jié)合Gemini的Workspace。你可以通過 Side Panel(一個(gè)能喚起Gemini的側(cè)邊欄)功能總結(jié)一系列郵件,可以總結(jié)你的賬單,形成一個(gè)Sheet。

“Ask Photo”更新后可以與照片進(jìn)行對話。比如,你可以問Photo app,“我的汽車牌照是多少”。然后Gemini就在照片里尋找出來你的車告訴你答案。

谷歌 Gemini 總經(jīng)理 Sissie Hsiao 介紹了 Gemini App 的更新。與周一的 OpenAI 一樣,從今年夏天開始,Gemini 也將支持語音實(shí)時(shí)交互,同時(shí)今年晚些時(shí)候還將上線實(shí)時(shí)視頻交互功能。未來幾個(gè)月內(nèi),谷歌也將推出類似于 GPTs 的自定義 AI 助手功能。

在安卓系統(tǒng)方面,谷歌將實(shí)現(xiàn)的" 三大突破 ",分別是 " 畫圈圈搜索 "、Gemini 手機(jī) AI 助手,第三是在手機(jī)本地運(yùn)行的 AI。

谷歌表示,今年晚些時(shí)候,能夠在本地運(yùn)行的多模態(tài) Gemini Nano 模型將登陸 Pixel 手機(jī),意味著手機(jī)將能通過文字、圖片、視頻、音頻,理解用戶的世界。

發(fā)布會現(xiàn)場,谷歌宣布了第六代數(shù)據(jù)中心 AI 芯片 Tensor 處理器單元(TPU)--Trillium,并表示將于今年晚些時(shí)候推出交付。

作為發(fā)布會最后的彩蛋,谷歌 CEO 皮查伊最后用 Gemini 總結(jié)了今天的發(fā)布會稿子里總共提了多少次 AI —— 121 次。

02 谷歌的護(hù)城河有多深?

在當(dāng)今這個(gè)AI 時(shí)代,Google的危機(jī)愈來愈重。

但身在谷歌的人未必如此認(rèn)為。

作為谷歌的員工,Zellweger一開始加入谷歌就是為了從事注定失敗的 Daydream 頭盔的工業(yè)設(shè)計(jì),后來他又轉(zhuǎn)到了 Pixel 硬件團(tuán)隊(duì)。

在他看來,“受CEO影響,從公司的角度來看,我們需要成功,這種壓力是存在的,制造硬件已經(jīng)從一種愛好變成了 Google 業(yè)務(wù)的關(guān)鍵元素?!?/p>

而谷歌CEO本人桑達(dá)爾·皮查伊在采訪中的回答,流露出對谷歌護(hù)城河的自信。

早在2016年,他正式擔(dān)任谷歌CEO,以此身份發(fā)布了第一封致股東信。信中,他說:

“我們將從移動優(yōu)先走向人工智能優(yōu)先的世界?!?/p>

似乎一直被認(rèn)為落后的谷歌暗地里早有準(zhǔn)備。或者夸張來講,AI的第一波浪潮,還是谷歌掀起的水花。然而,不少網(wǎng)友仍然調(diào)侃其為“起了個(gè)大早,趕了個(gè)晚集”。

谷歌的“保守”對于稱霸來說,很難,但作為護(hù)城河而言,足夠用。

每個(gè)時(shí)代、每個(gè)公司,都或多或少在管理和員工身上多下功夫。能夠讓谷歌與眾不同的地方,還在于獨(dú)到的員工成長文化。

谷歌創(chuàng)始人拉里·配齊和謝爾蓋·布林曾倡導(dǎo)“20%時(shí)間”文化,允許員工將工作20%的時(shí)間用以個(gè)人興趣和創(chuàng)新當(dāng)中,希望用創(chuàng)造力支撐發(fā)言權(quán),這無疑可以篩選一批有活力的開放員工。正如英特爾前CEO安迪·格魯夫所說,“只有偏執(zhí)狂才能生存。”

針對近日廣受挑戰(zhàn)的搜索引擎,皮查伊也有自己的看法。 谷歌搜索的獨(dú)特之處在于,即使有時(shí)會直接給出答案,但我們始終會鏈接到各種來源。

多年來,谷歌一直在搜索中提供直接的答案?,F(xiàn)在的模式入手,我們只是借助生成式人工智能在實(shí)現(xiàn)這一點(diǎn)。

鏈接功能將一直存在,理解并滿足這些多樣化的需求,正是搜索的真正魅力所在。

他還曾就搜索質(zhì)量面臨的質(zhì)疑進(jìn)行正面回答:

技術(shù)或行業(yè)發(fā)生變革,伴隨著大量新內(nèi)容的涌現(xiàn),人工智能領(lǐng)域亦然。谷歌會把它當(dāng)成一項(xiàng)挑戰(zhàn)。我堅(jiān)信,成功應(yīng)對這種挑戰(zhàn)將重新定義高質(zhì)量的產(chǎn)品,這將是搜索取得成功的關(guān)鍵。谷歌深知被給予了很高的期望,我們也清楚需要為此承擔(dān)的責(zé)任。

當(dāng)被問道相較GPT,谷歌似乎錯(cuò)失了許多重要機(jī)會時(shí),皮查伊表示:

從長遠(yuǎn)的視角看待這個(gè)問題,互聯(lián)網(wǎng)興起時(shí),谷歌甚至還不存在,對吧?

谷歌是第一家專注于搜索的公司。

谷歌是第一家推出電子郵件服務(wù)的公司。

谷歌是第一家開發(fā)瀏覽器的公司。

因此,我認(rèn)為人工智能領(lǐng)域也正處于其最早期的階段。

當(dāng)然,皮查伊也清楚地知道,對所有公司,尤其是那些規(guī)模龐大的企業(yè)來說,最大的潛在威脅就是執(zhí)行力不足。

03 進(jìn)入AI月,每個(gè)玩家生怕落后,大模型大招不斷,大牛紛紛炫技

從5月10日到6月10日,AI領(lǐng)域的玩家接連上陣,發(fā)新品、更新財(cái)報(bào),給開發(fā)者和投資者們貢獻(xiàn)一場場精彩絕倫的科技盛宴。

硅谷大牛們似乎從不懈怠,一個(gè)接著一個(gè)的炫技……

就在谷歌的I/O開發(fā)者大會2024前一天,OpenAI一夜改寫歷史,在發(fā)布會上閃亮官宣了新產(chǎn)品:GPT-4o。就連發(fā)布會本身都是AI在開,難分真假的CTO Mira Murati意味著OpenAI朝著更加自然的人機(jī)交互邁進(jìn)。

微軟也不甘示弱,5月21日,微軟將舉辦2024 Build年度開發(fā)者大會。

根據(jù)官方公布的信息,兩場分論壇將分別聚焦“下一代Windows on Arm”和“全新的Windows AI功能”。

其中,“下一代Windows on Arm”分論壇將著重介紹有關(guān)應(yīng)用程序“行業(yè)領(lǐng)先性能”的詳細(xì)信息,以及“Arm驅(qū)動的Windows的新體驗(yàn)”,例如采用NPU功能的智能Windows應(yīng)用程序,可能包括更多的Windows AI功能。

此外,微軟還將詳細(xì)介紹Windows開發(fā)者體驗(yàn)方面的一些改進(jìn)。

AI之外,明星產(chǎn)品Copilot可能將成為2024微軟Build年度開發(fā)者大會的重點(diǎn)議題之一。

一場振奮人心的技術(shù)革新,說不定又將在一夜之間誕生。

緊接著的下一天,英偉達(dá)將于5月22日公布一季度財(cái)報(bào)。

借著AI浪潮,“賣鏟人”英偉達(dá)財(cái)報(bào)表現(xiàn)一直頗為亮眼,今年年初公布的財(cái)報(bào)更是展現(xiàn)了強(qiáng)勁的收入和凈利潤增長。而在市場的表現(xiàn)上,據(jù)市場研究機(jī)構(gòu) Trendforce 最新報(bào)告顯示,英偉達(dá)已經(jīng)超越高通,成為 2023 年全球收入最高的芯片設(shè)計(jì)廠商。

雖然英偉達(dá)發(fā)布財(cái)報(bào)當(dāng)天不會透露太多新品動作,但市場上流傳了不少消息——據(jù)《經(jīng)濟(jì)日報(bào)》報(bào)道,業(yè)內(nèi)傳聞,手機(jī)芯片大廠聯(lián)發(fā)科正攜手AI芯片大廠英偉達(dá)(NVIDIA)開發(fā)基于Arm架構(gòu)的AI PC處理器,預(yù)計(jì)將在今年三季度完成設(shè)計(jì)定案(tape out),第四季度進(jìn)入驗(yàn)證,售價(jià)或?qū)⒏哌_(dá)300美元。

大差不差、緊隨其后的蘋果也有秘密武器?6月10日至6月14日,蘋果將舉行年度全球開發(fā)者大會(WWDC)。

在AI潮席卷全球的時(shí)候,蘋果不斷調(diào)整自身戰(zhàn)略以期追趕時(shí)代潮流,但效果總是不盡如人意。

MR頭顯Vision Pro被寄予蘋果近十年來開辟新品類的希望,但首發(fā)美國后的反響不佳。不及市場預(yù)期的出貨量和后期疲軟的用戶需求,給蘋果潑了一盆冷水。

而另一個(gè)備受矚目的電動汽車項(xiàng)目也被取消,部分員工將轉(zhuǎn)移到蘋果的人工智能(AI)部門。而生成式人工智能項(xiàng)目,正是公司日程表里愈發(fā)重要的事項(xiàng)。

可以看到,蘋果對于AI的焦慮和急迫。

蘋果全球營銷高級副總裁Greg Joswiak在X上表示:“請?jiān)谌諝v標(biāo)記上WWDC24吧。這場活動將絕對震撼!”這里的彩蛋是,Joswiak特意把“Absolutely Incredible(絕對不可思議)”的首字母拼成大寫,合起來就是當(dāng)下最火的科技概念——AI。

04 硅谷加班卷瘋了,鐵打的程序員、流水的加班線?

改編《北京人在紐約》中一句經(jīng)典臺詞描述硅谷,似乎毫無爭議:「愛TA,就把TA送到硅谷;恨他,也把他送到硅谷?!?/p>

高薪、高自由度的硅谷,既被奉為「Work Life Balance」的自由天堂,也被認(rèn)為是「加班文化」最強(qiáng)的“內(nèi)卷”集中地。硅谷公司不強(qiáng)迫加班,原因很簡單:加班無法與工作質(zhì)量劃等號。同時(shí),硅谷公司不缺少加班,原因同樣簡單:上班無法脫離工作狂的生活獨(dú)立存在。

GPT的到來,讓硅谷的「卷」文化更上一層樓。

只不過這次技術(shù)迭代,傷害的大多數(shù)是工程師。如同英偉達(dá)CEO黃仁勛所說,AI正位于iPhone時(shí)刻。整個(gè)硅谷都在壓力中爆發(fā),試圖在發(fā)布上與對手分出毫厘之勝。

一位硅谷員工甚至將這種狀態(tài)概括為“邊飛、邊造飛機(jī)”。

亞馬遜的工程師也是如此。美好的周末計(jì)劃被一條Slack消息打破。夜以繼日地加班,結(jié)果卻是項(xiàng)目優(yōu)先級降低。幾千行代碼付諸東流。

專家們無時(shí)無刻不在緊急開發(fā)的功能、軟件,讓工程師的心也跟著跌宕起伏。項(xiàng)目順利則功成名就;項(xiàng)目叫停則進(jìn)度歸0。這便是此時(shí)此刻的「硅谷狀態(tài)」。不少工程師陷入職業(yè)倦怠,隨之揭開了AI熱不為人知的另一面:很急,但不知道在急什么。

抱怨聲的出現(xiàn)不會暫停巨頭公司的任何決定。

微軟首席財(cái)務(wù)官Amy Hood曾表示,公司正在調(diào)整人手,將優(yōu)先專注AI,并且優(yōu)先投資AI。因?yàn)?,未來十年的關(guān)鍵因素。

Meta CEO扎克伯格也是如此,他認(rèn)為,未來幾年,應(yīng)該大力投資、開發(fā)更先進(jìn)的模型和世界上規(guī)模最大的AI服務(wù)。

亞馬遜CEO Andy Jassy鼓勵(lì)投資者增加對生成式AI的資本投入,他認(rèn)為,技術(shù)領(lǐng)域很少見到如此的機(jī)會,甚至從互聯(lián)網(wǎng)問世以來。

速度的加持下,匆忙的產(chǎn)出、單薄的人力偶爾也會導(dǎo)致翻車,Gemini的倉皇下線、Bard的備受質(zhì)疑,都是如此。

對比之下,谷歌的上班文化,也走著相似的硅谷風(fēng)。谷歌鼓勵(lì)「不加班」,但要求「on call」。這意味著需要你的時(shí)候,你就要在。不少局外者將這種模式稱為超越「996」的「24*7」。

天堂與地獄的區(qū)別,似乎區(qū)別在于工作是否只是工作本身。如果作為興趣,如果成為生活,似乎越“虐”越有“事業(yè)感”。

本質(zhì)上,每個(gè)人的工作觀不同,加班狂屢見不鮮,朝九晚五、渴望下班的打工人更是擁有自己的快樂。

然而,在硅谷,「卷」已經(jīng)成為囊括大多數(shù)程序員的形容詞,也是當(dāng)下AI競賽的真實(shí)寫照。

現(xiàn)在,每一次發(fā)布會似乎都成了一場無聲的較量。

科技巨頭們像商量好了一樣你追我趕,都想以各自的創(chuàng)新技術(shù)證明自身、搶得一份里程碑式成就?!鞍倌4髴?zhàn)”時(shí)期的到來,在高強(qiáng)度壓力中全面釋放了AI的潛力,也讓每一位“姍姍來遲”的公司,都可能成為最終的贏家。因此,每一次突破,都不容錯(cuò)過。

一切革命性時(shí)刻,都值得拭目以待。

參考文獻(xiàn):

1. 硅谷AI工程師內(nèi)卷崩潰記:996寫代碼項(xiàng)目被砍,連續(xù)熬夜只為討好投資人!by新智元

2.科技界的“AI月”即將開啟!OpenAI、谷歌、微軟等巨頭將帶來哪些顛覆性體驗(yàn)和期待?by每日經(jīng)濟(jì)新聞

3.谷歌CEO最新訪談:AI浪潮仍處于早期階段,公司未來最大威脅是執(zhí)行力不足(視頻+實(shí)錄) by騰訊科技

4.獨(dú)家專訪谷歌CEO桑達(dá)爾·皮查伊:基于我的個(gè)人經(jīng)歷,我一直相信人和人性 by DeepTech深科技

5.谷歌的這場活動已經(jīng)辦了16年,為何它叫I/O?by科技行者

6.跟 OpenAI 爭奪「iPhone 合作權(quán)」的 Google,后天要發(fā)布什么才能 「彎道超車」 by愛范兒

7.谷歌一夜亮出十幾款產(chǎn)品對陣OpenAI:什么都有,只是沒有驚喜 by騰訊科技

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。