正在閱讀:

大模型加速上車,吹響新一輪智駕“軍備競賽”號角?

掃一掃下載界面新聞APP

大模型加速上車,吹響新一輪智駕“軍備競賽”號角?

槍聲已經(jīng)打響,路線是關(guān)鍵,而朝著選好的方向狂奔,也是賽道當(dāng)中的企業(yè)不得不做的選擇。

文|極智GeeTech

2024年,被很多中國車企稱為“智駕規(guī)模商用元年”,但是智駕領(lǐng)域的競爭如果沒有特斯拉這條“鯰魚”參與,顯然有些成色不足。

近日,據(jù)媒體報道,上海已向特斯拉發(fā)放了道路測試牌照。此前有外媒報道,特斯拉計劃為中國市場注冊FSD軟件,預(yù)計今年推出,并可能以月度訂閱方式向用戶收費。若注冊成功,特斯拉員工將可在中國的公共道路上進(jìn)行FSD的內(nèi)部測試。

回顧特斯拉自2021年發(fā)布FSD Beta版本(測試版本)至2024年發(fā)布FSD v12(Supervised)版本(受監(jiān)管版本)以來走過的3年路程,馬斯克把FSD的30多萬行代碼刪到只剩下2000多行。而這背后,是FSD端到端的全新升級。

也正因如此,“端到端”“BEV”“Transformer”成為了智能駕駛?cè)χ械臒嵩~,引發(fā)車企的爭相研究,華為、小鵬、理想、蔚來等主流主機(jī)廠、自動駕駛方案商均推出了基于BEV+Transformer的智駕方案。

全球車企瘋狂押注端到端大模型的背后,新一輪智駕技術(shù)軍備競賽號角已經(jīng)吹響。

路線之爭愈演愈烈

在智能駕駛領(lǐng)域,中美兩國呈現(xiàn)出一超戰(zhàn)多強(qiáng)的態(tài)勢,特斯拉在某種意義上代表了美國自動駕駛的基本面,中國這邊則是新勢力個個爭先。

特斯拉研發(fā)的FSD采取純視覺方案,完全摒棄掉激光雷達(dá)、毫米波雷達(dá)等傳感器,僅采用攝像頭進(jìn)行感知,特斯拉汽車共計采用8個攝像頭分布在車體四周,整體實現(xiàn)360度全局環(huán)視視野,攝像頭就像是“汽車之眼”,為汽車提供類似人類駕駛員的視覺感知系統(tǒng)。

馬斯克對于雷達(dá)是極度排斥的,這既有商業(yè)層面的考慮,特斯拉剛上市的時候,雷達(dá)的成本還比較高昂,有的高達(dá)上萬美元。還有另外一個原因,他信仰“第一性原理”——既然人類是靠眼睛開車,而道路結(jié)構(gòu)和標(biāo)志也是為人眼設(shè)計,作為“汽車之眼”的攝像頭理論上也可以實現(xiàn)同樣的效果。

同時,毫米波雷達(dá)技術(shù)上的缺陷也是他的一個重要顧慮。毫米波雷達(dá)由于無法分辨高度信息,在使用中會將靜止物體識別的置信度降低,如無其他可靠傳感的情況下,可能導(dǎo)致誤剎或漏剎,導(dǎo)致“幽靈剎車”。這些因素讓特斯拉堅定地走出了“去雷達(dá)”之路。

持續(xù)的進(jìn)化能力正是特斯拉FSD的可怕之處。2021年7月,特斯拉正式推出了BEV(鳥瞰圖)+Transformer的技術(shù)方案,進(jìn)一步提升了攝像頭的測距、測速以及適應(yīng)一些極端場景的能力。

2022年,特斯拉提出Occupancy Network(占用網(wǎng)絡(luò)),引入了“體素”的概念——三維空間基本單元,通過占用網(wǎng)絡(luò)進(jìn)一步提升對物體體積信息的識別能力。大幅改進(jìn)此前視覺算法常常會出現(xiàn)誤檢、漏檢的問題,同時,特斯拉也不斷投喂各類場景的視頻,讓AI算法盡可能多的認(rèn)識更廣泛的駕駛情況。

2024年3月1日,特斯拉FSD v12完成更新,有業(yè)內(nèi)人士表示,F(xiàn)SD v12是特斯拉史上最重要的一次更新,它為特斯拉車輛帶來了前所未有的自動駕駛能力。

“FSD Beta v12將城市街道駕駛堆棧升級為端到端神經(jīng)網(wǎng)絡(luò),經(jīng)過數(shù)百萬個視頻訓(xùn)練,取代了30多萬行C++代碼。”在更新說明中,特斯拉如此說道。FSD v12被視為改變規(guī)則的技術(shù),整個系統(tǒng)中端到端的算法幾乎全部采用神經(jīng)網(wǎng)絡(luò)構(gòu)建,其優(yōu)勢在于其靈活度非常高、應(yīng)變能力好、上限高,并且可以通過高度擬人化的狀態(tài)駕駛,大幅提升駕乘體驗。

與特斯拉不同的是,國內(nèi)廠商普遍采取的是激光雷達(dá)方案,這個方案依托激光雷達(dá)+攝像頭+毫米波/超聲波雷達(dá)等硬件設(shè)備,依靠實時測繪、AI算法的融合感知,來實現(xiàn)智能駕駛。比如,華為問界系列、理想汽車2024款L系列的Pro版、極氪007、阿維塔12、小鵬G9、問界M5等。

中國車企關(guān)于智能駕駛的技術(shù)主線比較簡單,雷達(dá)的裝載量越來越多,雷達(dá)的線程越來越高,成本越來越低。由此帶動的,智能駕駛技術(shù)也不斷由高價車向低價車滲透,乘聯(lián)會發(fā)布的汽車智能網(wǎng)聯(lián)洞察報告數(shù)據(jù)顯示,2023年全年新能源乘用車中,裝備L2級及以上輔助駕駛功能的比例達(dá)到55.3%。

而隨著雷達(dá)路線的不斷進(jìn)步,2024年中國車企們開始大規(guī)模“進(jìn)城”了,極氪007、阿維塔12、小鵬G9、華為問界等都已經(jīng)開通了城市和高速NOA功能。城市場景下的自動駕駛具有重大的現(xiàn)實意義和象征意義,“進(jìn)城”也被認(rèn)為是邁進(jìn)高階自動駕駛的重要標(biāo)志。

不過,從特斯拉的開發(fā)經(jīng)驗來看,端到端自動駕駛所需的數(shù)據(jù)規(guī)模、算力規(guī)模遠(yuǎn)遠(yuǎn)超出國內(nèi)企業(yè)的承受能力。除了成本高昂,端到端自動駕駛的技術(shù)難度也非常之高,想要實現(xiàn)端到端產(chǎn)品落地和持續(xù)進(jìn)化,對于車企的技術(shù)迭代能力也提出了更高的要求。

小模型VS大模型

智能駕駛行業(yè),經(jīng)歷了一個模型“從小到大”的過程。

目前已量產(chǎn)的智能駕駛,絕大多數(shù)采用的是模塊化架構(gòu)。簡而言之,模塊化是將智能駕駛系統(tǒng)拆分為多個典型任務(wù),并由專門的AI模型或模塊處理。

現(xiàn)階段的自動駕駛模型框架主要由感知、決策、控制三個部分組成。感知模塊就像是人的眼睛和耳朵,負(fù)責(zé)對外部環(huán)境進(jìn)行感知;控制模塊就像人的雙手和雙腳,負(fù)責(zé)最終的加減速、轉(zhuǎn)向等操作;而決策規(guī)劃模塊就像人的大腦,基于接收到的感知等信息進(jìn)行行為決策和軌跡生成。

在此架構(gòu)下,每個大模塊可能包含多個小模型的組合。如感知模塊可能包含分類、追蹤和定位等不同AI模型,各司其職。

不過,隨著軟硬件升級與逐步深入,自動駕駛對于計算能力和海量數(shù)據(jù)處理能力的需求暴增,傳統(tǒng)各個小模型“堆疊”的方案,已經(jīng)無法滿足城市自動駕駛的需求。比如,“堆疊”造成信息失真以及算力浪費,而每個小模型的技術(shù)天花板也會導(dǎo)致整體解決方案受限。

這個時候,大模型開始進(jìn)入業(yè)界視野。

2021年8月,特斯拉AI高級總監(jiān)Andrej Karpathy展示了一項新技術(shù)——基于Transformer的BEV(鳥瞰視角)感知方案,這是大模型技術(shù)首次應(yīng)用于自動駕駛領(lǐng)域,也是特斯拉實現(xiàn)純視覺智能駕駛方案的關(guān)鍵。

BEV可以實現(xiàn)將360度環(huán)視的時間、空間融合,相當(dāng)于車輛正上方10-20米有一個直升機(jī)俯視車輛與周圍環(huán)境。Transformer架構(gòu)可以輸出靜態(tài)、動態(tài)信息,以及端到端的預(yù)測能力。更具象化來說,就是將攝像頭、毫米波雷達(dá)、激光雷達(dá)等感知元件采集到的實時數(shù)據(jù)通過Transformer模型轉(zhuǎn)換成3D圖景,最后形成車輛周圍的鳥瞰圖,實現(xiàn)對車輛周邊環(huán)境的精準(zhǔn)感知,甚至可以實時形成一張車輛周圍的實時地圖。

需要指出的是,Transformer不等于大模型,它是模型的底座,目前的大模型都是在Transformer的基礎(chǔ)上進(jìn)行開發(fā)的。

在特斯拉使用Transformer之后,大模型早已經(jīng)不限于智能駕駛感知領(lǐng)域。目前,智能駕駛已從僅使用模型進(jìn)行圖像感知,使用規(guī)則算法的方式,轉(zhuǎn)變?yōu)楦兄?、融合、預(yù)測全面使用模型。

盡管BEV+Transformer相較于過往的智駕技術(shù)路線優(yōu)勢眾多,但也并非十全十美,仍存在諸多挑戰(zhàn)。

首先,為了確保視覺感知重疊,汽車感知硬件中攝像頭數(shù)量會有所提升,硬件成本增加。

其次,Transformer模型體量龐大,運(yùn)算會消耗大量存儲與帶寬空間。同時對芯片性能要求嚴(yán)苛,除需進(jìn)行算子適配以及底層軟件優(yōu)化外,SOC層面還需對緩存與帶寬進(jìn)行提升。

最后,也是最為重要的是Transformer訓(xùn)練與迭代需要海量數(shù)據(jù)做支撐,催生出海量的數(shù)據(jù)采集、標(biāo)注需求。

從高速場景拓展到城市場景,車輛所遇到的長尾問題大幅增加。高速場景相對封閉,交通參與者相對簡單不涉及行人,駕駛狀態(tài)可預(yù)測性更強(qiáng),對數(shù)據(jù)規(guī)模與多樣性要求較低。而城市場景路況則較為復(fù)雜,交通參與者眾多,場景異質(zhì)性強(qiáng),駕駛狀態(tài)很難進(jìn)行預(yù)測。因此,城市NOA對自動駕駛模型的泛化能力提出了更高的要求。

Transformer大模型量變到引起質(zhì)變需要數(shù)億公里標(biāo)注數(shù)據(jù)的投喂,并覆蓋不斷出現(xiàn)的極端案例,才能實現(xiàn)自動駕駛感知算法從輕量的神經(jīng)網(wǎng)絡(luò)二維感知到基于Transformer四維感知的升維,這對數(shù)據(jù)標(biāo)注量產(chǎn)規(guī)模提出了更高的要求,數(shù)據(jù)閉環(huán)能力取代算法范式,成為決定商業(yè)量產(chǎn)從1到N的勝負(fù)關(guān)鍵。

智能駕駛的另一條路徑

在智能駕駛產(chǎn)業(yè)在發(fā)展過程中,數(shù)據(jù)端和算法端都面臨著一定的發(fā)展痛點。

數(shù)據(jù)處理層面,自動駕駛所需要的數(shù)據(jù)是有價值的極端案例(Corner Case), 但當(dāng)前數(shù)據(jù)處理面臨的最大問題是低效率和高成本,無法實現(xiàn)數(shù)據(jù)閉環(huán)。其中,低效率的問題主要是高價值數(shù)據(jù)比例低、各類型數(shù)據(jù)需求同步難、數(shù)據(jù)處理的自動化程度低;高成本問題主要是數(shù)據(jù)采集成本高、數(shù)據(jù)標(biāo)注成本高、數(shù)據(jù)存儲成本高。

算法模型層面,自動駕駛功能逐步邁向高階功能,自動駕駛系統(tǒng)將承擔(dān)駕駛操作和周邊監(jiān)控,人類駕駛員將承擔(dān)突發(fā)狀況下的駕駛工作,此時感知和定位的工作將轉(zhuǎn)移到車端,整個自動駕駛系統(tǒng)被認(rèn)為是不安全的,使得整個高階自動駕駛陷入了一個低谷中。以城區(qū)NOA為例,車輛將面對更復(fù)雜的場景及工況,包括更多的交通參與者、更復(fù)雜的交通規(guī)則、更高要求的地域覆蓋率等。

任何技術(shù)路線都不止一條,車路云一體化作為智能駕駛的另一條技術(shù)路徑被擺到了前臺。車路云一體化是在車路協(xié)同的基礎(chǔ)上進(jìn)一步發(fā)展而來,其關(guān)鍵是人、車、路、云,對應(yīng)的是交通參與者、車載終端、路側(cè)設(shè)施和云計算。一體化是將這些要素融合為一體,通過配備智能傳感器設(shè)施的道路與智能網(wǎng)聯(lián)汽車聯(lián)動,類似于ETC系統(tǒng)中的路側(cè)單元和車載模塊的交互,在智慧公路獲取到車輛數(shù)據(jù)之后,再回傳到后臺進(jìn)行數(shù)據(jù)分析,進(jìn)而得到實時路況信息,再下發(fā)給智能車輛、交通部門、城市管理者等相關(guān)方,實現(xiàn)全面的系統(tǒng)協(xié)同感知、決策與控制。

從以端到端大模型為代表的單車智能與車路云一體化兩者關(guān)系來看,其本質(zhì)上并非同維競爭。單車智能是“點”的提升,車路協(xié)同是“面”的統(tǒng)籌。車路云一體化誕生之初就是為了解決單車智能無法解決的問題,二者的關(guān)系是相互促進(jìn)、互為補(bǔ)充。車路云一體化可以彌補(bǔ)單車智能在復(fù)雜場景下的感知不足,通過整合交通關(guān)鍵要素、超視距感知、實時信息共享等方式,提高自動駕駛的可靠性和安全性。

車路云一體化為自動駕駛大模型訓(xùn)練開辟了新的路徑。與傳統(tǒng)依賴車輛單獨采集數(shù)據(jù)的方式相比,車路云一體化系統(tǒng)能夠收集到更龐大的數(shù)據(jù)量與更豐富的數(shù)據(jù)類型,不僅大幅拓寬了訓(xùn)練數(shù)據(jù)的廣度與深度,還顯著加速了自動駕駛模型的學(xué)習(xí)效率與精確度,為實現(xiàn)更高水平的自動駕駛奠定堅實基礎(chǔ)。

通過車路云一體化,自動駕駛車輛的傳感器不再是唯一的眼睛,通過遮蔽或關(guān)閉這些傳感器,車輛完全可以依賴路側(cè)基站構(gòu)建的實時數(shù)字孿生系統(tǒng),將實時路況和環(huán)境數(shù)據(jù)源源不斷地傳輸給車輛,指引其順利完成自動駕駛?cè)蝿?wù)。

目前,車路云一體化主要面臨“兩率低”問題,即路側(cè)設(shè)備覆蓋率不高且不均勻和車端設(shè)備滲透率低。一方面,C-V2X車聯(lián)網(wǎng)路側(cè)基礎(chǔ)設(shè)施RSU覆蓋率較低,未形成規(guī)模部署,缺乏全域打通;另一方面,車載終端滲透率較低,導(dǎo)致車輛間信息交互和協(xié)作能力不強(qiáng)。車路城協(xié)同基礎(chǔ)設(shè)施建設(shè)主要集中在各城市示范區(qū)的部分道路路段,無法形成連續(xù)的智能網(wǎng)聯(lián)環(huán)境,難以滿足智能網(wǎng)聯(lián)車輛規(guī)?;瘻y試驗證、數(shù)據(jù)訓(xùn)練、功能優(yōu)化等需求,進(jìn)而導(dǎo)致基礎(chǔ)設(shè)施使用率偏低。

而中國龐大的公路網(wǎng)絡(luò)以及機(jī)動車保有量為車路云一體化提供了豐富的驗證場景和數(shù)據(jù)來源。2023年,全國公路總里程544萬公里,其中高速公路18萬公里,機(jī)動車保有量是4.35億輛。據(jù)《車路云一體化智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)產(chǎn)值增量預(yù)測》報告預(yù)測,2025年/2030年我國車路云一體化智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)總產(chǎn)值增量分別為7295億元/25825億元,年均復(fù)合增長率為28.8%。

所有的技術(shù)路線最終都將殊途同歸。當(dāng)前,端到端大模型和車路云一體化還處于不斷進(jìn)化的階段,但其目標(biāo)都是為了讓更安全的自動駕駛走進(jìn)千家萬戶。隨著越來越多的企業(yè)投入到相關(guān)技術(shù)的研發(fā)與應(yīng)用當(dāng)中,這些技術(shù)的未來發(fā)展圖景也將愈發(fā)清晰。如今,智能駕駛起跑的槍聲已經(jīng)打響,路線是關(guān)鍵,而朝著選好的方向狂奔,也是賽道當(dāng)中的企業(yè)不得不做的選擇。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

大模型加速上車,吹響新一輪智駕“軍備競賽”號角?

槍聲已經(jīng)打響,路線是關(guān)鍵,而朝著選好的方向狂奔,也是賽道當(dāng)中的企業(yè)不得不做的選擇。

文|極智GeeTech

2024年,被很多中國車企稱為“智駕規(guī)模商用元年”,但是智駕領(lǐng)域的競爭如果沒有特斯拉這條“鯰魚”參與,顯然有些成色不足。

近日,據(jù)媒體報道,上海已向特斯拉發(fā)放了道路測試牌照。此前有外媒報道,特斯拉計劃為中國市場注冊FSD軟件,預(yù)計今年推出,并可能以月度訂閱方式向用戶收費。若注冊成功,特斯拉員工將可在中國的公共道路上進(jìn)行FSD的內(nèi)部測試。

回顧特斯拉自2021年發(fā)布FSD Beta版本(測試版本)至2024年發(fā)布FSD v12(Supervised)版本(受監(jiān)管版本)以來走過的3年路程,馬斯克把FSD的30多萬行代碼刪到只剩下2000多行。而這背后,是FSD端到端的全新升級。

也正因如此,“端到端”“BEV”“Transformer”成為了智能駕駛?cè)χ械臒嵩~,引發(fā)車企的爭相研究,華為、小鵬、理想、蔚來等主流主機(jī)廠、自動駕駛方案商均推出了基于BEV+Transformer的智駕方案。

全球車企瘋狂押注端到端大模型的背后,新一輪智駕技術(shù)軍備競賽號角已經(jīng)吹響。

路線之爭愈演愈烈

在智能駕駛領(lǐng)域,中美兩國呈現(xiàn)出一超戰(zhàn)多強(qiáng)的態(tài)勢,特斯拉在某種意義上代表了美國自動駕駛的基本面,中國這邊則是新勢力個個爭先。

特斯拉研發(fā)的FSD采取純視覺方案,完全摒棄掉激光雷達(dá)、毫米波雷達(dá)等傳感器,僅采用攝像頭進(jìn)行感知,特斯拉汽車共計采用8個攝像頭分布在車體四周,整體實現(xiàn)360度全局環(huán)視視野,攝像頭就像是“汽車之眼”,為汽車提供類似人類駕駛員的視覺感知系統(tǒng)。

馬斯克對于雷達(dá)是極度排斥的,這既有商業(yè)層面的考慮,特斯拉剛上市的時候,雷達(dá)的成本還比較高昂,有的高達(dá)上萬美元。還有另外一個原因,他信仰“第一性原理”——既然人類是靠眼睛開車,而道路結(jié)構(gòu)和標(biāo)志也是為人眼設(shè)計,作為“汽車之眼”的攝像頭理論上也可以實現(xiàn)同樣的效果。

同時,毫米波雷達(dá)技術(shù)上的缺陷也是他的一個重要顧慮。毫米波雷達(dá)由于無法分辨高度信息,在使用中會將靜止物體識別的置信度降低,如無其他可靠傳感的情況下,可能導(dǎo)致誤剎或漏剎,導(dǎo)致“幽靈剎車”。這些因素讓特斯拉堅定地走出了“去雷達(dá)”之路。

持續(xù)的進(jìn)化能力正是特斯拉FSD的可怕之處。2021年7月,特斯拉正式推出了BEV(鳥瞰圖)+Transformer的技術(shù)方案,進(jìn)一步提升了攝像頭的測距、測速以及適應(yīng)一些極端場景的能力。

2022年,特斯拉提出Occupancy Network(占用網(wǎng)絡(luò)),引入了“體素”的概念——三維空間基本單元,通過占用網(wǎng)絡(luò)進(jìn)一步提升對物體體積信息的識別能力。大幅改進(jìn)此前視覺算法常常會出現(xiàn)誤檢、漏檢的問題,同時,特斯拉也不斷投喂各類場景的視頻,讓AI算法盡可能多的認(rèn)識更廣泛的駕駛情況。

2024年3月1日,特斯拉FSD v12完成更新,有業(yè)內(nèi)人士表示,F(xiàn)SD v12是特斯拉史上最重要的一次更新,它為特斯拉車輛帶來了前所未有的自動駕駛能力。

“FSD Beta v12將城市街道駕駛堆棧升級為端到端神經(jīng)網(wǎng)絡(luò),經(jīng)過數(shù)百萬個視頻訓(xùn)練,取代了30多萬行C++代碼?!痹诟抡f明中,特斯拉如此說道。FSD v12被視為改變規(guī)則的技術(shù),整個系統(tǒng)中端到端的算法幾乎全部采用神經(jīng)網(wǎng)絡(luò)構(gòu)建,其優(yōu)勢在于其靈活度非常高、應(yīng)變能力好、上限高,并且可以通過高度擬人化的狀態(tài)駕駛,大幅提升駕乘體驗。

與特斯拉不同的是,國內(nèi)廠商普遍采取的是激光雷達(dá)方案,這個方案依托激光雷達(dá)+攝像頭+毫米波/超聲波雷達(dá)等硬件設(shè)備,依靠實時測繪、AI算法的融合感知,來實現(xiàn)智能駕駛。比如,華為問界系列、理想汽車2024款L系列的Pro版、極氪007、阿維塔12、小鵬G9、問界M5等。

中國車企關(guān)于智能駕駛的技術(shù)主線比較簡單,雷達(dá)的裝載量越來越多,雷達(dá)的線程越來越高,成本越來越低。由此帶動的,智能駕駛技術(shù)也不斷由高價車向低價車滲透,乘聯(lián)會發(fā)布的汽車智能網(wǎng)聯(lián)洞察報告數(shù)據(jù)顯示,2023年全年新能源乘用車中,裝備L2級及以上輔助駕駛功能的比例達(dá)到55.3%。

而隨著雷達(dá)路線的不斷進(jìn)步,2024年中國車企們開始大規(guī)?!斑M(jìn)城”了,極氪007、阿維塔12、小鵬G9、華為問界等都已經(jīng)開通了城市和高速NOA功能。城市場景下的自動駕駛具有重大的現(xiàn)實意義和象征意義,“進(jìn)城”也被認(rèn)為是邁進(jìn)高階自動駕駛的重要標(biāo)志。

不過,從特斯拉的開發(fā)經(jīng)驗來看,端到端自動駕駛所需的數(shù)據(jù)規(guī)模、算力規(guī)模遠(yuǎn)遠(yuǎn)超出國內(nèi)企業(yè)的承受能力。除了成本高昂,端到端自動駕駛的技術(shù)難度也非常之高,想要實現(xiàn)端到端產(chǎn)品落地和持續(xù)進(jìn)化,對于車企的技術(shù)迭代能力也提出了更高的要求。

小模型VS大模型

智能駕駛行業(yè),經(jīng)歷了一個模型“從小到大”的過程。

目前已量產(chǎn)的智能駕駛,絕大多數(shù)采用的是模塊化架構(gòu)。簡而言之,模塊化是將智能駕駛系統(tǒng)拆分為多個典型任務(wù),并由專門的AI模型或模塊處理。

現(xiàn)階段的自動駕駛模型框架主要由感知、決策、控制三個部分組成。感知模塊就像是人的眼睛和耳朵,負(fù)責(zé)對外部環(huán)境進(jìn)行感知;控制模塊就像人的雙手和雙腳,負(fù)責(zé)最終的加減速、轉(zhuǎn)向等操作;而決策規(guī)劃模塊就像人的大腦,基于接收到的感知等信息進(jìn)行行為決策和軌跡生成。

在此架構(gòu)下,每個大模塊可能包含多個小模型的組合。如感知模塊可能包含分類、追蹤和定位等不同AI模型,各司其職。

不過,隨著軟硬件升級與逐步深入,自動駕駛對于計算能力和海量數(shù)據(jù)處理能力的需求暴增,傳統(tǒng)各個小模型“堆疊”的方案,已經(jīng)無法滿足城市自動駕駛的需求。比如,“堆疊”造成信息失真以及算力浪費,而每個小模型的技術(shù)天花板也會導(dǎo)致整體解決方案受限。

這個時候,大模型開始進(jìn)入業(yè)界視野。

2021年8月,特斯拉AI高級總監(jiān)Andrej Karpathy展示了一項新技術(shù)——基于Transformer的BEV(鳥瞰視角)感知方案,這是大模型技術(shù)首次應(yīng)用于自動駕駛領(lǐng)域,也是特斯拉實現(xiàn)純視覺智能駕駛方案的關(guān)鍵。

BEV可以實現(xiàn)將360度環(huán)視的時間、空間融合,相當(dāng)于車輛正上方10-20米有一個直升機(jī)俯視車輛與周圍環(huán)境。Transformer架構(gòu)可以輸出靜態(tài)、動態(tài)信息,以及端到端的預(yù)測能力。更具象化來說,就是將攝像頭、毫米波雷達(dá)、激光雷達(dá)等感知元件采集到的實時數(shù)據(jù)通過Transformer模型轉(zhuǎn)換成3D圖景,最后形成車輛周圍的鳥瞰圖,實現(xiàn)對車輛周邊環(huán)境的精準(zhǔn)感知,甚至可以實時形成一張車輛周圍的實時地圖。

需要指出的是,Transformer不等于大模型,它是模型的底座,目前的大模型都是在Transformer的基礎(chǔ)上進(jìn)行開發(fā)的。

在特斯拉使用Transformer之后,大模型早已經(jīng)不限于智能駕駛感知領(lǐng)域。目前,智能駕駛已從僅使用模型進(jìn)行圖像感知,使用規(guī)則算法的方式,轉(zhuǎn)變?yōu)楦兄⑷诤?、預(yù)測全面使用模型。

盡管BEV+Transformer相較于過往的智駕技術(shù)路線優(yōu)勢眾多,但也并非十全十美,仍存在諸多挑戰(zhàn)。

首先,為了確保視覺感知重疊,汽車感知硬件中攝像頭數(shù)量會有所提升,硬件成本增加。

其次,Transformer模型體量龐大,運(yùn)算會消耗大量存儲與帶寬空間。同時對芯片性能要求嚴(yán)苛,除需進(jìn)行算子適配以及底層軟件優(yōu)化外,SOC層面還需對緩存與帶寬進(jìn)行提升。

最后,也是最為重要的是Transformer訓(xùn)練與迭代需要海量數(shù)據(jù)做支撐,催生出海量的數(shù)據(jù)采集、標(biāo)注需求。

從高速場景拓展到城市場景,車輛所遇到的長尾問題大幅增加。高速場景相對封閉,交通參與者相對簡單不涉及行人,駕駛狀態(tài)可預(yù)測性更強(qiáng),對數(shù)據(jù)規(guī)模與多樣性要求較低。而城市場景路況則較為復(fù)雜,交通參與者眾多,場景異質(zhì)性強(qiáng),駕駛狀態(tài)很難進(jìn)行預(yù)測。因此,城市NOA對自動駕駛模型的泛化能力提出了更高的要求。

Transformer大模型量變到引起質(zhì)變需要數(shù)億公里標(biāo)注數(shù)據(jù)的投喂,并覆蓋不斷出現(xiàn)的極端案例,才能實現(xiàn)自動駕駛感知算法從輕量的神經(jīng)網(wǎng)絡(luò)二維感知到基于Transformer四維感知的升維,這對數(shù)據(jù)標(biāo)注量產(chǎn)規(guī)模提出了更高的要求,數(shù)據(jù)閉環(huán)能力取代算法范式,成為決定商業(yè)量產(chǎn)從1到N的勝負(fù)關(guān)鍵。

智能駕駛的另一條路徑

在智能駕駛產(chǎn)業(yè)在發(fā)展過程中,數(shù)據(jù)端和算法端都面臨著一定的發(fā)展痛點。

數(shù)據(jù)處理層面,自動駕駛所需要的數(shù)據(jù)是有價值的極端案例(Corner Case), 但當(dāng)前數(shù)據(jù)處理面臨的最大問題是低效率和高成本,無法實現(xiàn)數(shù)據(jù)閉環(huán)。其中,低效率的問題主要是高價值數(shù)據(jù)比例低、各類型數(shù)據(jù)需求同步難、數(shù)據(jù)處理的自動化程度低;高成本問題主要是數(shù)據(jù)采集成本高、數(shù)據(jù)標(biāo)注成本高、數(shù)據(jù)存儲成本高。

算法模型層面,自動駕駛功能逐步邁向高階功能,自動駕駛系統(tǒng)將承擔(dān)駕駛操作和周邊監(jiān)控,人類駕駛員將承擔(dān)突發(fā)狀況下的駕駛工作,此時感知和定位的工作將轉(zhuǎn)移到車端,整個自動駕駛系統(tǒng)被認(rèn)為是不安全的,使得整個高階自動駕駛陷入了一個低谷中。以城區(qū)NOA為例,車輛將面對更復(fù)雜的場景及工況,包括更多的交通參與者、更復(fù)雜的交通規(guī)則、更高要求的地域覆蓋率等。

任何技術(shù)路線都不止一條,車路云一體化作為智能駕駛的另一條技術(shù)路徑被擺到了前臺。車路云一體化是在車路協(xié)同的基礎(chǔ)上進(jìn)一步發(fā)展而來,其關(guān)鍵是人、車、路、云,對應(yīng)的是交通參與者、車載終端、路側(cè)設(shè)施和云計算。一體化是將這些要素融合為一體,通過配備智能傳感器設(shè)施的道路與智能網(wǎng)聯(lián)汽車聯(lián)動,類似于ETC系統(tǒng)中的路側(cè)單元和車載模塊的交互,在智慧公路獲取到車輛數(shù)據(jù)之后,再回傳到后臺進(jìn)行數(shù)據(jù)分析,進(jìn)而得到實時路況信息,再下發(fā)給智能車輛、交通部門、城市管理者等相關(guān)方,實現(xiàn)全面的系統(tǒng)協(xié)同感知、決策與控制。

從以端到端大模型為代表的單車智能與車路云一體化兩者關(guān)系來看,其本質(zhì)上并非同維競爭。單車智能是“點”的提升,車路協(xié)同是“面”的統(tǒng)籌。車路云一體化誕生之初就是為了解決單車智能無法解決的問題,二者的關(guān)系是相互促進(jìn)、互為補(bǔ)充。車路云一體化可以彌補(bǔ)單車智能在復(fù)雜場景下的感知不足,通過整合交通關(guān)鍵要素、超視距感知、實時信息共享等方式,提高自動駕駛的可靠性和安全性。

車路云一體化為自動駕駛大模型訓(xùn)練開辟了新的路徑。與傳統(tǒng)依賴車輛單獨采集數(shù)據(jù)的方式相比,車路云一體化系統(tǒng)能夠收集到更龐大的數(shù)據(jù)量與更豐富的數(shù)據(jù)類型,不僅大幅拓寬了訓(xùn)練數(shù)據(jù)的廣度與深度,還顯著加速了自動駕駛模型的學(xué)習(xí)效率與精確度,為實現(xiàn)更高水平的自動駕駛奠定堅實基礎(chǔ)。

通過車路云一體化,自動駕駛車輛的傳感器不再是唯一的眼睛,通過遮蔽或關(guān)閉這些傳感器,車輛完全可以依賴路側(cè)基站構(gòu)建的實時數(shù)字孿生系統(tǒng),將實時路況和環(huán)境數(shù)據(jù)源源不斷地傳輸給車輛,指引其順利完成自動駕駛?cè)蝿?wù)。

目前,車路云一體化主要面臨“兩率低”問題,即路側(cè)設(shè)備覆蓋率不高且不均勻和車端設(shè)備滲透率低。一方面,C-V2X車聯(lián)網(wǎng)路側(cè)基礎(chǔ)設(shè)施RSU覆蓋率較低,未形成規(guī)模部署,缺乏全域打通;另一方面,車載終端滲透率較低,導(dǎo)致車輛間信息交互和協(xié)作能力不強(qiáng)。車路城協(xié)同基礎(chǔ)設(shè)施建設(shè)主要集中在各城市示范區(qū)的部分道路路段,無法形成連續(xù)的智能網(wǎng)聯(lián)環(huán)境,難以滿足智能網(wǎng)聯(lián)車輛規(guī)?;瘻y試驗證、數(shù)據(jù)訓(xùn)練、功能優(yōu)化等需求,進(jìn)而導(dǎo)致基礎(chǔ)設(shè)施使用率偏低。

而中國龐大的公路網(wǎng)絡(luò)以及機(jī)動車保有量為車路云一體化提供了豐富的驗證場景和數(shù)據(jù)來源。2023年,全國公路總里程544萬公里,其中高速公路18萬公里,機(jī)動車保有量是4.35億輛。據(jù)《車路云一體化智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)產(chǎn)值增量預(yù)測》報告預(yù)測,2025年/2030年我國車路云一體化智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)總產(chǎn)值增量分別為7295億元/25825億元,年均復(fù)合增長率為28.8%。

所有的技術(shù)路線最終都將殊途同歸。當(dāng)前,端到端大模型和車路云一體化還處于不斷進(jìn)化的階段,但其目標(biāo)都是為了讓更安全的自動駕駛走進(jìn)千家萬戶。隨著越來越多的企業(yè)投入到相關(guān)技術(shù)的研發(fā)與應(yīng)用當(dāng)中,這些技術(shù)的未來發(fā)展圖景也將愈發(fā)清晰。如今,智能駕駛起跑的槍聲已經(jīng)打響,路線是關(guān)鍵,而朝著選好的方向狂奔,也是賽道當(dāng)中的企業(yè)不得不做的選擇。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。