正在閱讀:

端到端能帶來新春天?深扒分裂的無人駕駛行業(yè)

掃一掃下載界面新聞APP

端到端能帶來新春天?深扒分裂的無人駕駛行業(yè)

從技術(shù)角度深扒自動駕駛行業(yè)。

文 | 硅谷101

無人駕駛, 真的能落地嗎?

人類研發(fā)無人駕駛,已經(jīng)消耗了無數(shù)的時間與資金。到了今天,事故頻發(fā)、燒錢無止境、進(jìn)度緩慢,引發(fā)了眾多不解與質(zhì)疑:無人駕駛是否是一場騙局,甚至,行業(yè)已死?

這個行業(yè),真的是我見過最分裂的行業(yè)之一,各個派系觀點各不相同、互相瞧不上、互相指責(zé),神仙打架之后,又各干各的,各踩各的坑,各倒各的閉,各花各的錢。

圖片

結(jié)果就是,在2024年之前,無人駕駛走入了寒冬。

但這個寒冬,隨著馬斯克號稱“通過端到端AI技術(shù)“重構(gòu)了特斯拉的FSD,并宣布要進(jìn)軍無人駕駛出租車(Robotaxi),似乎又出現(xiàn)了一些新的生機和希望。

端到端能否帶領(lǐng)我們走向真正的無人駕駛呢?自動駕駛中定義的L2與L4之間真的相隔甚遠(yuǎn)嗎?如今無人駕駛技術(shù)發(fā)展到哪一步了?純視覺與多模態(tài)之爭,真的沒有盡頭嗎?

圖片

為了探究無人駕駛行業(yè)到底發(fā)展如何,我們歷時3個月,采訪了全球市場上最前沿的無人駕駛公司,包括Waymo,Cruise的前核心員工、前特斯拉FSD工程師、一二級市場投資人等多達(dá)十多位自動駕駛界的專業(yè)人士。

我們發(fā)現(xiàn)這個行業(yè)依然割裂,很多技術(shù)路線業(yè)內(nèi)并沒有達(dá)成共識。

這個系列文章我們將從感知、算法、產(chǎn)品、運營、經(jīng)濟(jì)、法律等多個角度,全方位一起來探討如今的自動駕駛技術(shù)的最前沿現(xiàn)狀。

圖片

本期文章我們先全面聊聊技術(shù),下期會從運營與經(jīng)濟(jì)角度解析。

01 自動駕駛是什么?

我們先來做個概念區(qū)分:無人駕駛和自動駕駛的區(qū)別是什么?

根據(jù)智能化程度的不同,自動駕駛被分為L0到L5共6個等級:

L0為無自動化,L1指駕駛援助,L2指部分自動駕駛,L3指有條件自動駕駛,L4指高度自動駕駛,L5指完全自動駕駛,即真正的無人駕駛。

我們之后提到的Waymo和Cruise,以及侯曉迪做的無人卡車都屬于L4級別,特斯拉FSD屬于L2級別,但馬斯克號稱的特斯拉Robotaxi,卻是L4級別的。

圖片

所以目前在這個產(chǎn)業(yè)中,人們說無人駕駛,一般指的是L4的公司,因為現(xiàn)在還沒人能做到L5;而一般說自動駕駛,則是包括了所有級別,是更泛的一個稱呼。

我們再來看看自動駕駛產(chǎn)業(yè)是怎么開始的。

盡管早在100年前人類就開始探索無人駕駛,但公認(rèn)現(xiàn)代自動駕駛正式起源于2004年美國軍方的DARPA挑戰(zhàn)賽。

經(jīng)過了幾年發(fā)展后,形成了感知(Perception)-規(guī)劃(Planning)-控制(Control)這樣的運行鏈路。其中感知模塊包含了感知(Perception)和預(yù)測(Prediction)。

圖片

感知層需要通過雷達(dá)、攝像頭等傳感器獲取前方路況,并預(yù)測物體的運動軌跡、實時生成一張周圍環(huán)境的地圖,也就是我們在車機上常見的鳥瞰圖,再將這些信息傳遞給規(guī)劃層,由系統(tǒng)根據(jù)算法來決定速度與方向,最終再下放到執(zhí)控制層,控制對應(yīng)的油門、制動和轉(zhuǎn)向機。

后來隨著AI的興起,人們開始讓機器自己去學(xué)習(xí)如何開車,先讓算法到仿真的數(shù)字世界里開車,等仿真訓(xùn)練到一定程度,就可以開始上路測試。

圖片

而最近這兩年,隨著特斯拉將“端到端”方案應(yīng)用在FSD V12的版本中,感知-規(guī)劃-控制的運行鏈路也開始改變。

接下來我們著重來聊聊自動駕駛產(chǎn)業(yè)在感知這一層面的兩派技術(shù)路線:純視覺派與多模態(tài)融合派,這兩個派別在過去很多年一直在打架,各說各的好,我們來講講它們的恩怨情仇。

02 感知篇:純視覺Vs.多模態(tài)融合

目前汽車主流的感知方案分為兩種。

第一種是不少公司采用的多模態(tài)融合感知方案,會將激光雷達(dá)、毫米波雷達(dá)、超聲波傳感器、攝像頭、慣性測量單元等傳感器采集的信息進(jìn)行匯總?cè)诤希瑏砼袛嘀車h(huán)境。

圖片

回到我們上一章說到的DARPA挑戰(zhàn)賽,2004年第一屆中,雖然沒有任何一輛車完賽,但一位名叫David Hall的參賽者在比賽中意識到了激光雷達(dá)的重要性,在比賽結(jié)束后,他創(chuàng)辦的Velodyne開始從做音響轉(zhuǎn)向做激光雷達(dá)。

圖片

當(dāng)時的激光雷達(dá)還是單線掃描,只能對一個方向測距,而David Hall發(fā)明了64線機械旋轉(zhuǎn)式激光雷達(dá),可以360度掃描環(huán)境。

后來他帶著這臺旋轉(zhuǎn)式的激光雷達(dá),參加2005年第二屆的DARPA挑戰(zhàn)賽。終于有臺頭頂著5個激光雷達(dá)的車完賽并取得了冠軍。

但這并不是David Hall的車……他的車輛中途因機械故障退賽了,不過他的表現(xiàn)確實讓大家意識到了,激光雷達(dá)、是個“外掛”。

到了2007年第三屆DARPA挑戰(zhàn)賽中,完賽的6只隊伍中,5只都用到了Velodyne的激光雷達(dá)。至此,激光雷達(dá)開始成為自動駕駛界的香餑餑,Velodyne也成為了車載激光雷達(dá)的龍頭企業(yè)。

圖片

張航

Cruise高級主任科學(xué)家:

現(xiàn)在不管是Cruise、Waymo,基于L4在做的一些解決方案,都是基于激光雷達(dá)為主了,它可以直接拿到位置信息,這樣的話對于算法本身的要求,就是相對會比較低一些,然后很多可以直接通過傳感器來拿到這些3D的信息,這樣對系統(tǒng)的魯棒性,還有對于安全性,一些長尾問題會比較輕松。

另一個技術(shù)派別就是以特斯拉為代表的純視覺方案了,只靠攝像頭采集環(huán)境信息,然后利用神經(jīng)網(wǎng)絡(luò),將2D的視頻轉(zhuǎn)換成3D的地圖,其中就包含了周邊環(huán)境的障礙物、預(yù)測的軌跡、速度等信息。

圖片

相比激光雷達(dá)方案直接生成3D地圖,純視覺多了一道2D轉(zhuǎn)3D的過程,在張航看來,純靠“視頻”這種缺乏3D信息的訓(xùn)練數(shù)據(jù),會給安全性帶來一定挑戰(zhàn)。

張航

Cruise高級主任科學(xué)家:

它需要大量的訓(xùn)練數(shù)據(jù)去學(xué)出缺乏3D的信息,這樣的話缺乏監(jiān)管,因為沒有一個參照物,很難去拿到一個現(xiàn)實中的一個ground truth(真值數(shù)據(jù)),如果完全通過這種半監(jiān)督的學(xué)習(xí)方法,想要達(dá)到系統(tǒng)的一個安全性,我覺得是比較難的。我覺得特斯拉主要目的還是控制成本,包括修改一些換擋的機制,都是為了節(jié)約一些零部件方面成本。

圖片

但在特斯拉的前AI工程師于振華看來,選擇純視覺并不只是節(jié)約成本那么簡單。

Chapter 2.1 多即是亂?

圖片

于振華

前特斯拉AI工程師:

其實特斯拉原來的自動駕駛系統(tǒng)是有毫米波雷達(dá),傳感器融合其實是一個很復(fù)雜的算法,就是它做出來了并不一定好。

我當(dāng)時有一輛車,是最后一批有毫米波雷達(dá)的車。在2023年的時候,我的車進(jìn)行了一次保養(yǎng),服務(wù)工程師就自動把我的雷達(dá)給去除了。這一件事情的結(jié)論是什么呢?去掉毫米外雷達(dá)不是為了成本,因為我的車已經(jīng)有毫米波雷達(dá)在那放著了。根源的原因是純視覺已經(jīng)勝過毫米波雷達(dá)了。所以特斯拉是在做減法,把一些他認(rèn)為不需要的冗余的事情去掉,或者說累贅的事情去掉。

于振華認(rèn)為,如果融合算法做不好,或者通過純視覺就已經(jīng)能達(dá)到足夠好的效果了,那更多傳感器反而成為累贅。

接受我們采訪的很多L4從業(yè)者也同意,信息并不是越多越好,反之,傳感器收集到的太多額外的無效信息會加劇算法的負(fù)擔(dān)。

那么馬斯克一直倡導(dǎo)的光靠攝像頭這一種傳感器,到底行不行呢?

Chapter 2.2 少即是多?

馬斯克說,既然人類僅通過兩只眼睛就能開車,那么汽車也可以僅憑圖像信息來實現(xiàn)自動駕駛,但業(yè)內(nèi)對于純視覺派的擔(dān)心一直是,視覺欺騙,在過去這確實帶來了不少事故。

比如特斯拉將白色卡車識別為天空、把月亮識別為黃燈,又或者理想將廣告牌上內(nèi)容識別為汽車,導(dǎo)致高速急剎追尾等事故。

這些案例是否意味著,少了深度信息的純視覺方案,存在先天性不足呢?

于振華前特斯拉AI工程師:多個信息流確實能提供更多的信息,但是你要解答一個問題,難道攝像頭本身的信息不夠嗎?還是算法挖掘信息的算法能力不足?比如說緊急剎車、在城市道路的時候有頓挫感,其實根源就是它對周圍物體的速度估計、它的角度估計不足,如果是這個原因,那確實激光雷達(dá)要比攝像頭好很多,因為它能夠給你提供更直接的信息,就是攝像頭本身其實也給你信息了,只不過我們的算法不足夠好,能夠挖掘出這樣的信息。

于振華不認(rèn)為視覺欺騙的根本原因是攝像頭的信息不足夠,而是算法不足以處理或挖掘攝像頭給的信息。他認(rèn)為,特別是在特斯拉FSD V12算法的推出后,更證明了當(dāng)算法得到了巨大優(yōu)化,攝像頭信息的挖掘和處理就得到了顯著進(jìn)步。

圖片

于振華前特斯拉AI工程師:今天的FSD V12它不是完美的,有很多的問題,但是我到目前為止沒有發(fā)現(xiàn),哪一個問題是由于傳感器不足。當(dāng)然在V12之前確實很多是由于傳感器不足,但是今天V12是沒有這個問題。

但是,L4的從業(yè)人員就有不同的觀點了。他們認(rèn)為攝像頭就是有天然劣勢的。

張航Cruise 高級主任科學(xué)家:我個人覺得是有難度的,我覺得不一定是算法本身的問題。首先這個攝像頭本身它不像人眼這么復(fù)雜,每個攝像頭它有一些參數(shù),它有它的局限性。然后就是算法本身的話,人不需要知道200米范圍內(nèi)所有的車的動向都在哪里,我只需要知道哪幾輛車、哪幾個行人可能影響到我的車的行為,我只關(guān)注在這幾個點上就夠了,我也不需要很大的算力,可能短期不能夠通過算法來達(dá)到這個高度,我覺得激光雷達(dá)才作為是一個方式的補充吧。

圖片

從事L4研究的張航認(rèn)為攝像頭無法與人眼媲美,主要原因在于攝像頭的焦距和像素是固定的,而人眼的精度非常高而且可以自動變焦。同時人類跳躍式的思考模式,短期內(nèi)無法應(yīng)用在計算機上,所以使用激光雷達(dá)才能補充攝像頭的缺陷。

但市面上也有其它的看法,認(rèn)為除了視覺信息,其他傳感器也會帶來干擾信息。

比如說,激光雷達(dá)也存在自己的缺陷,由于是通過激光測距,在面對一些反射物體、雨雪天氣,或者其他車發(fā)射的激光時,會對激光雷達(dá)帶來干擾,最終造成幻覺效應(yīng)。

圖片

劉冰雁

Kargo軟件負(fù)責(zé)人:

我是非常堅定的純視覺派,這個世界的道路都是給人和視覺設(shè)計的,也就是說除了視覺之外,你采集的信息你可以認(rèn)為都是干擾,當(dāng)然你可以采集,但是那些信息提供的干擾,和它提供的真正價值,到底是什么樣的分布?我覺得在視覺越做越好的情況下,可能反而是完全相反的。

如果能做好多傳感器融合算法,讓激光雷達(dá)與圖像信息互相驗證,或許會讓系統(tǒng)的安全性進(jìn)一步提升。

圖片

侯曉迪提出了一個形象的比喻:兩個同等水平的學(xué)霸在考試時,最終一定是使用計算器的學(xué)霸更輕松,只是經(jīng)濟(jì)基礎(chǔ)決定了買不買得起計算器而已。

選擇純視覺還是以激光雷達(dá)為主的多模態(tài)融合方案,這個辯論已經(jīng)持續(xù)了數(shù)年,并且似乎短期內(nèi)不會有答案?;蛘邔σ恍﹦?chuàng)業(yè)公司來說,什么路線根本也沒那么重要,而成本和經(jīng)濟(jì)賬才是最重要的。

圖片

侯曉迪

前圖森未來創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人:

我曾經(jīng)被認(rèn)為是視覺派的,是因為當(dāng)時買不到激光雷達(dá),所以逼著我們不得不去在視覺上多去找解決方案。

我也不反對激光雷達(dá),激光雷達(dá)什么時候便宜了,我第一個去排隊。現(xiàn)在激光雷達(dá)確實便宜了,所以我也在排隊買激光雷達(dá),對我來講就是,抓住耗子的都是好貓。只要這個設(shè)備的成本足夠低,只要這個設(shè)備能從信息論意義上,給我們提供足夠有價值的信息,我們就該去用它。

圖片

大衛(wèi)

《大小馬聊科技》主播:

中國的自動駕駛?cè)芸斓鼐桶堰@些硬件,比如說激光雷達(dá)、毫米波雷達(dá),做成了白菜價。在這種狀態(tài)下是不是還要像特斯拉那樣做純視覺?其實很多公司現(xiàn)在就在猶豫了,那我是1000多塊錢買一個固態(tài)激光雷達(dá),還是我用純視覺,但是對算力上會造成很大的浪費。

于振華

前特斯拉AI工程師:

我覺得 1000塊錢太貴了,特斯拉連雨量傳感器都不舍得用。

王辰晟

前特斯拉采購總監(jiān):

但是我覺得隨著供應(yīng)鏈的規(guī)模的上升,成本的大幅下降,在激光雷達(dá)能做到和攝像頭相似的價格的時候,特別是在端到端的這樣一個應(yīng)用場景下,是不是純視覺還是一個唯一的路徑?

Chapter 2.3 幡然悔悟?

有意思的是,隨著激光雷達(dá)價格大幅下降,業(yè)內(nèi)開始對特斯拉即將發(fā)布的無人駕駛出租車,是否會用上激光雷達(dá)產(chǎn)生了分歧。

比如張航就認(rèn)為,由于Robotaxi沒有人類干預(yù),而且出了事需要企業(yè)負(fù)責(zé),特斯拉可能會選擇更保守的路線,會用上曾經(jīng)瞧不起的激光雷達(dá)。

圖片

張航

Cruise 高級主任科學(xué)家:

特別是它需要去為企業(yè)事故負(fù)責(zé)的時候,它需要更加的保守,我覺得它可能需要一個額外的傳感器。從這個角度看的話,Tesla可能會采取一些,它之前鄙視的技術(shù),只要這個東西有用,能達(dá)到它L4的目的,它會逐漸去采用的。

最近我們也發(fā)現(xiàn)特斯拉在做這個L4、L5的一些方面也在考慮,他也在跟這個激光雷達(dá)的一些廠商也在聊一些合作,所以說可能就是大家殊途同歸。

今年激光雷達(dá)制造商Luminar發(fā)布了第一季度的財報,顯示特斯拉的訂單達(dá)到了10%,成為了其最大客戶。而于振華卻不以為然,認(rèn)為這并不是什么新鮮事。

圖片

于振華

前特斯拉AI工程師:

首先它肯定不是為了以后量產(chǎn)車上使用激光雷達(dá),因為Luminar第一季度總收入好像是2000萬美元,10%就是200萬,也不夠裝幾個激光雷達(dá)。其實特斯拉的工程車、測試車上裝激光雷達(dá),也不是什么秘密了,那個激光雷達(dá)就是用來采集訓(xùn)練神經(jīng)網(wǎng)絡(luò)的ground truth(真值數(shù)據(jù)),因為人工無法標(biāo)注那個物體距離你有幾米,必須要用專門的傳感器來標(biāo)注。

但是Lumina為什么在第一季度披露這件事,我其實也非常疑惑,因為馬斯克也當(dāng)時就回應(yīng)了,說我們在V12了之后,我們不需要真值數(shù)據(jù)了,因為端到端了,占用網(wǎng)絡(luò)是V11時代的事情,我可能是覺得這里面有一些誤解,就是從財報上或者財務(wù)規(guī)則上。

圖片

雖然目前不確定特斯拉即將推出的Robotaxi是否會搭載激光雷達(dá),但有一點可以確定的是,以目前特斯拉的感知配置,安全性還不足以達(dá)到L4、或者能運營Robotaxi的程度。

劉冰雁

Kargo軟件負(fù)責(zé)人:

我非常確定現(xiàn)有的特斯拉的這幾個車型,都有非常明確的盲區(qū),就是視覺不可達(dá)的盲區(qū),而這個盲區(qū)就造成,如果他想實現(xiàn)最終的,不管是L4、L5的自動駕駛,他的下一款車一定需要解決這個盲區(qū)問題。

特斯拉最新的端到端技術(shù)更新,以及10月將公布的Robotaxi細(xì)節(jié)猜測,我們會在第三和第四章節(jié)再詳細(xì)拆解。接下來我們先探討感知上的另外一個重要的技術(shù):高精地圖。

Chapter 2.4 歷久彌新?

除了激光雷達(dá)外,高精地圖也是自動駕駛感知端中的成本大頭。

高精地圖就是提前采集道路信息,降低感知模塊繪制3D地圖的壓力,并提高準(zhǔn)確性。

說來也巧,最早推行高精地圖的人,正是2005年第二屆DARPA挑戰(zhàn)賽的冠軍——那個頭頂了5臺激光雷達(dá)的車主,Sebastian Thrun。

圖片

在2004年DARPA挑戰(zhàn)賽時,谷歌正在籌備“街景”項目,谷歌創(chuàng)始人Larry Page親自到了比賽現(xiàn)場去物色人才,在2005年比賽結(jié)束后,Page找上了Sebastian Thrun,邀請他加入谷歌,并將繪制地圖的工作交給了他。

在這個過程中,Thrun和Page突然意識到,如果有一種能精確記錄所有車道線、路標(biāo)、信號燈等道路信息的地圖,那將對無人駕駛帶來巨大的幫助,這也奠定了高精地圖在無人駕駛項目中的重要地位。

圖片

但是,制作高精地圖非常昂貴,自動駕駛公司采集高精地圖的平均成本大約為每公里5000美元,如果要覆蓋全美660萬公里的道路,光是采集成本都達(dá)到了33億美元。

再加上地圖頻繁的維護(hù)成本,最終消耗將是無法想象的天文數(shù)字。

現(xiàn)在已經(jīng)有不少車企,紛紛宣傳舍棄高精地圖的無圖方案,轉(zhuǎn)而由車輛在本地構(gòu)建環(huán)境地圖。

我們匿名采訪的一位自動駕駛工程師對此表示,這些對比宣傳更多的是出于商業(yè)模式的考量,對于做Robotaxi生意的企業(yè),用上高精地圖能增加安全性,而對于車企來說,舍棄高精地圖能有效降低成本,所以并不意味著舍棄高精地圖技術(shù)水平就會更高。

圖片

匿名受訪者

L4工程師:

華為還有理想,他們的解決方案是量產(chǎn)車,你的客戶可能是來自各種城市,你要在任何城市都能開。

那現(xiàn)在主流的這個高精地圖,它的這個主要的門檻在于,它需要有一個地圖采集的過程,這個地圖采集的過程實際上是相對來說比較花時間、人力成本的,然后他也需要專業(yè)的這個地圖采集設(shè)備。

所以如果是做這個量產(chǎn)車的生意的話,你不可能說我專門有一個地圖采集車,我把全中國都給你跑遍了,這個是不現(xiàn)實的。

圖片

像特斯拉、華為、理想等L2的公司拋棄高精地圖,是因為無法覆蓋每一條大街小巷。

而Waymo、Cruise這樣做Robotaxi的L4公司選擇繼續(xù)使用高精地圖,因為他們發(fā)現(xiàn),只需要覆蓋一些關(guān)鍵的城市,就能拿下足夠的市場了。

所以,是否使用高精地圖成為了Robotaxi公司的經(jīng)濟(jì)賬問題,而不是技術(shù)問題。

圖片

Minfa Wang

前Waymo高級機器學(xué)習(xí)工程師:

如果你單看Robotaxi的商業(yè)模式,把美國Robotaxi的需求來劃分,你會發(fā)現(xiàn)前五大的城市,它已經(jīng)占有了全美一半的商業(yè)體量,你不需要讓它在全美任何一個地方都能跑,其實你就已經(jīng)有一個相當(dāng)大的一個市場了

類似的,我們采訪的另一位做L4自動駕駛卡車的嘉賓也分享到,他們?nèi)绻獢U(kuò)大運營線路,也就是擴(kuò)充高精地圖的覆蓋范圍,得先衡量這條線路是否賺錢,否則只是賠本賺吆喝。

這么一圈聊下來,在感知端上,業(yè)內(nèi)也沒有統(tǒng)一的看法,就像侯曉迪說的一樣,抓到耗子就是好貓。

接下來,我們重點聊聊大家最近非常關(guān)注的自動駕駛算法層面的最近進(jìn)展,特別是特斯拉近來大肆宣揚的“端到端”,到底是什么技術(shù)呢?它真會改變自動駕駛的行業(yè)方向嗎?

03 算法篇:端到端是自動駕駛的未來嗎?

Chapter 3.1 何為傳統(tǒng)?

傳統(tǒng)的自動駕駛的運行鏈路是先感知、預(yù)測,再規(guī)劃,最后控制。

感知模塊要先通過攝像頭、雷達(dá)等傳感器,識別道路,把這些信息翻譯成機器能看到的語言,傳遞給預(yù)測模塊。

圖片

預(yù)測模型就會判斷其他車輛、行人的行駛軌跡,再把這些信息傳遞給規(guī)劃模塊,去找出風(fēng)險最低的一條路,最后再將控制信號傳遞給操控系統(tǒng)。

這時的算法主要靠“規(guī)則庫”(Rule base)來驅(qū)動,工程師需要不斷寫入各種規(guī)則,比如遇到行人得減速、遇到紅燈要停車等等,為了考慮到各種情況,規(guī)則庫就得盡可能覆蓋到各種可能,相應(yīng)的,代碼也非常非常長了。

圖片

這樣的算法有哪些難點呢?

最大的問題就在于,系統(tǒng)被劃分成了不同的模塊,但模塊之間的信息傳輸會有所損失,如果下游無法拿到全面的信息,預(yù)測和規(guī)劃的難度就會增加。

舉個淺顯易懂的例子,大家都聽過多人傳話游戲吧?10個人,從頭到尾傳遞一句話,但經(jīng)常這段話經(jīng)過多人傳遞的過程,細(xì)節(jié)就會被丟失或篡改,以至于到達(dá)最后一個人那里的時候意思就大相徑庭了。

圖片

類似的,在傳統(tǒng)的Rule-based模式下,如果上一層模塊做得不夠好,會影響到下一層的表現(xiàn)。

另一個缺點是,規(guī)則都是由人工設(shè)計定義的,但有限的規(guī)則無法覆蓋無限可能的現(xiàn)實情況,一些不常見且被容易被忽略的問題,機器難以拿出對應(yīng)的解決方法,這被稱為“長尾問題”(long tail case),也叫“極端情況”(corner case),這就會導(dǎo)致規(guī)?;涞氐某杀痉浅8?。

圖片

于振華

前特斯拉AI工程師:

還有一個就是,在分兩個模塊的時候,我認(rèn)為這個技術(shù)是很難規(guī)模化的,為什么呢?你每次要在一個現(xiàn)實的復(fù)雜場景中新加一個任務(wù),那么你就要新加一些接口,你就要去改變感知、改變控制規(guī)劃。

比如說特斯拉,前幾年NHTSA(美國交通安全管理局)要求特斯拉能夠檢測到緊急車輛,比如說消防車、救護(hù)車之類的,在感知上你就要求要檢測這個,然后控制規(guī)劃也要做這個,這只是一個任務(wù),可能會成百上千這樣的任務(wù),你要去規(guī)?;哉f在華為你們知道有幾千個工程師?大概是6000個工程師,因為你會有這么多不斷涌現(xiàn)的新的任務(wù)出現(xiàn),環(huán)境越復(fù)雜任務(wù)越多,我認(rèn)為這不是一個可規(guī)模化的模式。

大衛(wèi)

《大小馬聊科技》主播:

那這種方法還是比較老套,雖然說看起來,如果做Robotaxi行業(yè)是比較靈的一個方法論,但是它不能滿足乘用車、幾百上千萬臺車將來在全世界的路面上行駛。

那有什么辦法能解決這些問題呢?這時候就得聊聊“端到端”(End To End)了。

Chapter 3.2 新超級明星

在自動駕駛領(lǐng)域內(nèi),目前主流的“端到端”定義是:傳感器收集到的信息,不加任何處理傳遞給基于神經(jīng)網(wǎng)絡(luò)的大模型,并直接輸出控制結(jié)果。

也就是說,不再需要人為編寫各種規(guī)則,讓算法跟著投喂的數(shù)據(jù),自己學(xué)會如何開車。

圖片

于振華

前特斯拉AI工程師:

因為我們?nèi)祟愰_車,我們腦子里并不是去判斷某輛車的速度和角度的,你就是通過一個復(fù)雜環(huán)境來下意識地來做出你的決策。

“讓算法更像人,因為人就是這樣運轉(zhuǎn)的”這樣的思考邏輯,正是馬斯克帶領(lǐng)特斯拉的前進(jìn)方針,也不奇怪,為什么“端到端”技術(shù)在自動駕駛里并不新,但是卻被特斯拉第一個做出來。

圖片

雖然2023年底,特斯拉才第一次將用上了“端到端”的FSD V12推出,但在自動駕駛界,“端到端”并不是什么新鮮事。其實早在2016年,英偉達(dá)就有論文提出了“端到端”。

而現(xiàn)在,“端到端”也分為兩種,一種是把部分模塊替換成神經(jīng)網(wǎng)絡(luò),這種分模塊的“端到端”,只是一種過度形式,并不是完全體,因為各個模塊之間要傳遞信息,依然要定義各種接口,造成數(shù)據(jù)損失。

圖片

在主流觀點中,只有將多個模塊融為了一個整體,去掉了感知層、預(yù)測層、規(guī)劃層這樣的定義,才算純正的“端到端”。

圖片

2023年,CVPR的最佳論文《Planning-oriented Autonomous Driving》就提出,過去的“端到端”要么只運行在部分模塊上,要么需要在系統(tǒng)中插入一些組件。

而這篇論文提出了UniAD的模型架構(gòu),是首次將所有的感知、預(yù)測、規(guī)劃模塊,都整合到了一個基于Transformer的端到端網(wǎng)絡(luò)框架下。

圖片

相比傳統(tǒng)Rule-based(規(guī)則驅(qū)動)的執(zhí)行鏈路,“端到端”不再需要算法工程師去反復(fù)完善規(guī)則庫,所以才有了馬斯克發(fā)布FSD V12時,宣稱得“其代碼從30萬行縮減到了2000行”。

雖然自動駕駛中的“端到端”技術(shù)不是特斯拉發(fā)明的,但特斯拉確實是第一家公司把神經(jīng)網(wǎng)絡(luò)“端到端”技術(shù)做出來并推向主流市場的。

Chapter 3.3 “端到端”優(yōu)勢

2023年11月,特斯發(fā)布了FSD V12第一個測試版本,但僅向選定的員工開放。到了2024年初,特斯拉開始將FSD V12版本開放給美國所有特斯拉車主,每位車主都有1個月的免費試用權(quán)限。

FSD V12推出后,一時間掀起了軒然大波,從用戶體驗上,我們看到大部分的輿論都認(rèn)為比之前的特斯拉FSD功能進(jìn)步非常大,甚至很多人都認(rèn)為,這是自動駕駛界的“ChatGPT Moment”。

圖片

大衛(wèi)

《大小馬聊科技》主播:

真正讓我覺得進(jìn)步的就是規(guī)劃,比如說過環(huán)島,因為這個過環(huán)島其實是在傳統(tǒng)的 planning方向上面是挺難做的,因為你前面的車要加塞,你還要出環(huán)島,這中間如何設(shè)置這種優(yōu)先級?

你即使設(shè)置優(yōu)先級,那你跟前車和旁邊的車保持多少的距離才能出去,這是一個其實挺復(fù)雜的邏輯,但是這個在新版的FSD上表現(xiàn)確實讓我覺得很驚艷,這是給我一個很大的驚喜。

不少體驗過FSD V12的人表示,這個通過人類駕駛數(shù)據(jù)來學(xué)習(xí)的系統(tǒng),駕駛風(fēng)格非常像人,不再有機械式算法帶來的頓挫感。

但與此同時,也有嘉賓在體驗后認(rèn)為,F(xiàn)SD V12還沒有好到讓人非用不可,與L4之間還存在一定差距。

圖片

莫傑麟(Justin)

某家族辦公室首席投資官:

但是它沒有好到GPT4的那個時刻,就沒有好到說這個東西讓我必須得用,或者說我立馬就要用,能夠適合在我的很多的場景里面去用。

Minfa Wang

前Waymo高級機器學(xué)習(xí)工程師:

高速路相對它的表現(xiàn)還是比較好的,但在街道上我覺得基本上每開5英里左右,我覺得就需要人工接管一次。

尤其是在那種我們叫unprotected left turn(無保護(hù)左轉(zhuǎn)),它還是比較容易做一些,讓我覺得不是很安全的行為,如果你MPI(接管里程數(shù))只有5的話,那么顯然離L4的自動駕駛還有一定的距離。

圖片

我自己也體驗了一下FSD 12.4.4的版本,和Waymo這類L4的車輛比起來,目前的特斯拉FSD依然在某些時候會嚇我一跳,或者有時候表現(xiàn)出莫名其妙的行為。

比如在一個右轉(zhuǎn)彎時,由于它的轉(zhuǎn)彎半徑太大,差點撞到對向來車,我不得不手動接管。

圖片

從表現(xiàn)上來看,“端到端”的FSD V12依然還有進(jìn)步的空間,而從工程、運營和管理角度來看,“端到端”的優(yōu)勢有三點:

第一,能讓系統(tǒng)整體更簡潔。去掉規(guī)則庫后,只需要不斷補充訓(xùn)練案例,即可進(jìn)一步提升模型表現(xiàn),維護(hù)和升級成本也將大幅降低。

第二,節(jié)省人力成本。由于“端到端”不再依賴繁雜的規(guī)則庫,因此不必配備龐大的開發(fā)團(tuán)隊,甚至不再依賴專家。

第三,能實現(xiàn)更大范圍的推廣。大家可以看到目前L4的公司只能在限定地區(qū)運行,拋開法規(guī)牌照的限制,是因為非“端到端”方案,需要針對具體地區(qū)做優(yōu)化,而“端到端”各路況都能應(yīng)對,更像一個“通用”的司機,這也是為什么特斯拉FSD V12被比作ChatGPT的原因之一。

圖片

既然“端到端”有如此多的優(yōu)勢,它能解決目前自動駕駛面臨的技術(shù)問題嗎?

Chapter 3.4 黑盒模型

我們采訪的不少嘉賓認(rèn)為,在現(xiàn)階段下,進(jìn)一步發(fā)展端到端的路線是自動領(lǐng)域內(nèi)公認(rèn)的趨勢,但依然存在不少問題。

張航

Cruise 高級主任科學(xué)家:

這個方向我覺得是一個正確的方向,我們不可能通過一直在以打補丁的方式,來做出一個規(guī)?;腖4方案,只不過是目前我覺得要快速地達(dá)到一個L4的方案,也不可能完全通過端到端的方案,所以現(xiàn)在是一個矛盾的一個時間點。

為什么目前的端到端距離L4還有一定差距,這就要從它的不確定性說起了。

端到端就像一個黑盒子,這就會帶來較多的不確定性。

圖片

比如工程師無法驗證,輸入的數(shù)據(jù)案例是否已經(jīng)被模型學(xué)會;或者遇到bug時,無法定位到底是哪個環(huán)節(jié)出了問題;又或者新加入的數(shù)據(jù),是否會導(dǎo)致已學(xué)到的知識被遺忘或覆蓋,這種情況被稱為Catastrophic Forgetting(災(zāi)難性遺忘)。

比如特斯拉FSD 12.4.2的版本,內(nèi)部早就做出來了,結(jié)果大規(guī)模推送卻花了很長時間,馬斯克就解釋到,因為投喂的數(shù)據(jù)中有很多人工接管的視頻,反而讓模型的水平出現(xiàn)了倒退。

圖片

由于端到端的本質(zhì)是模仿,如果遇到的情況恰好在訓(xùn)練數(shù)據(jù)中有相識的案例,那就會表現(xiàn)的非常好,但如果超出了已有的參考案例,則會表現(xiàn)更差,也就是說,端到端對訓(xùn)練數(shù)據(jù)的數(shù)量和案例豐富性要求非常高。

張航

Cruise高級主任科學(xué)家:

就是在交通路口紅燈的時候,一定不闖紅燈,就這么一個簡單的規(guī)則,如果是heuristic-based(啟發(fā)式的算法),我們可以很簡單的就是一條 if else,就可以達(dá)到這樣一個效果。

但是如果是一個完全端到端的模型,它是完全全靠學(xué)習(xí)的,最后他要學(xué)的這樣一條路的話其實是非常難的。所以就是我覺得短時間內(nèi)端到端對L4,還是有很大的差距,我覺得這個算法是不成熟。

劉冰雁

Kargo軟件負(fù)責(zé)人:

你沒有一些硬性規(guī)則,就是所有的、你設(shè)置的這種不能做的事情,他都可以嘗試去做一下。于是就會就是在模擬里邊,也出現(xiàn)了很多一頭撞過去的現(xiàn)象。

同時,端到端帶來的不可解釋性,也是一些人擔(dān)心的問題。

所謂的不可解釋性,就是改變其算法模型中的任意一個權(quán)重、結(jié)點或?qū)訑?shù),都會讓模型的表現(xiàn)產(chǎn)生難以預(yù)測的影響,即使是模型的設(shè)計者和訓(xùn)練者,也無法知道中間的推理過程。

圖片

與之相對的,是可解釋性,比如在Rule-based的模式下,工程師已經(jīng)寫入了“當(dāng)檢測到塑料袋飄過時可以繼續(xù)行駛”的規(guī)則,那我們就不用擔(dān)心遇到這種情況會突然來個急剎車。

劉冰雁

Kargo軟件負(fù)責(zé)人:

大家看到V12里,他在屏幕上的顯示也好了很多,但他所謂的端到端,這個顯示從哪兒來的?如果這個顯示來自于,原來的這個模型,那牽扯的一個問題就是,我們實際上在這個模型里邊已經(jīng)加了一層,人為定義的接口,使得你從可以從這個模型中的某一個位置,提取出這個信息。

另一種我覺得是更恐怖的事情,就是這個顯示是完全走了另外的一個路徑,那也意味著車上顯示前面有一輛卡車,不代表控制的模型真的認(rèn)為前面有一輛卡車,如果這一點被破壞了,那將是非常非??植赖?,你看到顯示它前面有一輛車,但你不確定它不會撞上去。

他是否是真正的端到端,我實際有點懷疑,或者說我也許不是懷疑,但是這里邊可能有別的危險性。

圖片

王辰晟

前特斯拉采購總監(jiān):

那對于像自動駕駛這個,對于安全系數(shù)要求這么高的行業(yè)來說,端到端模型帶來的這個不可解釋性,是不是硬幣的另外一面?

由于目前特斯拉還未公布FSD V12的技術(shù),我們并不知道FSD是否采用了多模塊的策略,但我們發(fā)現(xiàn),已經(jīng)有車主遇到了畫面顯示與實際行為不符的案例。

比如車輛構(gòu)建的鳥瞰圖顯示前方有人,卻沒有表現(xiàn)出任何剎車的痕跡,而是繼續(xù)行駛過去,所幸只是感知端的誤檢,沒有發(fā)生事故。

圖片

這個案例雖然可以看出在端到端算法下,上層錯誤不會影響下層決策的優(yōu)勢,但也表現(xiàn)了規(guī)劃層偶爾會不認(rèn)可感知層的結(jié)果,印證了劉冰雁的擔(dān)憂。

不可解釋性是否會成為阻礙端到端發(fā)展的一大難題呢?接下來就是我們看到的第三個沖突。

于振華

前特斯拉AI工程師:

我認(rèn)為是這樣的,AI一個很嚴(yán)重的問題,就是它的理論性是遠(yuǎn)遠(yuǎn)滯后的。

AI沒有告訴你這個一定行、一定不行。所以說它是一個實驗性的學(xué)科,它不算科學(xué),就需要一個大量的驗證。

V12是全面碾壓V11,所以這是結(jié)果說話的一個問題。那難道你還去會想,端到端有這個不可解釋性那一頓什么什么,因為它全面碾壓,那就是一個非常無腦的,你就應(yīng)該往下走。

于振華認(rèn)為,AI作為實驗性的學(xué)科,只要結(jié)果達(dá)到了預(yù)期,就能證明方向正確,應(yīng)該繼續(xù)推進(jìn)。而侯曉迪表示,V12表現(xiàn)大幅領(lǐng)先于V11,只是因為V11的基礎(chǔ)太差,其表現(xiàn)距離真正的無人駕駛還比較遠(yuǎn)。

圖片

王辰晟

前特斯拉采購總監(jiān):

如果真的是Full Self Driving,以L5來去限制的話,它一定要過監(jiān)管部門,他們需要有一個可解釋性或者可預(yù)測性。

再加上對于,世界上有這么多的城市,就在美國來說,它每個城市,它可能都會有不一樣的法律法規(guī)。這個車無論從硬件軟件上,需不需要去去適應(yīng)當(dāng)?shù)氐姆煞ㄒ?guī),變成了這個能不能規(guī)?;囊粋€很大的問題。

端到端不能通過人為定義規(guī)則,來對模型進(jìn)行微調(diào),所以能否適應(yīng)不同法規(guī),成了端到端規(guī)模化的挑戰(zhàn)。

同樣影響規(guī)模化的因素,在于端到端對數(shù)據(jù)量和傳感器更敏感。

Chapter 3.5 前途未卜

劉冰雁

Kargo軟件負(fù)責(zé)人:

端到端有一個非常嚴(yán)酷的問題,就是它對傳感器會更敏感,也就是說當(dāng)你換了傳感器或者換了傳感器的分布的時候,你這個模型可以說得完全重頭訓(xùn)。

從另一個角度來說,工程上不可接受,或者說我們無法想象之后全世界路上跑的都是同一款車。

一旦更改了傳感器分布,會讓模型失效,得重新開始訓(xùn)練,為了訓(xùn)練又得采集大量數(shù)據(jù),必然會帶來巨大的成本。

美國財經(jīng)媒體CNBC報道稱,到2023年初,為了訓(xùn)練特斯拉FSD,就用到了1000多萬段特斯拉車主的駕駛視頻。

圖片

而且這1000多萬段訓(xùn)練數(shù)據(jù)可不是隨便用的,必須是駕駛水平比較高的人類司機,否則只會讓模型的水平越來越差。

所以訓(xùn)練端到端模型不光要求數(shù)據(jù)多,還得經(jīng)過復(fù)雜的篩選,這個過程中又得消耗大量人力。對于賣車多的特斯拉可能不在話下,但對于其他公司來說,數(shù)據(jù)來源卻成了大問題。

大衛(wèi)

《大小馬聊科技》主播:

很多主機廠因為盲目的追求特斯拉那套方法論,然后導(dǎo)致有點被忽悠瘸了,就是這套東西確實不適合90%的主機廠。

圖片

那是否意味著,其他廠商真的無法進(jìn)入端到端的領(lǐng)域呢?

雖然英偉達(dá)和特斯拉都是通過純視覺來驅(qū)動端到端算法運行,但端到端實際上也可以接受多模態(tài)輸入。

目前常用的毫米波雷達(dá)、激光雷達(dá)、超聲波雷達(dá)等傳感器,在車輛上的位置相對固定,特別是激光雷達(dá),基本都在車頂上,所以采用多模態(tài)接入的端到端,就能利用不同車型采集的數(shù)據(jù),來訓(xùn)練模型,而且留給主機廠的設(shè)計空間也會更大。

圖片

又這么一圈聊下來,每種算法都各有千秋,哪種方式能帶我們徹底走向全無人駕駛的未來依然不明朗。

張航

Cruise高級主任科學(xué)家:

我不覺得在當(dāng)下有任何一個算法能,又簡單又規(guī)?;?,然后又能達(dá)到L4標(biāo)準(zhǔn),我覺得這個算法本身是不存在的,這個領(lǐng)域是一個大家一起去推動的。我是非常樂觀,大家會殊途同歸,雖然大家會稍稍有一點點不同的偏差。

Chapter 3.6 無計可施

不論是哪種算法,最終都要面對的是長尾問題。

在傳統(tǒng)Rule-based(規(guī)則驅(qū)動)模型下,編寫規(guī)則庫(rule base)需要龐大的團(tuán)隊耗費大量精力,還很難做到面面俱到,那有了端到端后,長尾問題能得到解決嗎?

Minfa Wang

前Waymo高級機器學(xué)習(xí)工程師:

他解決了常規(guī)的的案例,但是長尾的問題我覺得依舊會存在。

Minfa認(rèn)為,自動駕駛系統(tǒng)的容錯率很低,如果要將一個黑盒系統(tǒng)用在L4上,必須引入其他安全機制,但這樣又回到了Rule-based模式下的成本問題。

自動駕駛算法會先到仿真系統(tǒng)里練習(xí),那仿真訓(xùn)練可以解決一定的長尾問題嗎?

圖片

張航

Cruise高級主任科學(xué)家:

目前還沒有一個很好的方案能通過,生成的模擬數(shù)據(jù),能夠?qū)ξ覀兊默F(xiàn)實中的道路表現(xiàn)有真正有很大的幫助。

Minfa Wang

前Waymo高級機器學(xué)習(xí)工程師:

像自動駕駛或者機器人的領(lǐng)域里邊,環(huán)境是非常非常復(fù)雜的,你要仿真的話,仿真的不只是你自己,這個車會未來怎么動,主要困難的是,當(dāng)你自己的車的軌跡發(fā)生變化的時候,你會影響周圍的所有的車和人的行為也發(fā)生變化。

如何能夠很好的仿真,然后并且能夠不出現(xiàn) distribution shift(分布偏移),我覺得依舊是一個開放性話題。

圖片

既然虛擬的場景無法完全模擬出現(xiàn)實的種種可能,那是否意味著,目前業(yè)內(nèi)沒有辦法解決長尾問題,只能靠漫長地積累經(jīng)驗?zāi)兀?/p>

匿名受訪者

L4工程師:

某種程度上是吧,但你也不用做到,就是特別完美,對吧?人類也不完美,你只要做得比人好就行。人也有他的事故率,你只要做比這個好就夠了。

侯曉迪

前圖森未來創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人:

我覺得長尾問題其實也是一個偽命題,就這個很高興你們提出來這個事情。

在我看來長尾問題,比如說我見到鱷魚怎么處理?我見著大象怎么處理?我見著一個固定翼飛機停在高速公路上,我怎么處理?

實際上對于很多長尾問題,我們是讓它包裹成一大類問題的,見到我沒見過的物體,怎么處理?如果你把它包裹成了一個更總體的的一類問題的話,它是很好處理的。

比如說我們曾經(jīng)就見到有固定翼飛機停在高速公路上,那我們的處理方案很簡單,停車呀對吧?

圖片

長尾問題到底是不是偽命題,或者它是不是需要解決的問題?這個話題可能大家都有自己的答案。而長尾問題對應(yīng)的是,L4甚至L5何時才能大范圍鋪開,所以接下來,我們就來看看L2與L4的激烈沖突。

04 特斯拉Robotaxi能成嗎:L2與L4的沖突

Chapter 4.1 “成不了”

我們在馬斯克宣布推遲發(fā)布Robotaxi之前就詢問了各位嘉賓的看法,大家對此的看法非常統(tǒng)一,那就是今年特斯拉的無人出租車是不可能上線的。

圖片

大家觀點如此統(tǒng)一的最大原因,就在于目前特斯拉已有的車型,達(dá)不到L4標(biāo)準(zhǔn)的無人出租車。

劉冰雁

Kargo軟件負(fù)責(zé)人:

我非常確定現(xiàn)有的特斯拉的這幾個車型,都有非常明確的盲區(qū),如果他想實現(xiàn)最終的,不管是L4、 L5的自動駕駛,他的下一款車,一定需要解決這個盲區(qū)問題。而解決這盲區(qū)問題又回到我們現(xiàn)剛才說的,它一定要調(diào)整相機傳感器的位置,而傳調(diào)整這些位置立刻帶來的結(jié)果就是,就是之前這個模型會完全失效。

就是現(xiàn)有的車從視覺攝像頭架構(gòu)的角度來說,是不可能達(dá)到,可以完全無人接管的FSD的。從這個角度來說,它必須有一款新的硬件出現(xiàn)。

圖片

張航

Cruise高級主任科學(xué)家:

從傳感器角度,它需要引入一些冗余,這個可能之前L2是不需要的。

在業(yè)內(nèi)人士不看好的情況下,是什么原因讓馬斯克對推出Robotaxi如此有信心呢?

于振華

前特斯拉AI工程師:

我認(rèn)為主要還是這個FSD V12的幾個技術(shù)突破,作為馬斯克他的這個性格,他看到FSD V12今天這一刻,在他的這個計劃里面,他就覺得Robotaxi應(yīng)該必須擺上日程了。

所以,F(xiàn)SD V12能讓特斯拉走向L4,承擔(dān)起Robotaxi的重任嗎?和目前已有的Waymo或Cruise比起來差距有多大呢?

圖片

在采訪侯曉迪這個問題時,他的回答讓我們看到了行業(yè)內(nèi)的另外一派觀點:那就是L2和L4的差距非常遠(yuǎn)。

Chapter 4.2 “差很遠(yuǎn)”

侯曉迪

前圖森未來創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人:

首先特斯拉做的不是無人駕駛,我們今天談的是去掉人、并且由軟件開發(fā)公司承擔(dān)責(zé)任的方案,才叫無人駕駛,咱們不要虛假宣傳, FSD叫輔助駕駛,它不是無人駕駛,所以做的不是一個東西。

目前被廣泛應(yīng)用在車企上的都是L2輔助駕駛,比如特斯拉、小米、華為、小鵬等等,而像Waymo、Cruise、百度等做無人出租車的企業(yè),則采用的是L4高度自動駕駛,拋開書面的概念定義,這兩者之間的本質(zhì)區(qū)別就在于,誰來承擔(dān)責(zé)任。

圖片

侯曉迪

前圖森未來創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人:

去掉人并且由軟件開發(fā)公司承擔(dān)責(zé)任的方案才叫無人駕駛。講一笑話,如果特斯拉撞死人了怎么辦?對Elon Musk來講,its not their business(這不關(guān)他的事)。

所以,如果特斯拉想做無人出租車,就必須做到自己承擔(dān)責(zé)任。那輔助駕駛和自動駕駛之間,從技術(shù)上又有哪些區(qū)別呢?

侯曉迪

前圖森未來創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人:

L4無人駕駛要解決的核心問題是什么?是安全性,是冗余,是當(dāng)一個系統(tǒng)的每一個模塊都有可能會失效的時候,這個系統(tǒng)還仍然能夠保障最底線的安全。這件事是L4最難和最關(guān)鍵的部分。在掙錢之前它要先解決安全性的問題,但是這件事情根本不是特斯拉的設(shè)計宗旨。

另外一位L4自動駕駛研究員也分別從硬件與軟件的角度,分析了L2和L4之間的區(qū)別。

張航

Cruise高級主任科學(xué)家:

L4 的解決方案,首先是我們有比較強的傳感器,這個可能很難在L2場景里面去用,起碼不會用這么高精度的激光雷達(dá)。

從算法角度可能L2公司更注重的是一些,更有效能把成本降得很低,然后不需要特別昂貴的傳感器,然后可能更少的計算就可以達(dá)到這樣一個效果。這些L2其實不需要考慮這種百萬分之一的案例。

那我們L4追求的是,一百萬英里以上才需要引入一次的人類遠(yuǎn)程協(xié)助,就是達(dá)到追求的是這種百萬分之一的案例。

圖片

總結(jié)一下:L4的方案,采用的傳感器精度更高,芯片的算力會更充足,能應(yīng)對的場景也更全面。

但L2的方案中,首要考慮的是成本問題,所以硬件水平會稍低一些,同時算法為了適應(yīng)水平稍低的硬件,會更注重效率而非安全,這樣L2的接管頻率會比L4高很多。

那么,像特斯拉這樣做L2的公司,能否通過提升硬件與軟件,來達(dá)到L4的效果呢?

Chapter 4.3 “兩碼事”

侯曉迪

前圖森未來創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人:

我不支持L2緩慢進(jìn)化到L4、L5的路線,我覺得這件事情又是一個帶有很強這種外推屬性的偽命題。

假以時日,海豚能不能進(jìn)化出文明來?我覺得有可能,但是我們要知道地球文明已經(jīng)容不下海豚去進(jìn)化了,因為已經(jīng)有公司做出來了,我這個公司就是為了能夠最快速的把L4落地。我落了地以后就沒你什么事兒了,對吧?智人拿起標(biāo)槍的時候就沒有海豚去產(chǎn)生文明什么事兒了。

圖片

在侯曉迪看來,目前已有的L4公司已經(jīng)筑起了技術(shù)壁壘,激烈競爭下,不會給到L2進(jìn)化的機會,同時,也有人認(rèn)為,這并不意味著L4的技術(shù)比L2更高級,只是大家針對的場景不同。

于振華

前特斯拉AI工程師:

如果說,真的L4比L2像大家所想象的,在技術(shù)上是絕對的高級、絕對的領(lǐng)先。那么我想請問為什么L4技術(shù)不能夠直接降級成了L2?

事實上是在過去的很多年里面,L4公司被由于他這個收入的壓力,他都在幫車廠去做L2,但是他不能夠簡單的降級,他基本上都要重新開發(fā)。

那我們也知道在美國,GM(通用汽車)是擁有Cruise L4公司,福特是擁有Argo AI,也是個L4公司,為什么GM不能使用Cruise的技術(shù)在它的量產(chǎn)車上?為什么福特不能使用Argo AI的L4技術(shù)在它量產(chǎn)車上?所以說L4并不是比L2絕對高級,在技術(shù)難度上,我不認(rèn)為你做L4了,你就顯得非常高級。

圖片

為什么L4的技術(shù)不能直接降級成L2使用呢?張航對此解釋道,由于L4所采用的硬件規(guī)格更高,而L2的算法必須適應(yīng)規(guī)格更低的傳感器和算力較少的處理器,才導(dǎo)致兩者的技術(shù)無法直接遷移。

就像一位建筑設(shè)計師,被沒收了電腦,只給他精度不高的尺子和紙筆,他也得重新適應(yīng)新的畫圖方式。

張航

Cruise高級主任科學(xué)家:

就是你前面說的就是這個計算量的問題,L2的解決方案,不可能去支持,我們在一個車的后備箱里面放一個超級計算機,這是一個不現(xiàn)實的一個解決方案。

同時,張航對L2與L4的技術(shù)比較,也表現(xiàn)出了更開放的心態(tài),L2鋪設(shè)的范圍更廣,需要面對的場景更多,只需要解決基本問題即可。而L4的覆蓋范圍有限,但更關(guān)注各種細(xì)節(jié)。所以兩者之間各有優(yōu)劣。

圖片

張航

Cruise高級主任科學(xué)家:

L4本身不能通過簡單的去把已有的系統(tǒng)做簡化,去掉冗余,去作為一個L2的解決方案,但反之亦然。L2做想做到L4的標(biāo)準(zhǔn),這是一個很長的時間去磨練,你需要很長時間的數(shù)據(jù)收集,然后去積累經(jīng)驗。

但我覺得并不是說,我們的技術(shù)路線,或者技術(shù)深度會比L2高,我覺得這個不一定,L4可能很多并不是說很尖端的一些算法,但是就是通過一些,很細(xì)心的去設(shè)計去解決這些很細(xì)節(jié)的一些長尾問題。

你會支持哪個觀點呢?可以留言告訴我們。在我們的采訪中,這個問題在不同的人眼里,都會有自己的答案。

圖片

于振華

前特斯拉L2工程師:

我覺得就是在普通的大眾,甚至一些L4公司會給大家灌輸一個概念,就是L4技術(shù)優(yōu)于L3,然后優(yōu)于L2。我覺得這個是一個脫開它的限制場景,來誤導(dǎo)大眾,因為L4 的現(xiàn)在的Robotaxi,它是有很大限制場景的,必須在特定的這個地區(qū),比如Waymo,它只能在一個地區(qū)一個地區(qū)的運行。

邵旭輝

Foothill Ventures管理合伙投資人:

我個人覺得就是還是會看好L4的公司,因為就是這個邏輯上來說,L4是可以降維打擊的,而L2的話,如果你只做這個,你是升不上去的,或者說非常非常難升上去。

圖片

匿名受訪者

L4工程師:

其實在技術(shù)棧上我覺得就沒有說一個特別難的一個門檻,就比如說某家公司,他今天可以宣稱,做L2的公司,那也許明天他加了一些新的技術(shù),也可以去做L4,對吧?這完全看他應(yīng)用采用什么技術(shù),或者說有一些什么新的科技突破,對吧?

侯曉迪

前圖森未來創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人:

輔助駕駛跟無人駕駛是兩個東西。

圖片

由于文章長度的原因,我們把自動駕駛的運營、商業(yè)化、以及宏觀經(jīng)濟(jì)對自動駕駛行業(yè)的影響,投資人如何看待特斯拉股價等等內(nèi)容放在了下期,很快就會上線,大家別忘了關(guān)注我們。

查看原圖 22K

 

 
本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

端到端能帶來新春天?深扒分裂的無人駕駛行業(yè)

從技術(shù)角度深扒自動駕駛行業(yè)。

文 | 硅谷101

無人駕駛, 真的能落地嗎?

人類研發(fā)無人駕駛,已經(jīng)消耗了無數(shù)的時間與資金。到了今天,事故頻發(fā)、燒錢無止境、進(jìn)度緩慢,引發(fā)了眾多不解與質(zhì)疑:無人駕駛是否是一場騙局,甚至,行業(yè)已死?

這個行業(yè),真的是我見過最分裂的行業(yè)之一,各個派系觀點各不相同、互相瞧不上、互相指責(zé),神仙打架之后,又各干各的,各踩各的坑,各倒各的閉,各花各的錢。

圖片

結(jié)果就是,在2024年之前,無人駕駛走入了寒冬。

但這個寒冬,隨著馬斯克號稱“通過端到端AI技術(shù)“重構(gòu)了特斯拉的FSD,并宣布要進(jìn)軍無人駕駛出租車(Robotaxi),似乎又出現(xiàn)了一些新的生機和希望。

端到端能否帶領(lǐng)我們走向真正的無人駕駛呢?自動駕駛中定義的L2與L4之間真的相隔甚遠(yuǎn)嗎?如今無人駕駛技術(shù)發(fā)展到哪一步了?純視覺與多模態(tài)之爭,真的沒有盡頭嗎?

圖片

為了探究無人駕駛行業(yè)到底發(fā)展如何,我們歷時3個月,采訪了全球市場上最前沿的無人駕駛公司,包括Waymo,Cruise的前核心員工、前特斯拉FSD工程師、一二級市場投資人等多達(dá)十多位自動駕駛界的專業(yè)人士。

我們發(fā)現(xiàn)這個行業(yè)依然割裂,很多技術(shù)路線業(yè)內(nèi)并沒有達(dá)成共識。

這個系列文章我們將從感知、算法、產(chǎn)品、運營、經(jīng)濟(jì)、法律等多個角度,全方位一起來探討如今的自動駕駛技術(shù)的最前沿現(xiàn)狀。

圖片

本期文章我們先全面聊聊技術(shù),下期會從運營與經(jīng)濟(jì)角度解析。

01 自動駕駛是什么?

我們先來做個概念區(qū)分:無人駕駛和自動駕駛的區(qū)別是什么?

根據(jù)智能化程度的不同,自動駕駛被分為L0到L5共6個等級:

L0為無自動化,L1指駕駛援助,L2指部分自動駕駛,L3指有條件自動駕駛,L4指高度自動駕駛,L5指完全自動駕駛,即真正的無人駕駛。

我們之后提到的Waymo和Cruise,以及侯曉迪做的無人卡車都屬于L4級別,特斯拉FSD屬于L2級別,但馬斯克號稱的特斯拉Robotaxi,卻是L4級別的。

圖片

所以目前在這個產(chǎn)業(yè)中,人們說無人駕駛,一般指的是L4的公司,因為現(xiàn)在還沒人能做到L5;而一般說自動駕駛,則是包括了所有級別,是更泛的一個稱呼。

我們再來看看自動駕駛產(chǎn)業(yè)是怎么開始的。

盡管早在100年前人類就開始探索無人駕駛,但公認(rèn)現(xiàn)代自動駕駛正式起源于2004年美國軍方的DARPA挑戰(zhàn)賽。

經(jīng)過了幾年發(fā)展后,形成了感知(Perception)-規(guī)劃(Planning)-控制(Control)這樣的運行鏈路。其中感知模塊包含了感知(Perception)和預(yù)測(Prediction)。

圖片

感知層需要通過雷達(dá)、攝像頭等傳感器獲取前方路況,并預(yù)測物體的運動軌跡、實時生成一張周圍環(huán)境的地圖,也就是我們在車機上常見的鳥瞰圖,再將這些信息傳遞給規(guī)劃層,由系統(tǒng)根據(jù)算法來決定速度與方向,最終再下放到執(zhí)控制層,控制對應(yīng)的油門、制動和轉(zhuǎn)向機。

后來隨著AI的興起,人們開始讓機器自己去學(xué)習(xí)如何開車,先讓算法到仿真的數(shù)字世界里開車,等仿真訓(xùn)練到一定程度,就可以開始上路測試。

圖片

而最近這兩年,隨著特斯拉將“端到端”方案應(yīng)用在FSD V12的版本中,感知-規(guī)劃-控制的運行鏈路也開始改變。

接下來我們著重來聊聊自動駕駛產(chǎn)業(yè)在感知這一層面的兩派技術(shù)路線:純視覺派與多模態(tài)融合派,這兩個派別在過去很多年一直在打架,各說各的好,我們來講講它們的恩怨情仇。

02 感知篇:純視覺Vs.多模態(tài)融合

目前汽車主流的感知方案分為兩種。

第一種是不少公司采用的多模態(tài)融合感知方案,會將激光雷達(dá)、毫米波雷達(dá)、超聲波傳感器、攝像頭、慣性測量單元等傳感器采集的信息進(jìn)行匯總?cè)诤?,來判斷周圍環(huán)境。

圖片

回到我們上一章說到的DARPA挑戰(zhàn)賽,2004年第一屆中,雖然沒有任何一輛車完賽,但一位名叫David Hall的參賽者在比賽中意識到了激光雷達(dá)的重要性,在比賽結(jié)束后,他創(chuàng)辦的Velodyne開始從做音響轉(zhuǎn)向做激光雷達(dá)。

圖片

當(dāng)時的激光雷達(dá)還是單線掃描,只能對一個方向測距,而David Hall發(fā)明了64線機械旋轉(zhuǎn)式激光雷達(dá),可以360度掃描環(huán)境。

后來他帶著這臺旋轉(zhuǎn)式的激光雷達(dá),參加2005年第二屆的DARPA挑戰(zhàn)賽。終于有臺頭頂著5個激光雷達(dá)的車完賽并取得了冠軍。

但這并不是David Hall的車……他的車輛中途因機械故障退賽了,不過他的表現(xiàn)確實讓大家意識到了,激光雷達(dá)、是個“外掛”。

到了2007年第三屆DARPA挑戰(zhàn)賽中,完賽的6只隊伍中,5只都用到了Velodyne的激光雷達(dá)。至此,激光雷達(dá)開始成為自動駕駛界的香餑餑,Velodyne也成為了車載激光雷達(dá)的龍頭企業(yè)。

圖片

張航

Cruise高級主任科學(xué)家:

現(xiàn)在不管是Cruise、Waymo,基于L4在做的一些解決方案,都是基于激光雷達(dá)為主了,它可以直接拿到位置信息,這樣的話對于算法本身的要求,就是相對會比較低一些,然后很多可以直接通過傳感器來拿到這些3D的信息,這樣對系統(tǒng)的魯棒性,還有對于安全性,一些長尾問題會比較輕松。

另一個技術(shù)派別就是以特斯拉為代表的純視覺方案了,只靠攝像頭采集環(huán)境信息,然后利用神經(jīng)網(wǎng)絡(luò),將2D的視頻轉(zhuǎn)換成3D的地圖,其中就包含了周邊環(huán)境的障礙物、預(yù)測的軌跡、速度等信息。

圖片

相比激光雷達(dá)方案直接生成3D地圖,純視覺多了一道2D轉(zhuǎn)3D的過程,在張航看來,純靠“視頻”這種缺乏3D信息的訓(xùn)練數(shù)據(jù),會給安全性帶來一定挑戰(zhàn)。

張航

Cruise高級主任科學(xué)家:

它需要大量的訓(xùn)練數(shù)據(jù)去學(xué)出缺乏3D的信息,這樣的話缺乏監(jiān)管,因為沒有一個參照物,很難去拿到一個現(xiàn)實中的一個ground truth(真值數(shù)據(jù)),如果完全通過這種半監(jiān)督的學(xué)習(xí)方法,想要達(dá)到系統(tǒng)的一個安全性,我覺得是比較難的。我覺得特斯拉主要目的還是控制成本,包括修改一些換擋的機制,都是為了節(jié)約一些零部件方面成本。

圖片

但在特斯拉的前AI工程師于振華看來,選擇純視覺并不只是節(jié)約成本那么簡單。

Chapter 2.1 多即是亂?

圖片

于振華

前特斯拉AI工程師:

其實特斯拉原來的自動駕駛系統(tǒng)是有毫米波雷達(dá),傳感器融合其實是一個很復(fù)雜的算法,就是它做出來了并不一定好。

我當(dāng)時有一輛車,是最后一批有毫米波雷達(dá)的車。在2023年的時候,我的車進(jìn)行了一次保養(yǎng),服務(wù)工程師就自動把我的雷達(dá)給去除了。這一件事情的結(jié)論是什么呢?去掉毫米外雷達(dá)不是為了成本,因為我的車已經(jīng)有毫米波雷達(dá)在那放著了。根源的原因是純視覺已經(jīng)勝過毫米波雷達(dá)了。所以特斯拉是在做減法,把一些他認(rèn)為不需要的冗余的事情去掉,或者說累贅的事情去掉。

于振華認(rèn)為,如果融合算法做不好,或者通過純視覺就已經(jīng)能達(dá)到足夠好的效果了,那更多傳感器反而成為累贅。

接受我們采訪的很多L4從業(yè)者也同意,信息并不是越多越好,反之,傳感器收集到的太多額外的無效信息會加劇算法的負(fù)擔(dān)。

那么馬斯克一直倡導(dǎo)的光靠攝像頭這一種傳感器,到底行不行呢?

Chapter 2.2 少即是多?

馬斯克說,既然人類僅通過兩只眼睛就能開車,那么汽車也可以僅憑圖像信息來實現(xiàn)自動駕駛,但業(yè)內(nèi)對于純視覺派的擔(dān)心一直是,視覺欺騙,在過去這確實帶來了不少事故。

比如特斯拉將白色卡車識別為天空、把月亮識別為黃燈,又或者理想將廣告牌上內(nèi)容識別為汽車,導(dǎo)致高速急剎追尾等事故。

這些案例是否意味著,少了深度信息的純視覺方案,存在先天性不足呢?

于振華前特斯拉AI工程師:多個信息流確實能提供更多的信息,但是你要解答一個問題,難道攝像頭本身的信息不夠嗎?還是算法挖掘信息的算法能力不足?比如說緊急剎車、在城市道路的時候有頓挫感,其實根源就是它對周圍物體的速度估計、它的角度估計不足,如果是這個原因,那確實激光雷達(dá)要比攝像頭好很多,因為它能夠給你提供更直接的信息,就是攝像頭本身其實也給你信息了,只不過我們的算法不足夠好,能夠挖掘出這樣的信息。

于振華不認(rèn)為視覺欺騙的根本原因是攝像頭的信息不足夠,而是算法不足以處理或挖掘攝像頭給的信息。他認(rèn)為,特別是在特斯拉FSD V12算法的推出后,更證明了當(dāng)算法得到了巨大優(yōu)化,攝像頭信息的挖掘和處理就得到了顯著進(jìn)步。

圖片

于振華前特斯拉AI工程師:今天的FSD V12它不是完美的,有很多的問題,但是我到目前為止沒有發(fā)現(xiàn),哪一個問題是由于傳感器不足。當(dāng)然在V12之前確實很多是由于傳感器不足,但是今天V12是沒有這個問題。

但是,L4的從業(yè)人員就有不同的觀點了。他們認(rèn)為攝像頭就是有天然劣勢的。

張航Cruise 高級主任科學(xué)家:我個人覺得是有難度的,我覺得不一定是算法本身的問題。首先這個攝像頭本身它不像人眼這么復(fù)雜,每個攝像頭它有一些參數(shù),它有它的局限性。然后就是算法本身的話,人不需要知道200米范圍內(nèi)所有的車的動向都在哪里,我只需要知道哪幾輛車、哪幾個行人可能影響到我的車的行為,我只關(guān)注在這幾個點上就夠了,我也不需要很大的算力,可能短期不能夠通過算法來達(dá)到這個高度,我覺得激光雷達(dá)才作為是一個方式的補充吧。

圖片

從事L4研究的張航認(rèn)為攝像頭無法與人眼媲美,主要原因在于攝像頭的焦距和像素是固定的,而人眼的精度非常高而且可以自動變焦。同時人類跳躍式的思考模式,短期內(nèi)無法應(yīng)用在計算機上,所以使用激光雷達(dá)才能補充攝像頭的缺陷。

但市面上也有其它的看法,認(rèn)為除了視覺信息,其他傳感器也會帶來干擾信息。

比如說,激光雷達(dá)也存在自己的缺陷,由于是通過激光測距,在面對一些反射物體、雨雪天氣,或者其他車發(fā)射的激光時,會對激光雷達(dá)帶來干擾,最終造成幻覺效應(yīng)。

圖片

劉冰雁

Kargo軟件負(fù)責(zé)人:

我是非常堅定的純視覺派,這個世界的道路都是給人和視覺設(shè)計的,也就是說除了視覺之外,你采集的信息你可以認(rèn)為都是干擾,當(dāng)然你可以采集,但是那些信息提供的干擾,和它提供的真正價值,到底是什么樣的分布?我覺得在視覺越做越好的情況下,可能反而是完全相反的。

如果能做好多傳感器融合算法,讓激光雷達(dá)與圖像信息互相驗證,或許會讓系統(tǒng)的安全性進(jìn)一步提升。

圖片

侯曉迪提出了一個形象的比喻:兩個同等水平的學(xué)霸在考試時,最終一定是使用計算器的學(xué)霸更輕松,只是經(jīng)濟(jì)基礎(chǔ)決定了買不買得起計算器而已。

選擇純視覺還是以激光雷達(dá)為主的多模態(tài)融合方案,這個辯論已經(jīng)持續(xù)了數(shù)年,并且似乎短期內(nèi)不會有答案?;蛘邔σ恍﹦?chuàng)業(yè)公司來說,什么路線根本也沒那么重要,而成本和經(jīng)濟(jì)賬才是最重要的。

圖片

侯曉迪

前圖森未來創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人:

我曾經(jīng)被認(rèn)為是視覺派的,是因為當(dāng)時買不到激光雷達(dá),所以逼著我們不得不去在視覺上多去找解決方案。

我也不反對激光雷達(dá),激光雷達(dá)什么時候便宜了,我第一個去排隊?,F(xiàn)在激光雷達(dá)確實便宜了,所以我也在排隊買激光雷達(dá),對我來講就是,抓住耗子的都是好貓。只要這個設(shè)備的成本足夠低,只要這個設(shè)備能從信息論意義上,給我們提供足夠有價值的信息,我們就該去用它。

圖片

大衛(wèi)

《大小馬聊科技》主播:

中國的自動駕駛?cè)芸斓鼐桶堰@些硬件,比如說激光雷達(dá)、毫米波雷達(dá),做成了白菜價。在這種狀態(tài)下是不是還要像特斯拉那樣做純視覺?其實很多公司現(xiàn)在就在猶豫了,那我是1000多塊錢買一個固態(tài)激光雷達(dá),還是我用純視覺,但是對算力上會造成很大的浪費。

于振華

前特斯拉AI工程師:

我覺得 1000塊錢太貴了,特斯拉連雨量傳感器都不舍得用。

王辰晟

前特斯拉采購總監(jiān):

但是我覺得隨著供應(yīng)鏈的規(guī)模的上升,成本的大幅下降,在激光雷達(dá)能做到和攝像頭相似的價格的時候,特別是在端到端的這樣一個應(yīng)用場景下,是不是純視覺還是一個唯一的路徑?

Chapter 2.3 幡然悔悟?

有意思的是,隨著激光雷達(dá)價格大幅下降,業(yè)內(nèi)開始對特斯拉即將發(fā)布的無人駕駛出租車,是否會用上激光雷達(dá)產(chǎn)生了分歧。

比如張航就認(rèn)為,由于Robotaxi沒有人類干預(yù),而且出了事需要企業(yè)負(fù)責(zé),特斯拉可能會選擇更保守的路線,會用上曾經(jīng)瞧不起的激光雷達(dá)。

圖片

張航

Cruise 高級主任科學(xué)家:

特別是它需要去為企業(yè)事故負(fù)責(zé)的時候,它需要更加的保守,我覺得它可能需要一個額外的傳感器。從這個角度看的話,Tesla可能會采取一些,它之前鄙視的技術(shù),只要這個東西有用,能達(dá)到它L4的目的,它會逐漸去采用的。

最近我們也發(fā)現(xiàn)特斯拉在做這個L4、L5的一些方面也在考慮,他也在跟這個激光雷達(dá)的一些廠商也在聊一些合作,所以說可能就是大家殊途同歸。

今年激光雷達(dá)制造商Luminar發(fā)布了第一季度的財報,顯示特斯拉的訂單達(dá)到了10%,成為了其最大客戶。而于振華卻不以為然,認(rèn)為這并不是什么新鮮事。

圖片

于振華

前特斯拉AI工程師:

首先它肯定不是為了以后量產(chǎn)車上使用激光雷達(dá),因為Luminar第一季度總收入好像是2000萬美元,10%就是200萬,也不夠裝幾個激光雷達(dá)。其實特斯拉的工程車、測試車上裝激光雷達(dá),也不是什么秘密了,那個激光雷達(dá)就是用來采集訓(xùn)練神經(jīng)網(wǎng)絡(luò)的ground truth(真值數(shù)據(jù)),因為人工無法標(biāo)注那個物體距離你有幾米,必須要用專門的傳感器來標(biāo)注。

但是Lumina為什么在第一季度披露這件事,我其實也非常疑惑,因為馬斯克也當(dāng)時就回應(yīng)了,說我們在V12了之后,我們不需要真值數(shù)據(jù)了,因為端到端了,占用網(wǎng)絡(luò)是V11時代的事情,我可能是覺得這里面有一些誤解,就是從財報上或者財務(wù)規(guī)則上。

圖片

雖然目前不確定特斯拉即將推出的Robotaxi是否會搭載激光雷達(dá),但有一點可以確定的是,以目前特斯拉的感知配置,安全性還不足以達(dá)到L4、或者能運營Robotaxi的程度。

劉冰雁

Kargo軟件負(fù)責(zé)人:

我非常確定現(xiàn)有的特斯拉的這幾個車型,都有非常明確的盲區(qū),就是視覺不可達(dá)的盲區(qū),而這個盲區(qū)就造成,如果他想實現(xiàn)最終的,不管是L4、L5的自動駕駛,他的下一款車一定需要解決這個盲區(qū)問題。

特斯拉最新的端到端技術(shù)更新,以及10月將公布的Robotaxi細(xì)節(jié)猜測,我們會在第三和第四章節(jié)再詳細(xì)拆解。接下來我們先探討感知上的另外一個重要的技術(shù):高精地圖。

Chapter 2.4 歷久彌新?

除了激光雷達(dá)外,高精地圖也是自動駕駛感知端中的成本大頭。

高精地圖就是提前采集道路信息,降低感知模塊繪制3D地圖的壓力,并提高準(zhǔn)確性。

說來也巧,最早推行高精地圖的人,正是2005年第二屆DARPA挑戰(zhàn)賽的冠軍——那個頭頂了5臺激光雷達(dá)的車主,Sebastian Thrun。

圖片

在2004年DARPA挑戰(zhàn)賽時,谷歌正在籌備“街景”項目,谷歌創(chuàng)始人Larry Page親自到了比賽現(xiàn)場去物色人才,在2005年比賽結(jié)束后,Page找上了Sebastian Thrun,邀請他加入谷歌,并將繪制地圖的工作交給了他。

在這個過程中,Thrun和Page突然意識到,如果有一種能精確記錄所有車道線、路標(biāo)、信號燈等道路信息的地圖,那將對無人駕駛帶來巨大的幫助,這也奠定了高精地圖在無人駕駛項目中的重要地位。

圖片

但是,制作高精地圖非常昂貴,自動駕駛公司采集高精地圖的平均成本大約為每公里5000美元,如果要覆蓋全美660萬公里的道路,光是采集成本都達(dá)到了33億美元。

再加上地圖頻繁的維護(hù)成本,最終消耗將是無法想象的天文數(shù)字。

現(xiàn)在已經(jīng)有不少車企,紛紛宣傳舍棄高精地圖的無圖方案,轉(zhuǎn)而由車輛在本地構(gòu)建環(huán)境地圖。

我們匿名采訪的一位自動駕駛工程師對此表示,這些對比宣傳更多的是出于商業(yè)模式的考量,對于做Robotaxi生意的企業(yè),用上高精地圖能增加安全性,而對于車企來說,舍棄高精地圖能有效降低成本,所以并不意味著舍棄高精地圖技術(shù)水平就會更高。

圖片

匿名受訪者

L4工程師:

華為還有理想,他們的解決方案是量產(chǎn)車,你的客戶可能是來自各種城市,你要在任何城市都能開。

那現(xiàn)在主流的這個高精地圖,它的這個主要的門檻在于,它需要有一個地圖采集的過程,這個地圖采集的過程實際上是相對來說比較花時間、人力成本的,然后他也需要專業(yè)的這個地圖采集設(shè)備。

所以如果是做這個量產(chǎn)車的生意的話,你不可能說我專門有一個地圖采集車,我把全中國都給你跑遍了,這個是不現(xiàn)實的。

圖片

像特斯拉、華為、理想等L2的公司拋棄高精地圖,是因為無法覆蓋每一條大街小巷。

而Waymo、Cruise這樣做Robotaxi的L4公司選擇繼續(xù)使用高精地圖,因為他們發(fā)現(xiàn),只需要覆蓋一些關(guān)鍵的城市,就能拿下足夠的市場了。

所以,是否使用高精地圖成為了Robotaxi公司的經(jīng)濟(jì)賬問題,而不是技術(shù)問題。

圖片

Minfa Wang

前Waymo高級機器學(xué)習(xí)工程師:

如果你單看Robotaxi的商業(yè)模式,把美國Robotaxi的需求來劃分,你會發(fā)現(xiàn)前五大的城市,它已經(jīng)占有了全美一半的商業(yè)體量,你不需要讓它在全美任何一個地方都能跑,其實你就已經(jīng)有一個相當(dāng)大的一個市場了

類似的,我們采訪的另一位做L4自動駕駛卡車的嘉賓也分享到,他們?nèi)绻獢U(kuò)大運營線路,也就是擴(kuò)充高精地圖的覆蓋范圍,得先衡量這條線路是否賺錢,否則只是賠本賺吆喝。

這么一圈聊下來,在感知端上,業(yè)內(nèi)也沒有統(tǒng)一的看法,就像侯曉迪說的一樣,抓到耗子就是好貓。

接下來,我們重點聊聊大家最近非常關(guān)注的自動駕駛算法層面的最近進(jìn)展,特別是特斯拉近來大肆宣揚的“端到端”,到底是什么技術(shù)呢?它真會改變自動駕駛的行業(yè)方向嗎?

03 算法篇:端到端是自動駕駛的未來嗎?

Chapter 3.1 何為傳統(tǒng)?

傳統(tǒng)的自動駕駛的運行鏈路是先感知、預(yù)測,再規(guī)劃,最后控制。

感知模塊要先通過攝像頭、雷達(dá)等傳感器,識別道路,把這些信息翻譯成機器能看到的語言,傳遞給預(yù)測模塊。

圖片

預(yù)測模型就會判斷其他車輛、行人的行駛軌跡,再把這些信息傳遞給規(guī)劃模塊,去找出風(fēng)險最低的一條路,最后再將控制信號傳遞給操控系統(tǒng)。

這時的算法主要靠“規(guī)則庫”(Rule base)來驅(qū)動,工程師需要不斷寫入各種規(guī)則,比如遇到行人得減速、遇到紅燈要停車等等,為了考慮到各種情況,規(guī)則庫就得盡可能覆蓋到各種可能,相應(yīng)的,代碼也非常非常長了。

圖片

這樣的算法有哪些難點呢?

最大的問題就在于,系統(tǒng)被劃分成了不同的模塊,但模塊之間的信息傳輸會有所損失,如果下游無法拿到全面的信息,預(yù)測和規(guī)劃的難度就會增加。

舉個淺顯易懂的例子,大家都聽過多人傳話游戲吧?10個人,從頭到尾傳遞一句話,但經(jīng)常這段話經(jīng)過多人傳遞的過程,細(xì)節(jié)就會被丟失或篡改,以至于到達(dá)最后一個人那里的時候意思就大相徑庭了。

圖片

類似的,在傳統(tǒng)的Rule-based模式下,如果上一層模塊做得不夠好,會影響到下一層的表現(xiàn)。

另一個缺點是,規(guī)則都是由人工設(shè)計定義的,但有限的規(guī)則無法覆蓋無限可能的現(xiàn)實情況,一些不常見且被容易被忽略的問題,機器難以拿出對應(yīng)的解決方法,這被稱為“長尾問題”(long tail case),也叫“極端情況”(corner case),這就會導(dǎo)致規(guī)?;涞氐某杀痉浅8?。

圖片

于振華

前特斯拉AI工程師:

還有一個就是,在分兩個模塊的時候,我認(rèn)為這個技術(shù)是很難規(guī)模化的,為什么呢?你每次要在一個現(xiàn)實的復(fù)雜場景中新加一個任務(wù),那么你就要新加一些接口,你就要去改變感知、改變控制規(guī)劃。

比如說特斯拉,前幾年NHTSA(美國交通安全管理局)要求特斯拉能夠檢測到緊急車輛,比如說消防車、救護(hù)車之類的,在感知上你就要求要檢測這個,然后控制規(guī)劃也要做這個,這只是一個任務(wù),可能會成百上千這樣的任務(wù),你要去規(guī)模化,所以說在華為你們知道有幾千個工程師?大概是6000個工程師,因為你會有這么多不斷涌現(xiàn)的新的任務(wù)出現(xiàn),環(huán)境越復(fù)雜任務(wù)越多,我認(rèn)為這不是一個可規(guī)?;哪J?。

大衛(wèi)

《大小馬聊科技》主播:

那這種方法還是比較老套,雖然說看起來,如果做Robotaxi行業(yè)是比較靈的一個方法論,但是它不能滿足乘用車、幾百上千萬臺車將來在全世界的路面上行駛。

那有什么辦法能解決這些問題呢?這時候就得聊聊“端到端”(End To End)了。

Chapter 3.2 新超級明星

在自動駕駛領(lǐng)域內(nèi),目前主流的“端到端”定義是:傳感器收集到的信息,不加任何處理傳遞給基于神經(jīng)網(wǎng)絡(luò)的大模型,并直接輸出控制結(jié)果。

也就是說,不再需要人為編寫各種規(guī)則,讓算法跟著投喂的數(shù)據(jù),自己學(xué)會如何開車。

圖片

于振華

前特斯拉AI工程師:

因為我們?nèi)祟愰_車,我們腦子里并不是去判斷某輛車的速度和角度的,你就是通過一個復(fù)雜環(huán)境來下意識地來做出你的決策。

“讓算法更像人,因為人就是這樣運轉(zhuǎn)的”這樣的思考邏輯,正是馬斯克帶領(lǐng)特斯拉的前進(jìn)方針,也不奇怪,為什么“端到端”技術(shù)在自動駕駛里并不新,但是卻被特斯拉第一個做出來。

圖片

雖然2023年底,特斯拉才第一次將用上了“端到端”的FSD V12推出,但在自動駕駛界,“端到端”并不是什么新鮮事。其實早在2016年,英偉達(dá)就有論文提出了“端到端”。

而現(xiàn)在,“端到端”也分為兩種,一種是把部分模塊替換成神經(jīng)網(wǎng)絡(luò),這種分模塊的“端到端”,只是一種過度形式,并不是完全體,因為各個模塊之間要傳遞信息,依然要定義各種接口,造成數(shù)據(jù)損失。

圖片

在主流觀點中,只有將多個模塊融為了一個整體,去掉了感知層、預(yù)測層、規(guī)劃層這樣的定義,才算純正的“端到端”。

圖片

2023年,CVPR的最佳論文《Planning-oriented Autonomous Driving》就提出,過去的“端到端”要么只運行在部分模塊上,要么需要在系統(tǒng)中插入一些組件。

而這篇論文提出了UniAD的模型架構(gòu),是首次將所有的感知、預(yù)測、規(guī)劃模塊,都整合到了一個基于Transformer的端到端網(wǎng)絡(luò)框架下。

圖片

相比傳統(tǒng)Rule-based(規(guī)則驅(qū)動)的執(zhí)行鏈路,“端到端”不再需要算法工程師去反復(fù)完善規(guī)則庫,所以才有了馬斯克發(fā)布FSD V12時,宣稱得“其代碼從30萬行縮減到了2000行”。

雖然自動駕駛中的“端到端”技術(shù)不是特斯拉發(fā)明的,但特斯拉確實是第一家公司把神經(jīng)網(wǎng)絡(luò)“端到端”技術(shù)做出來并推向主流市場的。

Chapter 3.3 “端到端”優(yōu)勢

2023年11月,特斯發(fā)布了FSD V12第一個測試版本,但僅向選定的員工開放。到了2024年初,特斯拉開始將FSD V12版本開放給美國所有特斯拉車主,每位車主都有1個月的免費試用權(quán)限。

FSD V12推出后,一時間掀起了軒然大波,從用戶體驗上,我們看到大部分的輿論都認(rèn)為比之前的特斯拉FSD功能進(jìn)步非常大,甚至很多人都認(rèn)為,這是自動駕駛界的“ChatGPT Moment”。

圖片

大衛(wèi)

《大小馬聊科技》主播:

真正讓我覺得進(jìn)步的就是規(guī)劃,比如說過環(huán)島,因為這個過環(huán)島其實是在傳統(tǒng)的 planning方向上面是挺難做的,因為你前面的車要加塞,你還要出環(huán)島,這中間如何設(shè)置這種優(yōu)先級?

你即使設(shè)置優(yōu)先級,那你跟前車和旁邊的車保持多少的距離才能出去,這是一個其實挺復(fù)雜的邏輯,但是這個在新版的FSD上表現(xiàn)確實讓我覺得很驚艷,這是給我一個很大的驚喜。

不少體驗過FSD V12的人表示,這個通過人類駕駛數(shù)據(jù)來學(xué)習(xí)的系統(tǒng),駕駛風(fēng)格非常像人,不再有機械式算法帶來的頓挫感。

但與此同時,也有嘉賓在體驗后認(rèn)為,F(xiàn)SD V12還沒有好到讓人非用不可,與L4之間還存在一定差距。

圖片

莫傑麟(Justin)

某家族辦公室首席投資官:

但是它沒有好到GPT4的那個時刻,就沒有好到說這個東西讓我必須得用,或者說我立馬就要用,能夠適合在我的很多的場景里面去用。

Minfa Wang

前Waymo高級機器學(xué)習(xí)工程師:

高速路相對它的表現(xiàn)還是比較好的,但在街道上我覺得基本上每開5英里左右,我覺得就需要人工接管一次。

尤其是在那種我們叫unprotected left turn(無保護(hù)左轉(zhuǎn)),它還是比較容易做一些,讓我覺得不是很安全的行為,如果你MPI(接管里程數(shù))只有5的話,那么顯然離L4的自動駕駛還有一定的距離。

圖片

我自己也體驗了一下FSD 12.4.4的版本,和Waymo這類L4的車輛比起來,目前的特斯拉FSD依然在某些時候會嚇我一跳,或者有時候表現(xiàn)出莫名其妙的行為。

比如在一個右轉(zhuǎn)彎時,由于它的轉(zhuǎn)彎半徑太大,差點撞到對向來車,我不得不手動接管。

圖片

從表現(xiàn)上來看,“端到端”的FSD V12依然還有進(jìn)步的空間,而從工程、運營和管理角度來看,“端到端”的優(yōu)勢有三點:

第一,能讓系統(tǒng)整體更簡潔。去掉規(guī)則庫后,只需要不斷補充訓(xùn)練案例,即可進(jìn)一步提升模型表現(xiàn),維護(hù)和升級成本也將大幅降低。

第二,節(jié)省人力成本。由于“端到端”不再依賴繁雜的規(guī)則庫,因此不必配備龐大的開發(fā)團(tuán)隊,甚至不再依賴專家。

第三,能實現(xiàn)更大范圍的推廣。大家可以看到目前L4的公司只能在限定地區(qū)運行,拋開法規(guī)牌照的限制,是因為非“端到端”方案,需要針對具體地區(qū)做優(yōu)化,而“端到端”各路況都能應(yīng)對,更像一個“通用”的司機,這也是為什么特斯拉FSD V12被比作ChatGPT的原因之一。

圖片

既然“端到端”有如此多的優(yōu)勢,它能解決目前自動駕駛面臨的技術(shù)問題嗎?

Chapter 3.4 黑盒模型

我們采訪的不少嘉賓認(rèn)為,在現(xiàn)階段下,進(jìn)一步發(fā)展端到端的路線是自動領(lǐng)域內(nèi)公認(rèn)的趨勢,但依然存在不少問題。

張航

Cruise 高級主任科學(xué)家:

這個方向我覺得是一個正確的方向,我們不可能通過一直在以打補丁的方式,來做出一個規(guī)?;腖4方案,只不過是目前我覺得要快速地達(dá)到一個L4的方案,也不可能完全通過端到端的方案,所以現(xiàn)在是一個矛盾的一個時間點。

為什么目前的端到端距離L4還有一定差距,這就要從它的不確定性說起了。

端到端就像一個黑盒子,這就會帶來較多的不確定性。

圖片

比如工程師無法驗證,輸入的數(shù)據(jù)案例是否已經(jīng)被模型學(xué)會;或者遇到bug時,無法定位到底是哪個環(huán)節(jié)出了問題;又或者新加入的數(shù)據(jù),是否會導(dǎo)致已學(xué)到的知識被遺忘或覆蓋,這種情況被稱為Catastrophic Forgetting(災(zāi)難性遺忘)。

比如特斯拉FSD 12.4.2的版本,內(nèi)部早就做出來了,結(jié)果大規(guī)模推送卻花了很長時間,馬斯克就解釋到,因為投喂的數(shù)據(jù)中有很多人工接管的視頻,反而讓模型的水平出現(xiàn)了倒退。

圖片

由于端到端的本質(zhì)是模仿,如果遇到的情況恰好在訓(xùn)練數(shù)據(jù)中有相識的案例,那就會表現(xiàn)的非常好,但如果超出了已有的參考案例,則會表現(xiàn)更差,也就是說,端到端對訓(xùn)練數(shù)據(jù)的數(shù)量和案例豐富性要求非常高。

張航

Cruise高級主任科學(xué)家:

就是在交通路口紅燈的時候,一定不闖紅燈,就這么一個簡單的規(guī)則,如果是heuristic-based(啟發(fā)式的算法),我們可以很簡單的就是一條 if else,就可以達(dá)到這樣一個效果。

但是如果是一個完全端到端的模型,它是完全全靠學(xué)習(xí)的,最后他要學(xué)的這樣一條路的話其實是非常難的。所以就是我覺得短時間內(nèi)端到端對L4,還是有很大的差距,我覺得這個算法是不成熟。

劉冰雁

Kargo軟件負(fù)責(zé)人:

你沒有一些硬性規(guī)則,就是所有的、你設(shè)置的這種不能做的事情,他都可以嘗試去做一下。于是就會就是在模擬里邊,也出現(xiàn)了很多一頭撞過去的現(xiàn)象。

同時,端到端帶來的不可解釋性,也是一些人擔(dān)心的問題。

所謂的不可解釋性,就是改變其算法模型中的任意一個權(quán)重、結(jié)點或?qū)訑?shù),都會讓模型的表現(xiàn)產(chǎn)生難以預(yù)測的影響,即使是模型的設(shè)計者和訓(xùn)練者,也無法知道中間的推理過程。

圖片

與之相對的,是可解釋性,比如在Rule-based的模式下,工程師已經(jīng)寫入了“當(dāng)檢測到塑料袋飄過時可以繼續(xù)行駛”的規(guī)則,那我們就不用擔(dān)心遇到這種情況會突然來個急剎車。

劉冰雁

Kargo軟件負(fù)責(zé)人:

大家看到V12里,他在屏幕上的顯示也好了很多,但他所謂的端到端,這個顯示從哪兒來的?如果這個顯示來自于,原來的這個模型,那牽扯的一個問題就是,我們實際上在這個模型里邊已經(jīng)加了一層,人為定義的接口,使得你從可以從這個模型中的某一個位置,提取出這個信息。

另一種我覺得是更恐怖的事情,就是這個顯示是完全走了另外的一個路徑,那也意味著車上顯示前面有一輛卡車,不代表控制的模型真的認(rèn)為前面有一輛卡車,如果這一點被破壞了,那將是非常非??植赖?,你看到顯示它前面有一輛車,但你不確定它不會撞上去。

他是否是真正的端到端,我實際有點懷疑,或者說我也許不是懷疑,但是這里邊可能有別的危險性。

圖片

王辰晟

前特斯拉采購總監(jiān):

那對于像自動駕駛這個,對于安全系數(shù)要求這么高的行業(yè)來說,端到端模型帶來的這個不可解釋性,是不是硬幣的另外一面?

由于目前特斯拉還未公布FSD V12的技術(shù),我們并不知道FSD是否采用了多模塊的策略,但我們發(fā)現(xiàn),已經(jīng)有車主遇到了畫面顯示與實際行為不符的案例。

比如車輛構(gòu)建的鳥瞰圖顯示前方有人,卻沒有表現(xiàn)出任何剎車的痕跡,而是繼續(xù)行駛過去,所幸只是感知端的誤檢,沒有發(fā)生事故。

圖片

這個案例雖然可以看出在端到端算法下,上層錯誤不會影響下層決策的優(yōu)勢,但也表現(xiàn)了規(guī)劃層偶爾會不認(rèn)可感知層的結(jié)果,印證了劉冰雁的擔(dān)憂。

不可解釋性是否會成為阻礙端到端發(fā)展的一大難題呢?接下來就是我們看到的第三個沖突。

于振華

前特斯拉AI工程師:

我認(rèn)為是這樣的,AI一個很嚴(yán)重的問題,就是它的理論性是遠(yuǎn)遠(yuǎn)滯后的。

AI沒有告訴你這個一定行、一定不行。所以說它是一個實驗性的學(xué)科,它不算科學(xué),就需要一個大量的驗證。

V12是全面碾壓V11,所以這是結(jié)果說話的一個問題。那難道你還去會想,端到端有這個不可解釋性那一頓什么什么,因為它全面碾壓,那就是一個非常無腦的,你就應(yīng)該往下走。

于振華認(rèn)為,AI作為實驗性的學(xué)科,只要結(jié)果達(dá)到了預(yù)期,就能證明方向正確,應(yīng)該繼續(xù)推進(jìn)。而侯曉迪表示,V12表現(xiàn)大幅領(lǐng)先于V11,只是因為V11的基礎(chǔ)太差,其表現(xiàn)距離真正的無人駕駛還比較遠(yuǎn)。

圖片

王辰晟

前特斯拉采購總監(jiān):

如果真的是Full Self Driving,以L5來去限制的話,它一定要過監(jiān)管部門,他們需要有一個可解釋性或者可預(yù)測性。

再加上對于,世界上有這么多的城市,就在美國來說,它每個城市,它可能都會有不一樣的法律法規(guī)。這個車無論從硬件軟件上,需不需要去去適應(yīng)當(dāng)?shù)氐姆煞ㄒ?guī),變成了這個能不能規(guī)模化的一個很大的問題。

端到端不能通過人為定義規(guī)則,來對模型進(jìn)行微調(diào),所以能否適應(yīng)不同法規(guī),成了端到端規(guī)模化的挑戰(zhàn)。

同樣影響規(guī)?;囊蛩?,在于端到端對數(shù)據(jù)量和傳感器更敏感。

Chapter 3.5 前途未卜

劉冰雁

Kargo軟件負(fù)責(zé)人:

端到端有一個非常嚴(yán)酷的問題,就是它對傳感器會更敏感,也就是說當(dāng)你換了傳感器或者換了傳感器的分布的時候,你這個模型可以說得完全重頭訓(xùn)。

從另一個角度來說,工程上不可接受,或者說我們無法想象之后全世界路上跑的都是同一款車。

一旦更改了傳感器分布,會讓模型失效,得重新開始訓(xùn)練,為了訓(xùn)練又得采集大量數(shù)據(jù),必然會帶來巨大的成本。

美國財經(jīng)媒體CNBC報道稱,到2023年初,為了訓(xùn)練特斯拉FSD,就用到了1000多萬段特斯拉車主的駕駛視頻。

圖片

而且這1000多萬段訓(xùn)練數(shù)據(jù)可不是隨便用的,必須是駕駛水平比較高的人類司機,否則只會讓模型的水平越來越差。

所以訓(xùn)練端到端模型不光要求數(shù)據(jù)多,還得經(jīng)過復(fù)雜的篩選,這個過程中又得消耗大量人力。對于賣車多的特斯拉可能不在話下,但對于其他公司來說,數(shù)據(jù)來源卻成了大問題。

大衛(wèi)

《大小馬聊科技》主播:

很多主機廠因為盲目的追求特斯拉那套方法論,然后導(dǎo)致有點被忽悠瘸了,就是這套東西確實不適合90%的主機廠。

圖片

那是否意味著,其他廠商真的無法進(jìn)入端到端的領(lǐng)域呢?

雖然英偉達(dá)和特斯拉都是通過純視覺來驅(qū)動端到端算法運行,但端到端實際上也可以接受多模態(tài)輸入。

目前常用的毫米波雷達(dá)、激光雷達(dá)、超聲波雷達(dá)等傳感器,在車輛上的位置相對固定,特別是激光雷達(dá),基本都在車頂上,所以采用多模態(tài)接入的端到端,就能利用不同車型采集的數(shù)據(jù),來訓(xùn)練模型,而且留給主機廠的設(shè)計空間也會更大。

圖片

又這么一圈聊下來,每種算法都各有千秋,哪種方式能帶我們徹底走向全無人駕駛的未來依然不明朗。

張航

Cruise高級主任科學(xué)家:

我不覺得在當(dāng)下有任何一個算法能,又簡單又規(guī)?;?,然后又能達(dá)到L4標(biāo)準(zhǔn),我覺得這個算法本身是不存在的,這個領(lǐng)域是一個大家一起去推動的。我是非常樂觀,大家會殊途同歸,雖然大家會稍稍有一點點不同的偏差。

Chapter 3.6 無計可施

不論是哪種算法,最終都要面對的是長尾問題。

在傳統(tǒng)Rule-based(規(guī)則驅(qū)動)模型下,編寫規(guī)則庫(rule base)需要龐大的團(tuán)隊耗費大量精力,還很難做到面面俱到,那有了端到端后,長尾問題能得到解決嗎?

Minfa Wang

前Waymo高級機器學(xué)習(xí)工程師:

他解決了常規(guī)的的案例,但是長尾的問題我覺得依舊會存在。

Minfa認(rèn)為,自動駕駛系統(tǒng)的容錯率很低,如果要將一個黑盒系統(tǒng)用在L4上,必須引入其他安全機制,但這樣又回到了Rule-based模式下的成本問題。

自動駕駛算法會先到仿真系統(tǒng)里練習(xí),那仿真訓(xùn)練可以解決一定的長尾問題嗎?

圖片

張航

Cruise高級主任科學(xué)家:

目前還沒有一個很好的方案能通過,生成的模擬數(shù)據(jù),能夠?qū)ξ覀兊默F(xiàn)實中的道路表現(xiàn)有真正有很大的幫助。

Minfa Wang

前Waymo高級機器學(xué)習(xí)工程師:

像自動駕駛或者機器人的領(lǐng)域里邊,環(huán)境是非常非常復(fù)雜的,你要仿真的話,仿真的不只是你自己,這個車會未來怎么動,主要困難的是,當(dāng)你自己的車的軌跡發(fā)生變化的時候,你會影響周圍的所有的車和人的行為也發(fā)生變化。

如何能夠很好的仿真,然后并且能夠不出現(xiàn) distribution shift(分布偏移),我覺得依舊是一個開放性話題。

圖片

既然虛擬的場景無法完全模擬出現(xiàn)實的種種可能,那是否意味著,目前業(yè)內(nèi)沒有辦法解決長尾問題,只能靠漫長地積累經(jīng)驗?zāi)兀?/p>

匿名受訪者

L4工程師:

某種程度上是吧,但你也不用做到,就是特別完美,對吧?人類也不完美,你只要做得比人好就行。人也有他的事故率,你只要做比這個好就夠了。

侯曉迪

前圖森未來創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人:

我覺得長尾問題其實也是一個偽命題,就這個很高興你們提出來這個事情。

在我看來長尾問題,比如說我見到鱷魚怎么處理?我見著大象怎么處理?我見著一個固定翼飛機停在高速公路上,我怎么處理?

實際上對于很多長尾問題,我們是讓它包裹成一大類問題的,見到我沒見過的物體,怎么處理?如果你把它包裹成了一個更總體的的一類問題的話,它是很好處理的。

比如說我們曾經(jīng)就見到有固定翼飛機停在高速公路上,那我們的處理方案很簡單,停車呀對吧?

圖片

長尾問題到底是不是偽命題,或者它是不是需要解決的問題?這個話題可能大家都有自己的答案。而長尾問題對應(yīng)的是,L4甚至L5何時才能大范圍鋪開,所以接下來,我們就來看看L2與L4的激烈沖突。

04 特斯拉Robotaxi能成嗎:L2與L4的沖突

Chapter 4.1 “成不了”

我們在馬斯克宣布推遲發(fā)布Robotaxi之前就詢問了各位嘉賓的看法,大家對此的看法非常統(tǒng)一,那就是今年特斯拉的無人出租車是不可能上線的。

圖片

大家觀點如此統(tǒng)一的最大原因,就在于目前特斯拉已有的車型,達(dá)不到L4標(biāo)準(zhǔn)的無人出租車。

劉冰雁

Kargo軟件負(fù)責(zé)人:

我非常確定現(xiàn)有的特斯拉的這幾個車型,都有非常明確的盲區(qū),如果他想實現(xiàn)最終的,不管是L4、 L5的自動駕駛,他的下一款車,一定需要解決這個盲區(qū)問題。而解決這盲區(qū)問題又回到我們現(xiàn)剛才說的,它一定要調(diào)整相機傳感器的位置,而傳調(diào)整這些位置立刻帶來的結(jié)果就是,就是之前這個模型會完全失效。

就是現(xiàn)有的車從視覺攝像頭架構(gòu)的角度來說,是不可能達(dá)到,可以完全無人接管的FSD的。從這個角度來說,它必須有一款新的硬件出現(xiàn)。

圖片

張航

Cruise高級主任科學(xué)家:

從傳感器角度,它需要引入一些冗余,這個可能之前L2是不需要的。

在業(yè)內(nèi)人士不看好的情況下,是什么原因讓馬斯克對推出Robotaxi如此有信心呢?

于振華

前特斯拉AI工程師:

我認(rèn)為主要還是這個FSD V12的幾個技術(shù)突破,作為馬斯克他的這個性格,他看到FSD V12今天這一刻,在他的這個計劃里面,他就覺得Robotaxi應(yīng)該必須擺上日程了。

所以,F(xiàn)SD V12能讓特斯拉走向L4,承擔(dān)起Robotaxi的重任嗎?和目前已有的Waymo或Cruise比起來差距有多大呢?

圖片

在采訪侯曉迪這個問題時,他的回答讓我們看到了行業(yè)內(nèi)的另外一派觀點:那就是L2和L4的差距非常遠(yuǎn)。

Chapter 4.2 “差很遠(yuǎn)”

侯曉迪

前圖森未來創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人:

首先特斯拉做的不是無人駕駛,我們今天談的是去掉人、并且由軟件開發(fā)公司承擔(dān)責(zé)任的方案,才叫無人駕駛,咱們不要虛假宣傳, FSD叫輔助駕駛,它不是無人駕駛,所以做的不是一個東西。

目前被廣泛應(yīng)用在車企上的都是L2輔助駕駛,比如特斯拉、小米、華為、小鵬等等,而像Waymo、Cruise、百度等做無人出租車的企業(yè),則采用的是L4高度自動駕駛,拋開書面的概念定義,這兩者之間的本質(zhì)區(qū)別就在于,誰來承擔(dān)責(zé)任。

圖片

侯曉迪

前圖森未來創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人:

去掉人并且由軟件開發(fā)公司承擔(dān)責(zé)任的方案才叫無人駕駛。講一笑話,如果特斯拉撞死人了怎么辦?對Elon Musk來講,its not their business(這不關(guān)他的事)。

所以,如果特斯拉想做無人出租車,就必須做到自己承擔(dān)責(zé)任。那輔助駕駛和自動駕駛之間,從技術(shù)上又有哪些區(qū)別呢?

侯曉迪

前圖森未來創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人:

L4無人駕駛要解決的核心問題是什么?是安全性,是冗余,是當(dāng)一個系統(tǒng)的每一個模塊都有可能會失效的時候,這個系統(tǒng)還仍然能夠保障最底線的安全。這件事是L4最難和最關(guān)鍵的部分。在掙錢之前它要先解決安全性的問題,但是這件事情根本不是特斯拉的設(shè)計宗旨。

另外一位L4自動駕駛研究員也分別從硬件與軟件的角度,分析了L2和L4之間的區(qū)別。

張航

Cruise高級主任科學(xué)家:

L4 的解決方案,首先是我們有比較強的傳感器,這個可能很難在L2場景里面去用,起碼不會用這么高精度的激光雷達(dá)。

從算法角度可能L2公司更注重的是一些,更有效能把成本降得很低,然后不需要特別昂貴的傳感器,然后可能更少的計算就可以達(dá)到這樣一個效果。這些L2其實不需要考慮這種百萬分之一的案例。

那我們L4追求的是,一百萬英里以上才需要引入一次的人類遠(yuǎn)程協(xié)助,就是達(dá)到追求的是這種百萬分之一的案例。

圖片

總結(jié)一下:L4的方案,采用的傳感器精度更高,芯片的算力會更充足,能應(yīng)對的場景也更全面。

但L2的方案中,首要考慮的是成本問題,所以硬件水平會稍低一些,同時算法為了適應(yīng)水平稍低的硬件,會更注重效率而非安全,這樣L2的接管頻率會比L4高很多。

那么,像特斯拉這樣做L2的公司,能否通過提升硬件與軟件,來達(dá)到L4的效果呢?

Chapter 4.3 “兩碼事”

侯曉迪

前圖森未來創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人:

我不支持L2緩慢進(jìn)化到L4、L5的路線,我覺得這件事情又是一個帶有很強這種外推屬性的偽命題。

假以時日,海豚能不能進(jìn)化出文明來?我覺得有可能,但是我們要知道地球文明已經(jīng)容不下海豚去進(jìn)化了,因為已經(jīng)有公司做出來了,我這個公司就是為了能夠最快速的把L4落地。我落了地以后就沒你什么事兒了,對吧?智人拿起標(biāo)槍的時候就沒有海豚去產(chǎn)生文明什么事兒了。

圖片

在侯曉迪看來,目前已有的L4公司已經(jīng)筑起了技術(shù)壁壘,激烈競爭下,不會給到L2進(jìn)化的機會,同時,也有人認(rèn)為,這并不意味著L4的技術(shù)比L2更高級,只是大家針對的場景不同。

于振華

前特斯拉AI工程師:

如果說,真的L4比L2像大家所想象的,在技術(shù)上是絕對的高級、絕對的領(lǐng)先。那么我想請問為什么L4技術(shù)不能夠直接降級成了L2?

事實上是在過去的很多年里面,L4公司被由于他這個收入的壓力,他都在幫車廠去做L2,但是他不能夠簡單的降級,他基本上都要重新開發(fā)。

那我們也知道在美國,GM(通用汽車)是擁有Cruise L4公司,福特是擁有Argo AI,也是個L4公司,為什么GM不能使用Cruise的技術(shù)在它的量產(chǎn)車上?為什么福特不能使用Argo AI的L4技術(shù)在它量產(chǎn)車上?所以說L4并不是比L2絕對高級,在技術(shù)難度上,我不認(rèn)為你做L4了,你就顯得非常高級。

圖片

為什么L4的技術(shù)不能直接降級成L2使用呢?張航對此解釋道,由于L4所采用的硬件規(guī)格更高,而L2的算法必須適應(yīng)規(guī)格更低的傳感器和算力較少的處理器,才導(dǎo)致兩者的技術(shù)無法直接遷移。

就像一位建筑設(shè)計師,被沒收了電腦,只給他精度不高的尺子和紙筆,他也得重新適應(yīng)新的畫圖方式。

張航

Cruise高級主任科學(xué)家:

就是你前面說的就是這個計算量的問題,L2的解決方案,不可能去支持,我們在一個車的后備箱里面放一個超級計算機,這是一個不現(xiàn)實的一個解決方案。

同時,張航對L2與L4的技術(shù)比較,也表現(xiàn)出了更開放的心態(tài),L2鋪設(shè)的范圍更廣,需要面對的場景更多,只需要解決基本問題即可。而L4的覆蓋范圍有限,但更關(guān)注各種細(xì)節(jié)。所以兩者之間各有優(yōu)劣。

圖片

張航

Cruise高級主任科學(xué)家:

L4本身不能通過簡單的去把已有的系統(tǒng)做簡化,去掉冗余,去作為一個L2的解決方案,但反之亦然。L2做想做到L4的標(biāo)準(zhǔn),這是一個很長的時間去磨練,你需要很長時間的數(shù)據(jù)收集,然后去積累經(jīng)驗。

但我覺得并不是說,我們的技術(shù)路線,或者技術(shù)深度會比L2高,我覺得這個不一定,L4可能很多并不是說很尖端的一些算法,但是就是通過一些,很細(xì)心的去設(shè)計去解決這些很細(xì)節(jié)的一些長尾問題。

你會支持哪個觀點呢?可以留言告訴我們。在我們的采訪中,這個問題在不同的人眼里,都會有自己的答案。

圖片

于振華

前特斯拉L2工程師:

我覺得就是在普通的大眾,甚至一些L4公司會給大家灌輸一個概念,就是L4技術(shù)優(yōu)于L3,然后優(yōu)于L2。我覺得這個是一個脫開它的限制場景,來誤導(dǎo)大眾,因為L4 的現(xiàn)在的Robotaxi,它是有很大限制場景的,必須在特定的這個地區(qū),比如Waymo,它只能在一個地區(qū)一個地區(qū)的運行。

邵旭輝

Foothill Ventures管理合伙投資人:

我個人覺得就是還是會看好L4的公司,因為就是這個邏輯上來說,L4是可以降維打擊的,而L2的話,如果你只做這個,你是升不上去的,或者說非常非常難升上去。

圖片

匿名受訪者

L4工程師:

其實在技術(shù)棧上我覺得就沒有說一個特別難的一個門檻,就比如說某家公司,他今天可以宣稱,做L2的公司,那也許明天他加了一些新的技術(shù),也可以去做L4,對吧?這完全看他應(yīng)用采用什么技術(shù),或者說有一些什么新的科技突破,對吧?

侯曉迪

前圖森未來創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人:

輔助駕駛跟無人駕駛是兩個東西。

圖片

由于文章長度的原因,我們把自動駕駛的運營、商業(yè)化、以及宏觀經(jīng)濟(jì)對自動駕駛行業(yè)的影響,投資人如何看待特斯拉股價等等內(nèi)容放在了下期,很快就會上線,大家別忘了關(guān)注我們。

查看原圖 22K

 

 
本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。