編譯 | 智東西 ZeR0
編輯 | 漠影
新的索尼大法來了!智東西2月10日報道,今日,索尼AI部門Sony AI重磅宣布,其AI程序擊敗了世界上最頂級的賽車游戲選手,并登上國際學術(shù)頂刊Nature的封面。
論文鏈接:https://www.nature.com/articles/s41586-021-04357-7
這是繼AI在撲克、象棋、圍棋、星際爭霸、DOTA等游戲擊敗人類冠軍選手后,游戲AI實現(xiàn)的又一里程碑。作為全球首個能夠在高度擬真賽車模擬游戲中戰(zhàn)勝最強人類選手的賽車AI智能體,索尼的賽車游戲AI GT Sophy僅用一兩天磨練戰(zhàn)術(shù)和技巧,就做到了超過賽車模擬游戲《GT賽車》中可以擊敗95%的人類玩家。在訓(xùn)練總計45000小時后,這個AI程序已經(jīng)能與頂級GT賽車玩家一較高下。
相比此前AI已經(jīng)掌握的棋牌類游戲及部分多人策略游戲,《GT賽車》更加復(fù)雜,因為它高度模擬現(xiàn)實世界,每輛車、每條軌道都經(jīng)過建模,視覺、音頻以及動態(tài)方面全部盡可能地還原現(xiàn)實世界的駕駛體驗。這使得AI必須具備極強的持續(xù)判斷和快速反應(yīng)能力,在高速變動的條件下,綜合考量摩擦、空氣動力學、駕駛路線、速度、方向等各種因素,在距離對手幾英寸的范圍內(nèi),對具有復(fù)雜非線性動力學的車輛進行實時控制,并知道如何在不違規(guī)的前提下超越對手?!霸谝粓稣娓傎愔腥绱顺浇艹龅娜祟愜囀?,是AI領(lǐng)域的一項里程碑式成就?!惫餐牡乃固垢4髮W汽車研究中心聯(lián)席主任克里斯·格迪斯(Chris Gerdes)教授相信,用于開發(fā)該AI的技術(shù)有望在自動駕駛汽車軟件中發(fā)揮作用。
GitHub鏈接:https://sonyai.github.io/gt_sophy_public/
01.比玩星際爭霸更強的智能體,精通控制、戰(zhàn)術(shù)和禮儀
GT Sophy研究項目啟動于2020年4月,是一個使用新型深度強化學習平臺進行訓(xùn)練的自主AI智能體,也是Sony AI自2019年11月成立以來一直致力于應(yīng)對的關(guān)鍵挑戰(zhàn)之一。Sony AI以日本、美國和歐洲三地為據(jù)點,重點推進游戲、成像、傳感三個AI旗艦項目。Sony AI全球負責人北野弘明還曾放言:“到2050年,要讓 AI 憑自己的科研成果拿下諾貝爾獎!”而今日登上Nature封面的賽車游戲AI,正是Sony AI韜光養(yǎng)晦、籌謀已久的大招!過去兩年間,Sony AI團隊、《GT賽車》系列背后的游戲開發(fā)工作室Polyphony Digital(PDI)以及索尼互動娛樂(SIE)的云游戲團隊密切合作,使用SIE管理的云游戲基礎(chǔ)設(shè)施訓(xùn)練這個AI。
為了盡可能重現(xiàn)現(xiàn)實世界的賽車環(huán)境,PDI為PlayStation 4創(chuàng)建了超現(xiàn)實主義驅(qū)動模擬器GT Sport,并提供API訪問。GT Sport配備了一些最新的汽車動力學模擬,逼真地還原了賽車、賽道乃至空氣阻力、輪胎摩擦等物理現(xiàn)象,并在汽車制造商的指導(dǎo)下嚴扣從車身曲線、車身面板間隙到大燈形狀等每個細節(jié)。該模擬器是與國際汽聯(lián)合作設(shè)計的,在全球擁有超過40萬人的電子競技社區(qū),它帶來了一個具有明確規(guī)則和判斷標準的公平賽車環(huán)境。
GT Sophy即是在這個終極模擬環(huán)境中訓(xùn)練而出,同樣,分布式訓(xùn)練平臺DART也對于該AI新成果功不可沒。基于這個定制平臺,Sony AI研究人員能在SIE云游戲平臺的PlayStation 4控制臺上訓(xùn)練GT Sophy。DART允許研究人員輕松指定實驗,在云資源可用時自動運行,并收集可以在瀏覽器中查看的數(shù)據(jù)。此外,該平臺還管理PlayStation 4控制臺、代理計算資源和GPU,用于跨數(shù)據(jù)中心的訓(xùn)練。它能訪問1000多個PlayStation 4控制臺,每個都用于收集訓(xùn)練GT Sophy的數(shù)據(jù)或評估訓(xùn)練有素的版本。該平臺由必要的計算組件(GPU、CPU)組成,用于與大量PlayStation 4進行交互,并支持長時間的大規(guī)模訓(xùn)練。
DART使得Sony AI的研究團隊能夠同時無縫運行數(shù)百個實驗,并探索將GT Sophy提升到更高水平的技術(shù)。在這些基礎(chǔ)設(shè)施的支持下,僅在一兩天內(nèi),GT Sophy就做到超過GT Sport中約95%的選手。經(jīng)過10天、總計45000小時的駕駛學習,GT Sophy在所有三條賽道上取得了超人般的計時賽表現(xiàn)。為了驗證這個賽車游戲AI的實力,研究人員讓GT Sophy在2021年7月2日和10月21日舉行的“2021賽車挑戰(zhàn)賽”中,與世界上最優(yōu)秀的四名GT賽車手同臺競技,并成功超過這些頂級人類選手。
02.頂級賽車游戲AI是怎樣煉成的?
為了打造出超強賽車游戲AI,Sony AI研究人員和工程師開發(fā)了創(chuàng)新的強化學習技術(shù),包括一種名為Quantitile-Regression Soft Actor-Critic(QR-SAC)的新訓(xùn)練算法、一種可以理解的賽車規(guī)則編碼,以及一種促進獲得細微的賽車技能的訓(xùn)練方案。深度強化學習是街機游戲、國際象棋、圍棋等復(fù)雜策略游戲及其他實時多人策略游戲中大多數(shù)AI里程碑的關(guān)鍵組成部分,特別適合開發(fā)游戲AI智能體,因為強化學習智能體會考慮其行為的長期影響,并能在學習期間獨立收集自己的數(shù)據(jù),從而避免了對復(fù)雜、手工編碼的行為規(guī)則的需求。而處理《GT賽車》等復(fù)雜領(lǐng)域,需要同樣復(fù)雜和微妙的算法、獎勵和訓(xùn)練場景。
AI從多個《GT賽車》游戲中獲取信息,通過最大化快速跑圈的獎勵和最小化碰撞的懲罰等方式來學會如何取勝。比如,如果它超過另一輛車就會獲得一定權(quán)重的獎勵,但出現(xiàn)抄近路、碰撞、打滑等事故則受到懲罰。GT Sophy在《GT賽車》的三種汽車和賽道組合上接受了多種場景的訓(xùn)練。其中一些只有AI智能體在賽道上,而另一些則增加了7個正常游戲的NPC對手。每次賽道位置、起始速度、汽車之間的間距以及對手的技能水平都是隨機的。
通過持續(xù)學習和積累經(jīng)驗,GT Sophy掌握了賽車控制、賽車戰(zhàn)術(shù)和賽車禮儀的技能。(1)賽車控制:賽車本質(zhì)上是試圖駕駛處于控制邊緣或行駛更遠地方的汽車。估計制動點、找到最佳路線、尋找抓地力以最大限度地提高速度和控制力等,本身就是非常有趣的機器學習問題。一種新的算法QR-SAC明確推理了GT Sophy高速行動的各種可能結(jié)果。解釋駕駛動作的后果和其中的不確定性,有助于GT Sophy在車體極限上通過彎道,并在與不同類型的對手比賽時考慮復(fù)雜的可能性。我們來看一個展示GT Sophy極限駕駛技能的例子,在沒有接觸的情況下,智能體可駕駛通過一系列緊貼墻壁的彎道行駛。
(2)賽車戰(zhàn)術(shù):車手需能在高速變化的賽車情況下快速做出決策,到線路超過對手,同時考慮到對手對超車嘗試的反應(yīng)。雖然AI智能體可以收集自己的數(shù)據(jù),但訓(xùn)練尾流超車(slipstream passing)等特定技能需要對手處于特定位置。為了解決這個問題,GT Sophy的學習包括使用在每條賽道上可能至關(guān)重要的人工比賽情況進行混合場景訓(xùn)練,以及幫助智能體學習這些技能的專門對手。這些技能培養(yǎng)場景幫助GT Sophy獲得了專業(yè)的賽車技術(shù),包括處理擁擠的起跑、彈弓式尾流超車,甚至防御機動。
GT Sophy利用急轉(zhuǎn)彎成功超車人類賽車手
(3)賽車禮儀:車手需要遵守具體規(guī)則,以限定賽車可以滑出賽道的程度,以及在發(fā)生碰撞時誰應(yīng)該背責。與此同時,車手需要積極開車才能獲勝,找到正確的平衡是一大挑戰(zhàn)。為了幫助GT Sophy學習運動禮儀,Sony AI研究人員找到了將成文和不成本比賽規(guī)則編碼為復(fù)雜獎勵功能的方法。研究團隊還發(fā)現(xiàn),有必要平衡對手的數(shù)量,以確保GT Sophy有競爭性的訓(xùn)練比賽,同時不會對人類競爭變得過于激進或膽怯。例如,GT Sophy在不堵塞駕駛線路的情況下超過了人類車手,給他們留下了足夠的機動空間,展示出公平和體育精神。
這些特性,使得GT Sophy與此前在一些經(jīng)典游戲中擊敗人類冠軍的早期AI智能體區(qū)分開來。國際象棋、圍棋等屬于完全信息類游戲,AI無需掌握現(xiàn)實世界的物理,只需專注于游戲策略。即便是玩星際爭霸的AlphaStar和Dota的OpenAI Five,也沒有試圖掌握現(xiàn)實世界的物理學。而現(xiàn)在,GT賽車就在試圖模擬現(xiàn)實世界,因此其戰(zhàn)術(shù)、策略和禮儀都至關(guān)重要,更難的是,AI需要在汽車在物理極限加速時具備這些技能。
03.還能應(yīng)用于機器人、無人機和自動駕駛
就像其他打敗人類冠軍的AI一樣,GT Sophy的價值可不僅局限于玩游戲。在GT Sophy的開發(fā)過程中,研究人員定期與頂級驅(qū)動程序互動,以測試最新版本?!八鞣频馁愜嚶肪€是人類車手永遠想不到的。”《GT賽車》的創(chuàng)造者、現(xiàn)實生活中的賽車手Kazunori Yamauchi說,這項技術(shù)將成為其未來版本游戲的一部分,并有望幫助新手和專業(yè)司機提高他們的技能?!拔艺J為很多關(guān)于駕駛技能的教科書都將被重寫。”GT Sophy也帶給了頂級人類車手新的靈感。FIA Gran Turismo錦標賽2018年冠軍Igor Fraga稱贊說:“GT Sophy向我們展示了我們之前從未想象過的新可能性?!壁A得電子競技賽車賽事前所未有“三冠王”的日本頂級選手Takuma Miyazono,從4歲就開始玩虛擬賽車,但他從未遇到過像GT Sophy這樣的賽車手?!癝ophy非??欤λ俦茸詈玫能囀值念A(yù)期要好。”他認為,看到Sophy,有些動作才成可能。FIA Gran Turismo錦標賽2020年世界決賽選手Emily Jones亦受到GT Sophy的啟發(fā),她在Dragon Trail上的圈速是107.964秒,而AI的圈速是106.417秒。
Emily Jones
“在某些彎道上,我把車開得很大,然后倒車,而AI則把車開得很近,所以我學到了很多關(guān)于線路的知識。還知道該優(yōu)先考慮什么。以進入第1個彎道為例,我剎車的時間比AI晚,但AI會比我有一個更好的出口,并在下個彎道打敗我。直到我看到AI,我才意識到這一點,并認為「好吧,我應(yīng)該這么做?!埂盓mily Jones說。更重要的是,這一研究突破將引發(fā)一場關(guān)于無人駕駛汽車使用的最佳計算方法的辯論。Sony AI全球負責人北野宏明談道,GT Sophy的目的不僅是超越人類玩家,而是為玩家提供一個具有刺激性的對手,加速并提升玩家的技術(shù)和創(chuàng)造力。為GT Sophy開發(fā)的AI算法可能也適用于無人機、機器人等其他類型的機器?!俺藶橛螒蛏鐓^(qū)做出貢獻外,我們相信這一突破也為自動賽車、自動駕駛、高速機器人和控制等領(lǐng)域帶來了新的機遇?!北币昂昝髡f。
Sony AI CEO北野宏明
豐田研究所人類中心駕駛研究高級經(jīng)理阿維納什·巴拉昌德拉(Avinash Balachandra)認為:“在賽車中使用機器學習和自動控制是令人興奮的?!痹撗芯克跍y試能夠在極端速度下運行的自動駕駛汽車。他說,豐田正在研究“人類放大技術(shù),利用專家從賽車運動中學習的技術(shù),有朝一日可以改善主動安全系統(tǒng)”。馬薩諸塞大學阿姆赫斯特分校研究強化學習的教授布魯諾·卡斯特羅·達席爾瓦(Bruno Castro da Silva)評價GT Sophy是“一項令人印象深刻的成就”,是朝著為自動駕駛汽車訓(xùn)練AI邁出的重要一步。但他認為,從《GT賽車》到現(xiàn)實世界將是一個挑戰(zhàn),因為像GT Sophy這樣的強化學習算法很難考慮決策的長期影響,而且也很難保證這些算法的安全性或可靠性?!叭绻覀兿M@樣的AI系統(tǒng)在現(xiàn)實生活中部署,安全保障是最重要的?!眃a Silva說,“缺乏安全保障,是基于機器學習的機器人尚未廣泛應(yīng)用于工廠和倉庫的主要原因之一?!?/p>
04.結(jié)語:AI與游戲玩家的雙重勝利
在評價這一研究進展時,索尼集團董事長、總裁兼CEO吉田憲一郎說:“索尼的宗旨是「通過創(chuàng)造力和技術(shù)的力量,讓世界充滿情感」,而GT Sophy就是這一理念的完美體現(xiàn)?!笨傮w來看,賽車游戲AI不僅展現(xiàn)了AI如何學習在復(fù)雜情況下工作策略的技術(shù)進展,也展示出AI如何為玩家提供新的游戲體驗。據(jù)悉,Sony AI和PDI將探索如何將GT Sophy集成到《GT賽車》系列的未來版本中。Polyphony Digital總裁Kazunori Yamauchi相信,這一AI概念將促進游戲和汽車的未來。
來源:Sony AI,Nature,Ars Technica,Wired