??在深度學(xué)習(xí)變得普遍之前的2010年,感知是molex連接器自動駕駛汽車能力的主要限制,但2014年之后基于深度學(xué)習(xí)的雷達(dá)技術(shù)、相機還有激光雷達(dá),帶來了技術(shù)性能的不斷提升——那么無人駕駛汽車下一步還會迎來哪些挑戰(zhàn)呢?
??在過去的十年里,自動駕駛領(lǐng)域?qū)C器學(xué)習(xí)的大部分對話都集中在對象檢測上。對安全導(dǎo)航至關(guān)重要的是,我們?nèi)绾尾拍芴岣咦詣玉{駛汽車檢測和跟蹤動態(tài)物體的能力?在2010年,當(dāng)深度學(xué)習(xí)變得普遍之前,感知是自動駕駛汽車能力的主要限制。其中ImageNet的分類精度在當(dāng)時作為最先進的解決方案只能達(dá)到50%的準(zhǔn)確率(相比之下,今天的準(zhǔn)確率為88%)。雖然ImageNet分類并不能與當(dāng)前最先進的目標(biāo)檢測技術(shù)相提并論,但它確實代表了計算機視覺的進步。
??直到2012年,AlexNet成為ImageNet競賽的首批參賽者之一,它利用卷積神經(jīng)網(wǎng)絡(luò)進行深度學(xué)習(xí)。AlexNet在當(dāng)年的ImageNet競賽上達(dá)到了最先進的精度,成為計算機視覺領(lǐng)域最有影響力的方法。
??從2014年開始,基于深度學(xué)習(xí)(Deep Learning)的雷達(dá)技術(shù)、相機還有激光雷達(dá),都開始悄悄進入自動駕駛領(lǐng)域。谷歌的自動駕駛汽車與一位坐輪椅的女士用掃帚追趕一只鴨子的奇遇,成為有史以來挑戰(zhàn)感知技術(shù)的一個著名例子。
??如今,基于深度學(xué)習(xí)的感知技術(shù)在自動駕駛汽車中應(yīng)用很常見,我們也看到了技術(shù)性能的不斷提升。近年來,VoxelNet、PIXOR和pointpillar等網(wǎng)絡(luò)推動了計算機視覺技術(shù)的發(fā)展。盡管機器人不會像人類那樣完美的感知,但計算機視覺的發(fā)展如此之快,可以說它現(xiàn)在已經(jīng)不再是自動駕駛汽車商業(yè)化應(yīng)用的主要障礙。
? 那么無人駕駛汽車接下來呢?預(yù)測!
??既然我們已經(jīng)安全地探測到周圍的關(guān)鍵物體,接下來就是預(yù)測它們下一步的行動。正確的預(yù)測意味著我們將在正確的時間執(zhí)行正確的策略,同時考慮周圍人的行動。預(yù)測錯誤意味著我們可能把自己推入危險的境地。我們需要使用成千上萬的環(huán)境輸入來進行盡可能正確的預(yù)測。
? ??預(yù)測是無保護左轉(zhuǎn)彎最難實現(xiàn)的核心問題。自動駕駛汽車在轉(zhuǎn)彎前必須預(yù)測周圍所有動態(tài)智能體的未來動作,這一任務(wù)比自動駕駛中的其他問題需要更多的智能。人類駕駛員雖然不是完美的,但主要依賴其大腦、駕駛經(jīng)驗和心理暗示(如輕推或手勢等),來成功地執(zhí)行無保護左轉(zhuǎn)彎。
??雖然機器相對于人類也有一些明顯的優(yōu)勢(比如360°的遠(yuǎn)程視覺),但與人類相比,自動駕駛技術(shù)中的預(yù)測能力可能落后很多。
1、感知模塊檢測輸出自動駕駛汽車一定半徑內(nèi)的一組目標(biāo) (如車輛、行人等),然后輸入給預(yù)測模塊;
2、預(yù)測模塊使用當(dāng)前的方位、速度和之前的觀察來生成關(guān)于每個對象在接下來5秒內(nèi)可能做什么的預(yù)測;
3、通過將所有這些預(yù)測輸入一個算法,最終生成一個關(guān)于自動駕駛汽車可以執(zhí)行的最安全操作的假設(shè);
4、自動駕駛汽車實時計算,每100毫秒重新評估決策。
??可以看到,這種傳統(tǒng)的計算方式會導(dǎo)致不安全和潛在危險的駕駛行為,尤其是在密集的城市環(huán)境中。在過去的幾年里,我們見證了用深度學(xué)習(xí)方法進行預(yù)測的很多實驗。這些方法有可能顯著提高預(yù)測的準(zhǔn)確性,將它們從機器人轉(zhuǎn)變?yōu)轭惾恕?/span>
??用數(shù)據(jù)驅(qū)動的方法來解決這些傳統(tǒng)的預(yù)測問題,與2010年的深度學(xué)習(xí)如何取代傳統(tǒng)認(rèn)知技術(shù)驚人地相似。
下面是一些實際的例子:
? 克魯斯的感知工程師做了一次偉大的演講,關(guān)于他們?nèi)绾螌㈩A(yù)測問題轉(zhuǎn)化為一個分類問題。我對他們構(gòu)建的工具特別感興趣,這些工具支持快速實驗,并具有快速學(xué)習(xí)場景和自動標(biāo)記的能力。
Uber分享了他們在DRF-Net上的工作,DRF-Net增強了行人預(yù)測能力:“大量的實驗表明,我們的模型表現(xiàn)出了高概率、低誤差、低熵和多模態(tài)的強大特性。”DRF-NET離散預(yù)測的強大性能對于基于成本和約束的機器人規(guī)劃是很有意義的。蘋果發(fā)表了一篇新的強化學(xué)習(xí)論文,題為《最壞策略梯度》(Worst Cases Policy Gradients):“構(gòu)建智能系統(tǒng)的關(guān)鍵挑戰(zhàn)之一是在復(fù)雜環(huán)境中做出穩(wěn)健、安全的順序決策的能力?!?/span>ISEE在CVPR 2019發(fā)布了一項學(xué)習(xí)預(yù)測方法:“這種MAT編碼能夠自動處理不同種類的場景,并通過對MAT的卷積運算,預(yù)測場景中所有Agent的軌跡,其計算復(fù)雜性與Agent的數(shù)量成線性關(guān)系?!彪m然預(yù)測還沒有達(dá)到它所需要的性能,但我很清楚,我們將看到數(shù)據(jù)驅(qū)動方法在預(yù)測性能上的巨大飛躍,這與深度學(xué)習(xí)如何影響傳統(tǒng)感知非常相似。這些即將到來的飛躍將極大地改善自動駕駛汽車的決策,為乘客帶來更安全、更順暢的乘坐體驗。?