近日,德國專業(yè)汽車行業(yè)雜志HANSERautomotive就浪潮信息算法團(tuán)隊(duì)在自動(dòng)駕駛領(lǐng)域所取得的核心突破,進(jìn)行專題署名文章報(bào)道“Wahrnehmungssysteme und 3D-Objekterkennung Alles im Blick”(《感知系統(tǒng)和三維物體識(shí)別,一切盡收眼底》)。針對AI感知技術(shù)對于自動(dòng)駕駛產(chǎn)業(yè)化落地的變革式意義,《HANSERautomotive》文章指出,“3D目標(biāo)檢測作為自動(dòng)駕駛領(lǐng)域至關(guān)重要的核心任務(wù),面向強(qiáng)大的環(huán)境感知,先進(jìn)的AI算法及融合架構(gòu)感知技術(shù),為實(shí)現(xiàn)高魯棒、高精度的目標(biāo)檢測提供了至關(guān)重要的信息輸入,平臺(tái)算力和感知算法的效率提升與創(chuàng)新突破,也成為了車企發(fā)展自動(dòng)駕駛能力的關(guān)鍵技術(shù)。”
目前,在全球權(quán)威的自動(dòng)駕駛nuScenes競賽最新評測中,浪潮信息算法團(tuán)隊(duì)所提交的“IEI-BEVFusion++”算法模型在關(guān)鍵性指標(biāo)nuScenes Detection Score(NDS)得到77.6%的高分,創(chuàng)造了3D目標(biāo)檢測全賽道迄今最高成績。
【資料圖】
【HANSERautomotive作為德國Top級(jí)汽車電子行業(yè)媒體,旨在持續(xù)賦能汽車電子開發(fā)、項(xiàng)目、應(yīng)用和測試領(lǐng)域的工程師,為全球汽車領(lǐng)域的行業(yè)高管與最重要的利益相關(guān)者,提供產(chǎn)品、系統(tǒng)、趨勢和時(shí)事,在電信/數(shù)據(jù)通信、消費(fèi)和工業(yè)等行業(yè)領(lǐng)域做出更好的決策?!?/p>
●附《HANSERautomotive》詳細(xì)報(bào)道(原文譯釋):
自動(dòng)駕駛將從頭開始改變移動(dòng)行業(yè),是汽車制造商和人工智能公司關(guān)注的重點(diǎn)領(lǐng)域。自動(dòng)駕駛技術(shù)的核心是基于算法的 3D 物體識(shí)別,它被認(rèn)為是自動(dòng)駕駛汽車環(huán)境感知的核心。至關(guān)重要的是,車輛使用各種傳感器來估計(jì)其環(huán)境中人、車輛和物體在三維空間中的距離。以下文章解釋了不同傳感器的工作原理以及它們之間的交互方式。
自動(dòng)駕駛核心感知任務(wù)——3D目標(biāo)檢測
從自動(dòng)駕駛分類來看,目前的自動(dòng)駕駛技術(shù)有兩大類。一種是以直接達(dá)到Level 4(高度駕駛自動(dòng)化)為目標(biāo)的激進(jìn)派,另一種是從Level 2(輔助駕駛)逐步提升自動(dòng)駕駛等級(jí)的漸進(jìn)派。但無論是Level 2還是Level 4,從整體架構(gòu)來看,大致可以分為感知、決策和控制三個(gè)部分。感知是自動(dòng)駕駛汽車的眼睛,猶如人類的眼睛為大腦提供 70% 以上的信息類似,感知系統(tǒng)也為自動(dòng)駕駛汽車的外部環(huán)境提供信息。自動(dòng)駕駛的感知依賴于各種傳感器的信息,包括攝像頭、雷達(dá)、激光雷達(dá)等,其中最核心的就是相機(jī)和激光雷達(dá)。
自動(dòng)駕駛面對的是一個(gè)3維的環(huán)境空間,甚至我們可以這么說,因?yàn)樽詣?dòng)駕駛車輛要在環(huán)境空間中移動(dòng),且環(huán)境空間中其他的行人、車輛也會(huì)移動(dòng),可見自動(dòng)駕駛面臨的是一個(gè)4D時(shí)空系統(tǒng)(3D空間+1D時(shí)間)。自動(dòng)駕駛汽車需要在三維空間中判斷周圍人、車、物之間的距離。在此基礎(chǔ)上,還需要判斷它們是靜態(tài)的還是動(dòng)態(tài)的,以及移動(dòng)的方向和速度等信息,我們一般稱之為3D目標(biāo)檢測任務(wù)。 3D物體檢測任務(wù)可以看作是自動(dòng)駕駛中的最核心感知任務(wù)。當(dāng)然,除此之外,其他感知任務(wù)還包括識(shí)別紅綠燈、交通標(biāo)志、車道、斑馬線等道路信息。
(圖注:3D 目標(biāo)檢測圖。 3D目標(biāo)定義為一個(gè)盒子,(x,y,z)為盒子的中心坐標(biāo),(l,w,h)為長寬高,θ為航向角。 Class 是 3D 目標(biāo)的類別。 Vx 和 vy 描述了地面上 3D 目標(biāo)沿 x 和 y 軸的速度。)
傳感器:激光雷達(dá)
長期以來,激光雷達(dá)一直被認(rèn)為是自動(dòng)駕駛汽車不可或缺的部件之一,因?yàn)榧す饫走_(dá)可以提供車輛周圍環(huán)境最準(zhǔn)確的3D感知。激光雷達(dá)采集到的點(diǎn)云信息天然就存儲(chǔ)著3D空間信息,因此對于基于點(diǎn)云信息的3D目標(biāo)檢測來說,算法設(shè)計(jì)就簡單很多,也誕生了一系列的經(jīng)典模型,如PointPillar、SECOND、SSSD等。然而,激光雷達(dá)的成本也成為了自動(dòng)駕駛落地的最大瓶頸,激光雷達(dá)比汽車貴的問題,成為其上車和量產(chǎn)的最大障礙。雖然這些年激光雷達(dá)的價(jià)格隨著技術(shù)的進(jìn)步有了明顯的下降,但是能夠滿足L4需求的激光雷達(dá)的價(jià)格還是偏高。
傳感器:相機(jī)
攝像頭是自動(dòng)駕駛汽車的另一個(gè)非常重要的傳感器。由于激光雷達(dá)采集的點(diǎn)云信息沒有顏色和紋理,無法識(shí)別紅綠燈、交通標(biāo)志、車道、斑馬線等人類容易識(shí)別的道路信息。因此,仍然需要攝像頭作為輔助傳感器。但是,這會(huì)導(dǎo)致多模態(tài)的信息融合問題。簡而言之,激光雷達(dá)主要擅長對車輛和行人的3D信息的感知,而攝像頭擅長于對紅綠燈、車道線等具有豐富視覺紋理特征的信息的感知。此外,相機(jī)在量產(chǎn)成本和價(jià)格方面也具有無可比擬的優(yōu)勢。例如,特斯拉搭載的單個(gè)單目攝像頭成本僅為25美元,整車8個(gè)攝像頭的價(jià)格僅為200美元。僅使用相機(jī)傳感器,借助強(qiáng)大的人工智能算法, 可以實(shí)現(xiàn)精確的3D物體檢測任務(wù),這意味著不使用激光雷達(dá)傳感器的自動(dòng)駕駛成為可能。
基于圖像的3D目標(biāo)檢測算法
在計(jì)算機(jī)視覺領(lǐng)域,近年來涌現(xiàn)了大量的分類、檢測、分割模型,如ResNet、YOLO、Mask RCNN等,這些AI模型已廣泛應(yīng)用于安防、交通、和自動(dòng)駕駛。然而,核心問題之一是這些模型是為 2D 圖像設(shè)計(jì)的,不能直接應(yīng)用于 3D 對象檢測任務(wù)?;趫D像的3D物體檢測的核心問題是如何準(zhǔn)確估計(jì)圖像中物體的深度。由于相機(jī)拍攝的照片和視頻將3D空間投影到2D平面,丟失了深度信息,如何恢復(fù)深度信息是一個(gè)“病態(tài)問題”。也就是說,問題的解決方案可能不是唯一的。因此,長期以來,基于圖像的3D目標(biāo)檢測算法的性能一直遠(yuǎn)低于基于激光雷達(dá)的3D目標(biāo)檢測算法。
自從特斯拉僅使用攝像頭的FSD駕駛系統(tǒng)取得了一定的成功后,基于視覺的自動(dòng)駕駛感知方案就越來越受到業(yè)界的關(guān)注。同時(shí),隨著數(shù)據(jù)、算法、算力等方面的進(jìn)步,純視覺自動(dòng)駕駛感知方案在3D目標(biāo)檢測任務(wù)中的性能較去年的激光雷達(dá)有明顯提升。
NuScenes 數(shù)據(jù)集
自動(dòng)駕駛數(shù)據(jù)集的出現(xiàn)時(shí)間更長,傳感器更多,采集時(shí)間更長。 NuScenes 數(shù)據(jù)集由 Motive 于 2019 年開發(fā)并發(fā)布,采集于波士頓和新加坡街頭。為了獲取有意義的場景數(shù)據(jù),我們收集了大約 15 小時(shí)的駕駛數(shù)據(jù),并精心選擇了涵蓋不同場景的駕駛路線。采集車搭載傳感器,包括6個(gè)攝像頭、1個(gè)激光雷達(dá)、5個(gè)毫米波雷達(dá)、GPS、IMU,具有360°視場感知。
(圖注:安裝在 NuScenes 數(shù)據(jù)集采集車上的傳感器放置位置圖。它配備了6個(gè)攝像頭、1個(gè)激光雷達(dá)和5個(gè)毫米波雷達(dá)。)
NuScenes 數(shù)據(jù)集提供了幾個(gè)評估任務(wù),包括 3D 對象檢測、3D 對象跟蹤、預(yù)測軌跡、激光雷達(dá)分割、全景分割和跟蹤。 3D 物體檢測任務(wù)的目標(biāo)是檢測 NuScenes 數(shù)據(jù)集中的 10 種不同類型的檢測物體,包括汽車、卡車、自行車和行人。檢測信息除了物體的三維位置外,還包括物體的大小、方向和速度。 NuScenes提出了一個(gè)綜合的NDS指標(biāo),即NuScenes Detection Score(NDS),它由平均準(zhǔn)確度(mAP)、平均平移誤差(ATE)、平均尺度誤差(ASE)、平均方向誤差(AOE)、平均速度誤差組成(AVE) 和平均屬性誤差 (AAE)。
(圖注:NuScenes 數(shù)據(jù)集中六個(gè)攝像頭采集的圖像示意圖。)
除了NuScenes,業(yè)界還有Waymo、ONCE等開源數(shù)據(jù)集。然而,NuScenes 是目前使用最多的數(shù)據(jù)集。自發(fā)布以來,NuScenes 數(shù)據(jù)集已被 2000 多篇研究論文引用。 NuScenes Challenge也成為測試感知算法在自動(dòng)駕駛相關(guān)任務(wù)中表現(xiàn)的試金石。它吸引了來自世界各地的研究團(tuán)隊(duì)提交的 220 多份論文。近期,PhiGent Robotics、縱目科技、ECARX等車企的研發(fā)團(tuán)隊(duì)也出現(xiàn)在了NuScenes的名單中。
‘
NuScenes提供了一個(gè)常年更新的榜單,目前一共有50余次提交,其中大多數(shù)的提交發(fā)生在2022年。目前全榜單排名第一的則是浪潮信息算法團(tuán)隊(duì)所提交的“IEI-BEVFusion++”算法模型,關(guān)鍵性指標(biāo)nuScenes Detection Score(NDS)0.776的高分,創(chuàng)造了3D目標(biāo)檢測全賽道迄今最高成績。
另外,在純視覺賽道,算法團(tuán)隊(duì)在2022年所提交的“DABNet4D”模型,綜合檢測精度NDS 0.624的檢測效果也一舉登頂屆時(shí)該賽道的榜首。相比之下,2022年初排名第一的BEV3D算法的NDS精度是0.474,也就是說在不到一年的時(shí)間內(nèi),NuScenes 純視覺3D目標(biāo)檢測的NDS指標(biāo)提升了15個(gè)點(diǎn)?;诩円曈X算法和激光雷達(dá)算法的精度差距也從年初的45%縮小到17%,而這些,均得益于純視覺3D檢測算法優(yōu)化帶來的性能提升。
展望未來
在自動(dòng)駕駛落地的產(chǎn)業(yè)化進(jìn)程中,感知技術(shù)作為自動(dòng)駕駛的核心技術(shù)模塊,既是起點(diǎn)也是基石。而未來,面向自動(dòng)駕駛感知算法的研發(fā),也將會(huì)投入更為強(qiáng)大的人工智能計(jì)算平臺(tái)予以支撐。從NuScenes榜單技術(shù)的快速迭代來看,我們有理由相信,隨著算力、算法的持續(xù)型突破,自動(dòng)駕駛產(chǎn)業(yè)化落地進(jìn)程也將多一層“騰飛動(dòng)力之源”。
標(biāo)簽: