丝瓜视频看污_丝瓜网站入口_丝瓜污污视频_丝瓜视频色版APP官网

j9九游會(huì)(中華國(guó))九游會(huì)官網(wǎng)

智能汽車:自動(dòng)駕駛算法篇-大模型助力自動(dòng)駕駛有望迎來奇點(diǎn)

發(fā)布時(shí)間:2025-06-13 15:36:49| 瀏覽次數(shù):

  自動(dòng)駕駛算法反應(yīng)了工程師們根據(jù)人的思維模式,對(duì)自動(dòng)駕駛所需處理過程的思考。通常包含感知、預(yù)測(cè)、規(guī)劃模塊,同時(shí)輔助一些地圖、定位等模塊,實(shí)現(xiàn)自動(dòng)駕駛功能的落地。

  感知模塊主要解決四類任務(wù):(1)檢測(cè):找出物體在環(huán)境中的位置;(2)分類:明確對(duì)象是什么,如分辨不同類別交通標(biāo)志;(3)跟蹤:隨著時(shí)間的推移觀察移動(dòng)物體,通常采用跨幀追蹤對(duì)象(將不同幀中檢測(cè)到的對(duì)象進(jìn)行匹配)、BEV 加入時(shí)序信息等實(shí)現(xiàn);(4)語義分割:將圖像中的每個(gè)像素與語義類別匹配,如道路、天空、汽車等,用于盡可能詳細(xì)了解環(huán)境。

  以 Apollo 感知算法框架為例,其算法包含預(yù)處理、神經(jīng)網(wǎng)絡(luò)模型、后處理等模塊。首先圖像預(yù)處理主要是對(duì)圖像進(jìn)行調(diào)整、畸變校正等,使之更符合機(jī)器學(xué)習(xí)的要求。其次分別對(duì)紅綠燈、車道線、障礙物等特征進(jìn)行檢測(cè),其中紅綠燈通過檢測(cè)邊框、顏色等進(jìn)行進(jìn)一步的識(shí)別;障礙物則經(jīng)過 2D 到 3D 的轉(zhuǎn)換,得出真實(shí)的信息坐標(biāo),再融合車道線檢測(cè)信息、外部傳感器信息等得出真實(shí)世界的障礙物信息。該部分通常采用全卷積神經(jīng)網(wǎng)絡(luò)或者 YOLO 等算法實(shí)現(xiàn)。

  預(yù)測(cè)模塊實(shí)際上是算法對(duì)外部環(huán)境和自車狀態(tài)的理解。預(yù)測(cè)模塊首先收集感知模塊輸入的車道線、障礙物、紅綠燈、地圖、定位等信息對(duì)主車的狀況進(jìn)行判斷。

  其次場(chǎng)景感知模塊對(duì)外部障礙物的優(yōu)先級(jí)、路權(quán)等外部環(huán)境對(duì)主車的影響進(jìn)行感知。

  評(píng)估器則會(huì)根據(jù)場(chǎng)景信息和障礙物信息判斷出障礙物的軌跡或意圖。預(yù)測(cè)器則根據(jù)短期的預(yù)測(cè)軌跡和意圖判斷障礙物等外部環(huán)境相對(duì)長(zhǎng)期的軌跡。這將為未來汽車的規(guī)劃提供重要的參考。算法層面通常以 RNN 為主。

  規(guī)劃指找到合理路徑來到達(dá)目的地。規(guī)劃通常分為全局路徑規(guī)劃、行為規(guī)劃與運(yùn)動(dòng)規(guī)劃幾個(gè)部分。其中,全局路徑規(guī)劃指智能汽車依靠地圖規(guī)劃出理想狀態(tài)下到達(dá)目的地的路徑。行為規(guī)劃則是主車在實(shí)際行駛的過程中,面臨實(shí)時(shí)的交通環(huán)境,做出的各類駕駛行為,如跟車、換道、避讓等。運(yùn)動(dòng)規(guī)劃生成與駕駛行為對(duì)應(yīng)的駕駛軌跡,包含路徑規(guī)劃和速度規(guī)劃。最后再采用一些優(yōu)化方式讓變道加速等行為變得平順以滿足舒適性要求。算法層面,通常采用基于規(guī)則的規(guī)劃決策算法,前沿的玩家也開始引入機(jī)器學(xué)習(xí)等方式,以提升決策效能。

  算法、算力和數(shù)據(jù)是人工智能的三大要素,數(shù)據(jù)在模型訓(xùn)練中擁有不可忽視的影響。一方面,Transformer 等大模型在大體量數(shù)據(jù)集訓(xùn)練下才能表現(xiàn)更佳的特性帶來其對(duì)訓(xùn)練端數(shù)據(jù)的要求激增,特斯拉在 2022 年 AI DAY 上曾表示,訓(xùn)練其占用網(wǎng)絡(luò)采用了 14 億幀圖像數(shù)據(jù)。另一方面,由于自動(dòng)駕駛面臨的場(chǎng)景紛繁復(fù)雜,諸多長(zhǎng)尾問題需要在現(xiàn)實(shí)或虛擬場(chǎng)景中獲取。因此數(shù)據(jù)閉環(huán)在自動(dòng)駕駛領(lǐng)域彌足重要。毫末智行將數(shù)據(jù)作為“自動(dòng)駕駛能力函數(shù)”的自變量,認(rèn)為是決定能力發(fā)展的關(guān)鍵,Momenta 也曾表示,L4 要實(shí)現(xiàn)規(guī)?;?,至少要做到人類司機(jī)的安全水平,最好比人類司機(jī)水平高一個(gè)數(shù)量級(jí),因此需要至少千億公里的測(cè)試,解決百萬長(zhǎng)尾問題。

  數(shù)據(jù)挖掘和針對(duì)性的訓(xùn)練能顯著減少 Corner Case。以特斯拉為例,在面臨一個(gè)

  看起來像臨時(shí)停車但實(shí)際上是永久停車的場(chǎng)景時(shí),最初算法會(huì)將其判定為臨時(shí)停車。

  當(dāng)特斯拉通過數(shù)據(jù)挖掘在訓(xùn)練集中增加了 1.4 萬個(gè)類似場(chǎng)景的視頻并訓(xùn)練模型后,神

  早期自動(dòng)駕駛方案采用激光雷達(dá)+高精度地圖為主。早期市場(chǎng)以傳統(tǒng)計(jì)算機(jī)視覺和專家系統(tǒng)為基礎(chǔ)構(gòu)建輔助駕駛功能,隨后人工智能的蓬勃發(fā)展讓深度學(xué)習(xí)在自動(dòng)駕駛領(lǐng)域被廣泛使用,以 waymo 為代表的自動(dòng)駕駛先驅(qū)玩家開創(chuàng)了激光雷達(dá)+高精度地圖的感知范式,Cruise、百度等巨頭紛紛效仿。該方案中,對(duì)道路結(jié)構(gòu)、車道線等靜態(tài)環(huán)境元素的感知強(qiáng)依賴高精度地圖,而實(shí)時(shí)的動(dòng)靜態(tài)障礙物信息則強(qiáng)依賴激光雷達(dá)。高精地圖成為一項(xiàng)“基礎(chǔ)設(shè)施”,將很多在線難以解決的問題提前存儲(chǔ)到地圖數(shù)據(jù)中,行車時(shí)作為一項(xiàng)重要的感知數(shù)據(jù)來源,減輕傳感器和控制器的壓力。由于該方案只能在有圖地區(qū)行駛,也被一些人形象的稱為“有軌電車”。

  高昂的單車成本和高精度地圖成為自動(dòng)駕駛大規(guī)模推廣瓶頸。Robotaxi 成本高昂(Yole 統(tǒng)計(jì)早期 Waymo 為代表的的自動(dòng)駕駛汽車改裝成本約為 20 萬美元),高精度地圖采集制作以及合規(guī)要求繁雜(量產(chǎn)落地過程中,高精度地圖面臨:采集成本高;人工修圖制圖費(fèi)時(shí)費(fèi)力;地圖鮮度不足;國(guó)內(nèi)法規(guī)嚴(yán)格等困難),帶來該方案的泛化性較差。經(jīng)過數(shù)十年的發(fā)展,Robotaxi 的使用范圍仍被限制在特定區(qū)域,使用對(duì)象也僅局限在商用車領(lǐng)域。市場(chǎng)亟待出現(xiàn)一種單車性能強(qiáng)大、成本低廉的自動(dòng)駕駛解決方案。

  2021 年特斯拉推出 BEV+transformer、重感知輕地圖的自動(dòng)駕駛解決方案,開啟了自動(dòng)駕駛行業(yè)新的篇章。

  BEV 全稱為 Bird’s Eye-View(鳥瞰圖),即通過神經(jīng)網(wǎng)絡(luò)將各個(gè)攝像頭和傳感器獲取的信息進(jìn)行融合,生成基于俯視的“上帝視角”的鳥瞰圖,同時(shí)加入時(shí)序信息,動(dòng)態(tài)的對(duì)周邊環(huán)境進(jìn)行感知輸出,便于后續(xù)預(yù)測(cè)規(guī)劃模塊使用。正如人類一樣,駕駛行為需要將各處觀察到的信息綜合到統(tǒng)一的空間中,來判別什么地方是可以行駛的區(qū)域。究其原因,駕駛行為是在 3D 空間中的行為,而鳥瞰圖則是將 2D 的透視空間圖像轉(zhuǎn)換為 3D 空間,不存在距離尺度問題和遮擋問題,使得算法可以直觀的判斷車輛在空間中的位置以及與其他障礙物之間的關(guān)系。

  2021 年特斯拉在 AI Day 上第一次將 BEV+transformer 的算法形式引入到自動(dòng)駕駛,開啟了自動(dòng)駕駛的嶄新時(shí)代。首先 BEV 空間的構(gòu)建,實(shí)際上就是尋找一種恰當(dāng)?shù)姆绞?,將多個(gè) 2D 的圖像和傳感器信息綜合轉(zhuǎn)化成為一個(gè) 3D 的向量空間。經(jīng)過多次嘗試,特斯拉最終引入了 Transformer 大模型來實(shí)現(xiàn)這一轉(zhuǎn)換。

  Transformer 大模型是近年人工智能領(lǐng)域的熱門算法,其主要通過注意力機(jī)制來分析關(guān)注元素之間的關(guān)系進(jìn)而理解外部世界。早年被應(yīng)用于自然語言處理領(lǐng)域,后續(xù)延展到計(jì)算機(jī)視覺等多個(gè)方向。算法的優(yōu)勢(shì)顯著:

  ? 具有更好的全局信息感知能力:Transformer 模型更關(guān)注圖像特征之間的關(guān)系,因此會(huì)跟多關(guān)注整個(gè)圖像的信息,卷積神經(jīng)網(wǎng)絡(luò)更多關(guān)注固定大小區(qū)域的局部信息,因此 Transformer 在面對(duì)圖像中長(zhǎng)程依賴性的問題擁有更好的表現(xiàn)。

  ? 天花板高企適用于大規(guī)模數(shù)據(jù)訓(xùn)練場(chǎng)景:在圖像識(shí)別能力方面,Transformer擁有更高的上限,隨著訓(xùn)練數(shù)據(jù)量的增長(zhǎng),傳統(tǒng) CNN 模型識(shí)別能力呈現(xiàn)飽和態(tài)勢(shì),而 Transformer 則在數(shù)據(jù)量越大的情況下?lián)碛懈玫谋憩F(xiàn)。而自動(dòng)駕駛洽洽為面向海量的數(shù)據(jù)場(chǎng)景,要求有足夠好的精度的場(chǎng)景。

  ? 擁有多模態(tài)感知能力:Transformer 可實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的處理,應(yīng)對(duì)圖像分類、目標(biāo)檢測(cè)、圖像分割功能,并實(shí)現(xiàn)對(duì) 3D 點(diǎn)云、圖像等數(shù)據(jù)的融合處理。

  ? 靈活、較好的泛化性能:Transformer 可適用于不同大小的輸入圖像,同時(shí)外部環(huán)境包含擾動(dòng)的情況下仍能保持較好的檢測(cè)性能。

  但 CNN 網(wǎng)絡(luò)在提取底層特征和視覺結(jié)構(gòu)方面有比較大的優(yōu)勢(shì),而在高層級(jí)的視覺語義理解方面,需要判別這些特征和結(jié)構(gòu)之間的如何關(guān)聯(lián)而形成一個(gè)整體的物體,采用 Transformer 更加自然和有效。同時(shí) CNN 也擁有更好的效率,可以采用更低的算力實(shí)現(xiàn)效果。因此業(yè)界通常會(huì)將 CNN 和 Transformer 結(jié)合來進(jìn)行物體識(shí)別。

  特斯拉的自動(dòng)駕駛算法結(jié)構(gòu)中,首先將攝像頭信息無損采集,送入卷積神經(jīng)網(wǎng)絡(luò) Regnet 來提取不同尺度的圖像特征,接著使用 BiFPN 進(jìn)行特征融合,然后將這些特征送入 Transformer 模塊,利用 Transformer 中的多頭注意力機(jī)制來實(shí)現(xiàn) 2D 圖像特征到三維向量空間的轉(zhuǎn)換和多攝像頭特征系信息的融合,之后接入不同的“頭”如交通標(biāo)志檢測(cè)、障礙物檢測(cè)等,來實(shí)現(xiàn)不同任務(wù)的處落地,形成一套優(yōu)雅的,可完美實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的感知算法。由于不同的“頭”之間采用了共享的特征提取網(wǎng)絡(luò),因此被特斯拉起名為“九頭蛇”算法架構(gòu)。

  在 2D 圖像到 3D 向量空間轉(zhuǎn)換的環(huán)節(jié),特斯拉在行業(yè)內(nèi)首次引入了 Transformer。

  具體而言,先構(gòu)建一個(gè)想要輸出的三維的柵格空間,并對(duì)其進(jìn)行位置編碼成為查詢向量(Query),然后將每個(gè)圖像和自己的特征輸出相應(yīng)的查詢鍵碼(Key)和值(Value),最終輸入到注意力機(jī)制中輸出想要的結(jié)果。類似于每個(gè)圖像中的特征都廣播自己是什么物體的一部分,而每個(gè)輸出空間的位置像素像拼圖一樣,尋找對(duì)應(yīng)的特征,最終構(gòu)建出希望輸出的向量空間。(Query、Key、Value 分別為 Transformer 算法中的參數(shù),通過將外部世界轉(zhuǎn)化為參數(shù)而實(shí)現(xiàn)信息處理和任務(wù)輸出)

  為了讓自動(dòng)駕駛算法擁有類似一段時(shí)間內(nèi)“記憶”的能力,特斯拉在感知網(wǎng)絡(luò)架構(gòu)中加入了時(shí)空序列特征層。通過引入慣性導(dǎo)航傳感器獲取的包含速度和加速度等自車運(yùn)動(dòng)的信息,算法模型可獲取時(shí)間和空間的記憶能力。具體而言,特斯拉給算法加入特征隊(duì)列模塊(Feature Queue),他會(huì)緩存一些特征值(包含歷史幀的 BEV特征、慣導(dǎo)傳感器信息等),便于了解車輛行動(dòng),這個(gè)序列包含時(shí)間和空間記憶。然后引入視頻模塊(Video Module)使用空間循環(huán)神經(jīng)網(wǎng)絡(luò)(Spatial RNN)/transformer等算法將前述緩存的特征進(jìn)行融合,關(guān)聯(lián)前后時(shí)刻信息,使得模型具有記憶能力,讓自動(dòng)駕駛汽車將同時(shí)能夠記住上一段時(shí)間和上一段位置的檢測(cè)信息。

  構(gòu)建 BEV 模型一大重要任務(wù)是實(shí)現(xiàn) 2D 圖片到 3D 空間的轉(zhuǎn)換,通常業(yè)內(nèi)有四大類方式實(shí)現(xiàn) 2D-3D 視角轉(zhuǎn)換:早期通常以基于相機(jī)內(nèi)外參數(shù)(焦距、光芯、俯仰角、偏航角和地面高度)的幾何變換的 IPM(逆透視變換)實(shí)現(xiàn),由于該方式基于地面純平、俯仰角一定的假設(shè),約束條件實(shí)現(xiàn)難度高;后續(xù)英偉達(dá)推出 BEV 行業(yè)的開山之作LSS算法,但由于其計(jì)算量龐大以及精度仍然有限,難以支撐BEV的真正落地;其后學(xué)界業(yè)界探索了眾多方案,包含基于神經(jīng)網(wǎng)絡(luò),通過監(jiān)督學(xué)習(xí)數(shù)據(jù)驅(qū)動(dòng)實(shí)現(xiàn) BEV空間構(gòu)建等方式,但深度估計(jì)的精度均不盡人意。2021 年,特斯拉首次將 Transformer應(yīng)用于 BEV 空間的構(gòu)建,在多攝像頭視角下,相比傳統(tǒng)感知方式,大幅提升了感知精度,該方案推出后也迅速被業(yè)界廣泛追捧。

 ?。?)完美實(shí)現(xiàn)多攝像頭、多傳感器的信息融合,極大方便后續(xù)規(guī)控任務(wù)BEV+Transformer 實(shí)際上引入“特征級(jí)融合”(中融合)方式。通常自動(dòng)駕駛汽車擁有 6-8 個(gè)攝像頭以及其他多種傳感器,在感知過程中,需要將各類傳感器的信息進(jìn)行融合。傳感器融合大體可分為幾大類:

  ? 數(shù)據(jù)級(jí)融合(前融合):直接將傳感器采集的數(shù)據(jù)如圖像和點(diǎn)云融合。該方案優(yōu)勢(shì)在于數(shù)據(jù)損失少,融合效果好,但時(shí)間同步、空間同步要求達(dá)到像素級(jí)別,難度較高,需要對(duì)每個(gè)像素計(jì)算,對(duì)算力消耗大,目前少有使用。

  該方案是此前自動(dòng)駕駛主流采用的方案,被廣泛應(yīng)用于攝像頭之間、不同傳感器之間的信息融合。優(yōu)勢(shì)在于算法簡(jiǎn)單、解耦性好即插即用。但也存在致命問題,由于融合前的處理損失了大量關(guān)鍵信息,影響感知精度,融合結(jié)果容易沖突或錯(cuò)誤。此外后融合中的融合算法仍然基于規(guī)則,無法進(jìn)行數(shù)據(jù)驅(qū)動(dòng),存在局限性。

  ? 特征級(jí)融合(中融合):則將原始傳感器采集的數(shù)據(jù)經(jīng)過特征提取后再將特征向量進(jìn)行融合。該方案的優(yōu)勢(shì)在于,數(shù)據(jù)損失少、將目標(biāo)“分解”為特征,更容易在不同相機(jī)和傳感器之間關(guān)聯(lián),融合效果好。在 BEV+transformer算法中實(shí)際上均采用中融合的方式。

 ?。ㄌ貏e說明:本文來源于公開資料,摘錄內(nèi)容僅供參考,不構(gòu)成任何投資建議,如需使用請(qǐng)參閱原文。)

  新能源汽車 儲(chǔ)能 鋰電池 燃料電池 動(dòng)力電池 動(dòng)力電池回收 氫能源 充電樁 互聯(lián)網(wǎng)汽車 智能駕駛 自動(dòng)駕駛 汽車后市場(chǎng) 石油石化 煤化工 化工產(chǎn)業(yè) 磷化工 基礎(chǔ)化工 加油站 新材料 石墨烯 高分子 耐火材料 PVC 聚氯乙烯 綠色能源 清潔能源 光伏 風(fēng)力發(fā)電 海上發(fā)電返回搜狐,查看更多J9九游會(huì)官方·登錄入口

TOP