Wayve認為,基于傳統(tǒng)機器學習方法的AV1.0架構,所面臨的根本問題是技術可擴展性。
因為它依賴復雜的傳感器、高精度地圖和手工編碼的規(guī)則,使得系統(tǒng)成本居高不下,在行為預測、規(guī)劃和處理長尾場景問題上,效果很難提升。
AV2.0不依賴傳統(tǒng)的高清地圖和手工編碼的規(guī)則,而是專注于構建數(shù)據(jù)驅動的學習型駕駛系統(tǒng),而且可以擴展、適應、推廣到系統(tǒng)從未見過的場景。
AV2.0的特點如下:
其中最重要的,就是端到端架構。
它拋棄傳統(tǒng)的「感知 - 規(guī)劃 - 執(zhí)行」的架構,將車輛傳感器原始的輸入數(shù)據(jù),直接轉換為駕駛操作輸出。
在行業(yè)內,端到端的方法已經得到了初步的驗證。特斯拉此前發(fā)布的FSD v12,就采用了端到端架構。國內外很多用戶試用過后,普遍的評價是,基本達到了人類駕駛的水準。
這種方法的核心是自我監(jiān)督學習。就像大語言模型LLM預測下一個單詞一樣,駕駛系統(tǒng)可以從原始的、未標記的數(shù)據(jù)中進行無監(jiān)督學習。
自動駕駛和大型語言模型之間有許多相似之處,從根本上講,它們都是大型的、高數(shù)據(jù)量的、復雜的決策問題。輸入模型的數(shù)據(jù)越多,AI模型的特定應用就越豐富,越具有表現(xiàn)力,無需人工輸入即可對大量駕駛記錄進行訓練。
Wayve為自動駕駛的迭代升級開發(fā)了一個快速、連續(xù)和無縫的學習循環(huán)系統(tǒng)Fleet Learning Loop,不斷記錄數(shù)據(jù)、訓練模型、評估性能和部署更新的模型,以此循環(huán)。
在量產車隊中,它能從OEM的各種車輛中收集真實世界的駕駛數(shù)據(jù),然后上傳到云端處理,再將迭代后的模型部署到車端,升級車輛的自動駕駛功能。
Wayve還一直在開發(fā)智能駕駛基礎模型(foundation model for driving)。該模型利用多模態(tài)數(shù)據(jù),包括文本和非駕駛視頻源,來優(yōu)化對駕駛環(huán)境的內部表征。
Wayve認為,這能增強AI模型的駕駛能力,允許從不同來源交叉學習與駕駛相關的概念,并提高與駕駛任務目標的一致性。
簡單來說,就是通過從多個數(shù)據(jù)源學習,可以提高車輛對傳感器流中最有意義和可操作性的方面的理解,從而提高智能駕駛的流暢度和安全性。
除此之外,Wayve還開發(fā)了LINGO和GAIA兩個模型,用來解決智駕場景的可解釋性和信任等問題。
行業(yè)內對端到端架構的其中一大擔憂是它是一個黑盒方案,其過程不可解釋。LINGO能用自然語言描述自己的駕駛決策,并解釋決策的原因。
例如在行駛過程中,LINGO做出了繞行路邊??寇囕v的判斷時,它可以向用戶輸出判斷依據(jù):由于交通堵塞,我正在緩慢靠近;我正在經過一輛停在路邊的車;因為前方道路暢通,所以我加速前進。
Wayve在去年下半年推出過LINGO-1,當時該模型以視覺和語言信息為輸入,但只能輸出語言結果。LINGO-2的輸入和輸出都可以是視覺和語言信息,甚至也包括駕駛行為,也就是能控制車輛的行駛。
按官方說法,LINGO-2是一種將視覺、語言和行動綜合起來,以解釋和確定駕駛行為的駕駛模型,是第一個在公開道路上測試的,閉環(huán)「視覺-語言-行動」駕駛模型(VLAM)。
LINGO-2 架構
LINGO-2 的亮點在于:通過語言提示,調整駕駛行為。
可以使用一些限定的導航命令,如「靠邊停車」、「右轉」等,讓LINGO-2調整車輛的行為。這也能幫助模型訓練,并且增強人車交互。
LINGO-2在指令的要求下停車
LINGO-2回答場景問題,并解釋駕駛操作
通過直接將語言和動作聯(lián)系起來,LINGO可以一定程度上揭示出AI系統(tǒng)如何做出決策,使得自動駕駛模型不再是一個「黑盒子」。
更重要的是,LINGO可以增強人類對智能駕駛系統(tǒng)的信任。
目前,LINGO-2還只在Ghost Gym模擬器中進行了驗證,在現(xiàn)實世界中用語言控制汽車的行為是否可以可靠、安全地完成,還需要更多研究。
對于長尾場景,Wayve給出的一個解決方法是GAIA-1,一個為智能駕駛打造的生成式世界模型。
GAIA-1架構
GAIA-1首先是一個多模態(tài)生成模型,利用視頻、文本和動作輸入,生成逼真的駕駛場景視頻。它能夠對車輛的行為和其他基本場景特征,進行細粒度控制。無論是改變車輛的行為,還是修改整體場景,模型都能完成。
這樣,GAIA-1可以作為仿真模擬中的重要一環(huán),生成無限的數(shù)據(jù),來訓練和驗證自動駕駛系統(tǒng),解決極端場景,特別是在獲取真實世界數(shù)據(jù)成本高或風險大的情況下。
GAIA-1可根據(jù)各種提示,生成駕駛場景
它還是一個真實的世界模型,可以學習、理解駕駛中的重要概念,比如什么是卡車、公共汽車、行人、騎自行車的人、道路布局、建筑物和交通信號燈。
所謂世界模型,是對環(huán)境及其未來動態(tài)的表征,能實現(xiàn)對周圍環(huán)境的結構化理解,就像人類對自己周圍的環(huán)境進行建模理解一樣。
將世界模型整合到駕駛模型中,使得自動駕駛車輛能夠預測未來事件,從而提前規(guī)劃行動,在復雜或未知的情況下做出更加明智的決策。
目前版本的GAIA-1擁有超過90億個可訓練參數(shù),訓練數(shù)據(jù)集包含了2019年至2023年在倫敦收集的4700小時的專有駕駛數(shù)據(jù)。模型可以預測視頻序列中的后續(xù)幀,從而在不需要任何標簽的情況下,實現(xiàn)自回歸預測能力。
目前,Wayve在商業(yè)化上的作為不多。
此前,它一直在英國生鮮配送公司Ocado的車上訓練模型,這家公司也是投資方之一,曾投資了1360萬美元。
據(jù)稱,Wayve已經在全球100多個城市開始了系統(tǒng)測試。
本輪融資后,Wayve將加速推出首款用于量產車輛的自動駕駛軟件,包括L2+智駕系統(tǒng),以及實現(xiàn)完全自動駕駛的軟件系統(tǒng)。
它也在與全球前幾大車廠商洽談合作,但具體名單未知。
原Mobileye中國區(qū)的負責人Erez Dagan加入Wayve擔任總裁,其重要的關注方向也是面向OEM的交付。Erez在Mobileye工作了20年,是全世界第一款純視覺ADAS產品的創(chuàng)始團隊成員,后來擔任產品和戰(zhàn)略執(zhí)行副總裁,并在Mobileye被收購后擔任英特爾集團副總裁。
聯(lián)系到此前馬斯克表示,特斯拉將于今年8月8日發(fā)布Robotaxi,種種跡象似乎表明完全自動駕駛的技術路線正在逐漸清晰。
Wayve的目標甚至不止于此。在最近Techcrunch的一次采訪中,Alex Kendall說到,Wayve的駕駛大模型不僅在駕駛數(shù)據(jù)上進行訓練,還對互聯(lián)網(wǎng)規(guī)模的文本和其他來源進行訓練,甚至使用英國政府的PDF文檔來訓練模型。
Wayve正在構建具身AI(Embodied AI)基礎模型,一個基于非常多樣化的數(shù)據(jù)進行訓練的通用系統(tǒng),能夠在復雜的現(xiàn)實世界環(huán)境中感知、行動、學習和適應人類行為。智能駕駛只是這一系統(tǒng)目前最大的應用場景。
快報
根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論