21世紀經(jīng)濟報道記者張梓桐 實習生董浩文 上海報道
(資料圖)
在剛剛結束的2023世界人工智能大會上,“AI大模型”的產(chǎn)業(yè)化落地問題成為了大會的焦點。如何讓新一代人工智能在現(xiàn)實應用中生根,是一眾企業(yè)和專家的關心的議題。其中,自動駕駛是“AI大模型”落地的一大方向。
在2023WAIC開幕式上,特斯拉CEO馬斯克作出判斷稱,隨著人工智能技術快速發(fā)展,預計大約在今年年末,便有望實現(xiàn)全面自動駕駛。
這一判斷令行業(yè)震動。市場開始紛紛期待,在AI大模型的加持之下,自動駕駛的“奇點時刻”是否即將到來?
在清華大學計算機系教授、博士生導師鄧志冬看來,目前的單模態(tài)語言大模型已經(jīng)擁有了足夠的能力,也具備通用人工智能的很多特征來支撐自動駕駛行業(yè)的發(fā)展。未來,行業(yè)需要進一步發(fā)展增強型的多模態(tài)大型語言模型,來對真實物理空間的自動駕駛、人形機器人進行技術支撐,以此來加速大規(guī)模的商業(yè)化落地。
自動駕駛新方向
在過去幾年內,伴隨著AI概念的起起伏伏,自動駕駛等AI落地場景的想象空間也引起著市場反復的熱議。雖然去年以來在車企紛紛邁向城市NOA賽道的背景下,許多自動駕駛軟硬件廠商開始形成商業(yè)閉環(huán),但依舊有一些因素在制約其發(fā)展。
21世紀經(jīng)濟報道記者在走訪中了解到,一方面,雖然目前車上各種傳感器種類繁多,但如何將不同類型的傳感器進行融合是一大挑戰(zhàn);另一方面,自動駕駛系統(tǒng)和人工智能系統(tǒng)的最核心問題為決策和判斷模塊,目前這些模塊還是基于規(guī)則,因此顯得不夠智能。
但人工智能大模型的出現(xiàn)在一定程度上解決了這些問題。
商湯科技聯(lián)合創(chuàng)始人、首席科學家、絕影智能汽車事業(yè)群總裁王曉剛在接受21世紀經(jīng)濟報道等媒體采訪時表示,人工智能大模型給我們帶來的革命性變化之一,就是多模態(tài)大模型對自動駕駛的賦能。
王曉剛告訴記者,人工智能大模型的特點就是用有限的能力不斷去解鎖之前不能完成的新功能和新任務,因此大模型一定會對下一代自動駕駛產(chǎn)生深刻影響。例如,多模態(tài)大模型把感知、決策,規(guī)劃、控制等眾多的模塊能夠去實現(xiàn)端到端的優(yōu)化,以最終的駕駛體驗為目標,可以極大提升其開發(fā)效率和用戶體驗。
“在未來,大模型給自動駕駛會帶來新的變化。首先,自動駕駛的核心決策模塊的規(guī)則會被人工智能的語言模型所替代,因為目前的語言模型展示出來了非常強大的推理、決策能力。與此同時,當決策模塊提升后,就可以更好的融合從感知模塊輸出的各種信息,能夠提升整體安全性和駕駛體驗?!蓖鯐詣偱袛喾Q。
除此之外,王曉剛還指出,由于語言模型具備輸出邏輯推理的過程來解釋原因的能力,所以未來的自動駕駛系統(tǒng)會有更好的可解釋性,可以更好的去診斷問題以及提升各方面的能力。
“過去自動駕駛存在著一大挑戰(zhàn),即AI模型可執(zhí)行、可解釋性不高。但現(xiàn)在大模型,尤其是語言模型,實際上不單是輸出結果,而且還可以輸出中間的邏輯推理過程來解釋背后的原因,所以未來的自動駕駛系統(tǒng)會有更好的可解釋性,當他出現(xiàn)問題的時候,可以更好的去診斷、優(yōu)化?!蓖鯐詣傉f道。
但他同時指出,人工智能的自動駕駛系統(tǒng)“上量”仍然需要一定的周期。而根據(jù)過去商湯科技在自動駕駛領域的量產(chǎn)經(jīng)驗,過去的難點用最新開發(fā)的UniAD框架去測試已經(jīng)得到了比較顯著的提升。
多模態(tài)模型
在語言、視覺、聽覺大模型都取得了長足發(fā)展的當下,多模態(tài)大模型也隨之應運而生。而這也為終端汽車的數(shù)字化、智能化進程按下了“加速鍵”。
“現(xiàn)在的汽車越來越像一臺電腦了,一輛汽車現(xiàn)在由三臺電腦控制,一臺電腦控制底盤,一臺電腦控制座艙,一臺電腦控制智駕?!痹?023年世界人工智能大會“AI與新一代車載智能感知融合創(chuàng)新論壇”現(xiàn)場,覺非科技創(chuàng)始人李東旻做出了上述的判斷。
與此同時,李東旻也為記者介紹了自動駕駛發(fā)展的不同階段。他表示,在第一階段中,智能駕駛解決方案依靠的是各個小模型的堆疊,也就是通過多個獨立“小模型”構成自動駕駛的感知、跟蹤、融合、預測等能力,而這也是現(xiàn)階段自動駕駛解決方案的主要輸出方式。其中,覺非科技的融合定位能力、激光點云融合感知能力即是自動駕駛小模型的典型代表。
而在第一階段的訓練后,許多賽道內的創(chuàng)業(yè)公司通過在算法、數(shù)據(jù)上的積累,為第二階段即“自動駕駛大模型與大數(shù)據(jù)方案”的到來,創(chuàng)造了先天的優(yōu)勢與壁壘。
李東旻對記者指出,大模型部署的難點在于算力與數(shù)據(jù)的支持?!芭e例而言,大模型所需的數(shù)據(jù)量通常是小模型的100倍以上,以前如果用10萬幀或100萬幀的數(shù)據(jù)訓練就可以達到量產(chǎn)標準,而現(xiàn)在大模型則需要至少10億幀的數(shù)據(jù)作為起點?!?/p>
因此,他表示,整個自動駕駛行業(yè)在技術路徑上也達成了“驚人的共識”,即都希望在自己的技術路徑上使用Transformer大模型。因此無論是新勢力還是傳統(tǒng)主機廠,都在自研或與覺非這樣的合作伙伴進行技術合作,開展大模型的研發(fā)與量產(chǎn)。
王曉剛也在采訪中表達了類似的觀點,在他看來,算力始終是影響大模型發(fā)展的一大要素。
而為了應對算力的挑戰(zhàn),王曉剛也坦言稱,商湯的大模型一直處于一種非常緊張的迭代狀態(tài)。“商湯的大裝置一方面需要針對不同類型的應用、不同類型的大模型進行優(yōu)化。另一方面,商湯在部署端也積極接受合作商的反饋,不斷適配各類軟硬件?!?/p>
與此同時,王曉剛也表示,大裝置也是需要針對不同類型的應用,因此不同類型模型的優(yōu)化側重點上也有所不同?!笆聦嵣?,在部署端我們也做了很多工作,比如基礎模型做完后,要開放給內部,甚至是外部的客戶合作伙伴。他們能在模型上進行反饋,做比較好的開發(fā)。當然這也需要我把這些工具和API做好?!彼f道。
關鍵詞:
責任編輯:Rex_11