AI助力擺脫智障,汽車座艙智能大升級
一如十年前轟轟烈烈的互聯網+、+互聯網熱潮,自DeepSeek R1在春節期間爆火之后,新年伊始,國內各行各業也馬不停蹄地開展起了一波轟轟烈烈的大模型+、+大模型的熱潮。勤奮努力到感動自己、內卷到讓所有人都感到不可思議的本土車企,當然也希望大模型來增加自家產品、運營、生產制造等方方面面的競爭力。在自動駕駛領域,站在“大模型+”的視角下,大模型可以加速自動駕駛數據閉環,通過數據自動標注、仿真場景的重建和生成提高模型的迭代速度。站在“+大模型”的角度,車輛部署的視覺語言模型可以提升對復雜場景的理解能力,給出合理的車道、速度和動作規劃,或者在視覺-語言-動作模型下直接輸出比肩人類老司機水平的行車軌跡。在智能座艙或智能空間領域,站在“大模型+”的視角下,大模型可以提高程序員的生產力,比如長城汽車、蔚來汽車通過代碼大模型賦能代碼的編寫和審查,站在“+大模型”的角度,在感知層面,大模型可以用于實現多模態感知,在決策層面,各類車載GPT陸續上車,在執行層面,大模型助力空間交互,使人車交互從機械的菜單式交互走向了更加自然類人的情感交互。鑒于在過去一年的時間里,業界已經針對大模型如何助力自動駕駛有過太多的論述,本文把焦點放在智能空間領域,看一看大模型時代的智能空間背后的技術發展趨勢。
多模態感知,精準理解用戶需求
面對面,為什么還在想著你?因為,面對面的看見只能傳遞單模態的視覺信息,信息維度單一造成的情感深度不足,反而觸發并強化了對多模態完整體驗的渴望。只有輕輕的撫摸、溫柔的甜言蜜語、體溫的互相傳遞、呼吸著彼此的呼吸和眉目傳情全維一體,才能滿足人類對全感官同頻共振的本能愛情追求。人同此心,車同此理,只有具備多模態全域感知能力和深度理解能力的智能座艙,才能承載消費者希望智能座艙更懂你的深切渴望。
智能座艙中的多模態感知通過時鐘同步技術實現多模態數據的同步采集,并通過語音+手勢+視線+觸控+生物狀態的因果鏈建立跨模態之間的關聯,從而從單模態的信息采集走向多模態的多源協同,在車內通過手勢識別、語音識別、人臉識別、觸控、聲控、手勢控制建立圍繞人或“以人為中心”的感知體系。正如基于規則驅動的自動駕駛系統無法應對層出不窮的Corner Case一樣,將來自不同模態的語音、視覺、觸控信息通過規則的形式融合在一起,也很難建立跨模態關聯能力,解決用戶在各種各樣場景下層出不窮的長尾需求難題。恰如端到端形式的VLA智駕大模型在一定程度上解決了自動駕駛中的Corner Case一樣,同樣是端到端范式的VLM大模型也正在進入智能座艙里,以多模態感知實現對各種用戶長尾需求的精準理解。

圖片來源:小鵬汽車
不過,受制于訓練數據不足、座艙算力瓶頸等一系列問題,和自動駕駛行業玩家們紛紛轉向端到端和VLA模型不一樣的是,在智能座艙領域,大家部署座艙VLM的方式不盡相同。大部分車企的做法是在端側通過參數量較小的VLM模型做多模態感知,然后以結構化數據的形式將感知結果上傳到云端,依靠云端的DeepSeek等推理大模型深度理解用戶需求并進行決策,華為的鴻蒙座艙Harmony Space 5里的混合大模型架構MoLA就是這種端云結合的架構。

圖片來源:華為
與華為爭奪本土自動駕駛王者桂冠的小鵬汽車選擇了不一樣的技術路線。在前段時間的小鵬G7發布會上,小鵬汽車宣布在Ultra車型里以單顆算力在700+TOPS的圖靈AI芯片部署座艙VLM。很顯然,和本地感知+云端決策的混合大模型架構不同,小鵬汽車的方案是在端側部署大參數VLM,以單模型架構統一地完成多模態感知、用戶需求的深度理解和決策。
兩相比較,小鵬代表著更先進的技術路線。如果華為能突破座艙芯片算力的限制,它大概率也會一步到位地選擇小鵬汽車的單模型架構方案,因為這種本地端側部署方式才能實現真正的千人千面。
本地部署,助力千人千面
最近這段時間以來,自動駕駛芯片廠商和方案供應商們開始統一戰線,一致勸阻本土車企放棄自動駕駛算法的自研。比如,國內頭號自動駕駛芯片廠商地平線表示,站在終局的角度,只有20%的車企選擇自研,80%的車企會選擇第三方的自動駕駛方案。他們這個觀點的出發點在于,自動駕駛作為智能電動汽車的一項功能、Feature,做不出差異化,畢竟,所有的自動駕駛系統都要同時滿足安全、舒適、高效、不違反交規這些指標。地平線建議,就像智能手機廠商基本上都不做基站這種功能價值,而是將研發資源投入到拍照這類情緒價值上一樣,車企們不需要把有限的研發資源投入到做不出差異化、只具有功能價值的自動駕駛上面,而要將研發資源投入到智能座艙這一類能夠提供千人千面的用戶體驗、從而具備極高的情緒價值的領域里面。

圖片來源:地平線
給奮力自研自動駕駛的蔚小理道一聲抱歉,我部分同意余凱博士的觀點。對智能電動汽車而言,自動駕駛安全、舒適、高效的明確標準與目標用戶人群無關,可類比智能手機的基帶,能做到千人千面的智能座艙或智能空間更像智能手機的拍照、攝影,能帶給用戶個性化的服務體驗。
所謂千人千面,是指可以根據各個用戶的使用習慣自我學習和迭代,通過“自我成長”不斷優化,為智能空間里的每一個成員都帶來專屬的個性化智能體驗。很顯然,千人千面的前提之一是前文所述的多模態感知能力,只有多模態才能懂你所需,想你所想,第二個前提是要擁有大量的用戶數據,通過對用戶數據的長期學習,建立起記憶體,構建起用戶畫像。記憶體聯接過去,多模態感知現在,有了多模態即時感知和基于記憶體的上下文能力,才能真正洞察用戶需求背后的因果關系。

圖片來源:蔚來汽車
這兩個前提都要求座艙VLM部署在端側和本地。根據《汽車數據安全管理若干規定》,默認情況下不能收集車內攝像頭、麥克風采集的駕乘人員面部、語音、生物特征,即便征得了用戶同意,將收集的數據上傳云端時也必須脫敏,面部、指紋、聲紋等任何能夠確定個人身份的信息都需要模糊處理。臉都不讓看,當然無法實現千人千面,而且,以結構化數據將感知結果上傳到云端,理論上將不可避免地面臨信息壓縮和細節丟失問題,沒有了表情和聲調的細節,感知能力自然無法盡如人意。當然,條例歸條例,標準歸標準,或許也約束不了大膽的車企。
寫在最后
目前,大部分車企都將資源重點投到了自動駕駛上面,智能座艙方面沒有多少突出的進展,這種局面應該改變一下了。展望未來,隨著座艙芯片算力升級和本地VLM座艙大模型的落地,基于交互數據、情景數據訓練出來的智能座艙不僅可以多模態地感知,還能不斷地學習個人專屬數據,構建越來越精準的用戶畫像,最終讓你情不自禁、熱淚盈眶地喊出那三個字:你懂我!是不是覺得雞皮疙瘩掉了一地?








評論