去年年底,李想高調宣布將要 All in AI,然而當時的 AI 戰略聽起來更像一場宏大敘事的開場白—— Mind GPT 的對話能力、L3 自動駕駛的路線圖、以及 " 硅基家人 " 的終極構想。至于具體的技術路徑,仍隱于迷霧當中。
時隔 130 天,這位掌舵者再次面向公眾,用了將近一半的時間拆解 VLA(Vision-Language-Action Model,視覺 - 語言 - 行為模型)的技術細節,理想的 AI 戰略也開始露出越來越清晰的輪廓。
VLA 的概念并非首次出現。早在 2023 年 7 月,谷歌 DeepMind 推出了全球首個控制機器人的 VLA 模型。如今這一模型概念正快速擴散到智駕領域。今年 3 月份在英偉達 GTC 大會上,理想首次發布了自己的 VLA 架構。
對于 VLA 的能力,李想坦言,它是否是一個效率最高的方式,是否有效率更高的架構出現,目前還是打問號的階段。但至少現階段 VLA 是最強架構,只有 VLA 的能力可以接近人類,甚至超越人類。
增程 " 紅海 " 鏖戰
" 做 VLA,理想走的是一個無人區。Deepseek 沒有走過這條路,OpenAl 沒有走過這條路,谷歌、Waymo 也沒有走過這條路。" 李想直言押注 VLA 技術是一個 " 無人區 " 戰略。
李想對 VLA 的執著,本質上是其在行業劇變中尋求生存與突破的必然選擇。
盡管 2024 年理想汽車以 50 萬輛交付量問鼎新勢力銷冠,但凈利潤同比下滑 31.9% 也暴露出發展隱憂。這種矛盾在價格策略上尤為凸顯:雖然李想曾公開質疑 " 降價提升銷量 " 的常規路徑,但面對市場競爭壓力,一方面去年 4 月采取降價策略,另一方面讓理想 L6 以 25 萬元以下的定價搶占市場。
這種 " 以價換量 " 的策略雖拉動銷量增長,卻導致單車利潤顯著低于高端 L 系列,整體盈利水平被稀釋。數據顯示,其單車毛利率從 21.5% 下滑至 19.8%,直接拖累凈利潤表現。
此外,首款純電車型 MEGA 的失利更暴露出技術斷檔風險——既未建立純電技術護城河,又面臨增程用戶向純電遷移的轉化困境,2025 年 5 萬輛純電目標遠低于比亞迪、特斯拉的布局速度。增程式用戶與純電用戶需求的重疊度低,也可能會導致理想在技術路線切換中面臨 " 左右互搏 " 的困境。
更為致命的是,競品們正以更激進的技術路徑蠶食其核心戰場。
華為問界 M8/M9 增程版、零跑 C 系列等車型的推出,使增程式市場從 " 藍海 " 轉向 " 紅海 "。理想 L 系列依賴的 " 冰箱彩電大沙發 " 差異化配置逐漸被效仿,產品溢價能力下降。
2025 年,競爭更加激烈。小鵬汽車將于下半年推出增程車型,以 " 純電 + 增程 " 雙線布局爭奪家庭用戶;蔚來旗下樂道品牌兩款新車直指理想 L7/L8,李斌公開宣稱 " 價格將更具殺傷力 ";華為賦能的智界 R7 增程版也擠進了戰場。增程市場的邊際收益衰退已成定局。
這些問題的本質是企業戰略換軌的陣痛。從增程市場機會主義者向智能電動長期主義者轉型,理想正支付技術路線切換的沉沒成本。
短期看,價格戰壓力與純電滯后的矛盾仍將延續;長期而言,VLA 模型與 AI 生態的協同效應或是破局關鍵——若能借技術代差重構競爭維度,在智能化體驗與工程落地間找到平衡點,或可打開第二增長曲線,否則或將陷入 " 規模陷阱 ",在銷量增長與利潤萎縮的剪刀差中喪失主動權。
AI 實現戰略突圍?
在這樣的背景下,李想布局 VLA 這條 " 無人區 " 技術路線的深層動因不難理解——試圖通過技術破局重構競爭維度。
現階段,智駕市場競爭焦點已從單純的功能實現轉向了更深層次的技術范式競爭。縱觀智能駕駛技術的發展歷程,技術路線始終處于不斷迭代中。從卷積神經網絡(CNN)的引入,循環神經網絡(RNN)的應用,到結合鳥瞰圖(BEV)與 Transformer(自注意力機制的神經網絡架構)的創新,再到端到端。
眼下,智能駕駛又來到新的十字路口—— VLA。這種架構創新打破了傳統自動駕駛系統 " 感知 - 規劃 - 控制 " 的線性邏輯,轉而模擬人類司機的思維模式:看見三維世界(3D/2D 視覺融合)、理解交通語義(語言模型解析)、推演行動路徑(思維鏈決策)。
"VLA 是一個司機大模型,像人類的司機一樣去工作的一個模型。" 李想解釋說。通俗理解,有 VLA 賦能的車不再只是一個駕駛工具,而是一個能與用戶溝通、理解用戶意圖的智能體 ; 能夠聽得懂、看得見、找得到,一個真正意義上的司機 Agent。
不過,VLA 的實現也不是一個突變的過程,在他的技術演進框架中,AI 智能被劃分為昆蟲動物智能、哺乳動物智能和人類智能三個階段。
第一階段,理想汽車自 2021 年起自研依賴規則算法和高精地圖的輔助駕駛,類似 " 昆蟲動物智能 "。
第二階段,接近 " 哺乳動物智能 "。理想汽車自 2023 年起研究,并于 2024 年正式推送的端到端 +VLM(Vision Language Model,視覺語言模型)輔助駕駛,此階段通過三維圖像判斷自身 速度和軌跡以及在空間中所處的位置,足以應對大部分泛化場景,但很難解決從未遇到過或特別復雜的問題,需要配合視覺語言 VLM 模型,但現有視覺語言模型在應對復雜交通環境時只能起到輔助作用。
在端到端的基礎上,到第三階段,VLA 將開啟 " 人類智能 " 的階段——能通過 3D 和 2D 視覺的組合,完整地看到物理世界,而不像 VLM 僅能解析 2D 圖像。同時,VLA 擁有完整的腦系統,僅能看 到物理世界,更能進一步理解物理世界,具有自己的語言和思維鏈系統,有推理能力,可以像人類一樣去執行一些復雜動作 。
" 只有讓它變成一個真正的司機,它才是一個生產力工具,不只是一個輔助工具。" 李想將 AI 工具分為信息工具、輔助工具和生產工具,在他看來,現階段人們大多還是把 AI 當作一個信息工具來用,這是不完美的。L2,L2+ 也只是把 AI 當成輔助工具在用,只有當 AI 成為生產工具時,人工智能才會真正爆發。
超級對齊,防止 AI 失控
在 AI 能力躍升的同時,行業也迎來關于 " 安全性 " 的拷問。
最近智能駕駛技術安全性被質疑,整個行業被推至輿論風口浪尖,行業普遍面臨 " 能力提升悖論 ":隨著自動駕駛能力的提升,其上限高,下限低的弊端也隨之暴露,例如有用戶會抱怨在部分路段開的不好,甚至出現危險變道。
這一困局恰與 AI 的核心命題碰撞在一起——超級對齊的概念由 OpenAI 在 2023 年提出,當時是用來解決超級智能 AI 系統可能帶來的風險和挑戰。
超級智能是指那些在認知和能力上遠超人類的 AI 系統,其潛在應用令人期待,但也帶來了前所未有的治理與安全挑戰。
超級對齊的目標就是通過設計有效且高效的對齊算法,確保這些超人類智能系統仍然安全、可靠并與人類價值觀保持一致。 例如在彎道限速 60 時,其他車輛保持 60kph,而自車保持 30kph,此時自車就成了最危險的車輛,因此為了保證安全性,需要與其他車輛進行速度對齊,以 60kph 的速度行駛,更符合法規常識。
對此,理想汽車選擇雙線突破:在技術端,在強化訓練環節理想汽車投入大量資源,并于 2024 年底組建超過 100 人的超級對齊團隊;在系統端,理想還搭建了安全對齊的監控系統,借此確認安全對齊的動作是否有效,同時也能發 現未覆蓋到的動作,并通過云端系統來觀察現有規則是否幫助到用戶,進而確認 有哪些場景需要納入安全對齊,實現閉環。
李想給出了判斷司機 Agent 是不是個好司機的三個關鍵標準:專業能力、職業能力和構建信任的能力。
此次 AI Talk 最深刻的隱喻,是理想汽車身份的重構。當李想已經宣布 " 我們不是汽車公司,而是人工智能企業 " 時,其目標已不止于銷量競爭,而是爭奪智能汽車時代的定義權。這種野心的底氣一部分就源自 VLA 的泛化能力——該模型不僅用于自動駕駛,還可賦能家庭機器人、工業設備等多元場景。
然而,這場豪賭的風險同樣清晰可見:元戎啟行、吉利汽車都已布局,行業正展開 " 軍備競賽 ",加之用戶對 AI 倫理的信任危機,都在考驗理想的工程化能力。但至少在此刻,李想用一場充滿技術密度的直播證明:理想已突破傳統車企的思維窠臼,在競爭的戰場上率先樹立起技術坐標。
(本文首發于鈦媒體 App 作者|韓敬嫻 編輯|李玉鵬)