關于ZAKER 合作
      極客公園 17小時前

      對話理想智駕負責人:撕掉「奶爸車」標簽,智駛是理想的「新引擎」

      當輔助駕駛的浪潮席卷而來,我們似乎都感受到了一個瓶頸:在高速公路上,它像個老手,穩健可靠;可一回到復雜的城市街道,它就變回了需要時時看管的「新手」。為什么會這樣?

      本質上,之前以「端到端」為代表的 AI 駕駛模型,其核心是模仿學習,像「猴子開車」。你讓一只猴子看 1000 萬段人類開車的視頻,它能學會模仿人的動作——在什么情況下打方向盤,什么時候踩剎車。靠著這種「模仿」,理想汽車在短短 7 個月內,就將輔助駕駛的平均接管里程從 12 公里提升到了 120 公里。

      然而,模仿終究是模仿。「猴子」并不會真正思考,它只是在應激反應。當遇到一個從未見過的街角,一個突然竄出的行人,一個復雜的、充滿不確定性的路口時,這只「猴子」的大腦就宕機了。因為它只會「怎么做」,卻不懂「為什么」。

      整個行業,都走到了這個模仿的瓶頸前。下一步,路在何方?

      答案,藏在一個全新的概念里—— VLA(視覺 - 語言 - 行為)大模型。

      2025 年 7 月底,在北京理想汽車的研發總部,極客公園在理想 i8 正式發布前,深度體驗了理想第一版 VLA 模型,這也是國內第一個量產上車的 VLA 模型。同時還訪談了理想汽車自動駕駛研發高級副總裁郎咸朋博士及核心研發成員團隊,在與他們的深度訪談中,我們得以一窺這場變革的核心。

      如果說過去的端到端是兩步式:「看見,然后行動」。那么 VLA 的核心,就是在「看見」(Vision)和「行動」(Action)之間,植入了一個至關重要的環節——語言(Language)。它就如同一個會思考、能推理的大腦,它不僅能看懂「前方有障礙物」,更能結合上下文理解「這是一條狹窄的雙向車道,對向有來車,我應該減速避讓,而不是冒險超車」。

      這種「內心戲」的思考過程,讓汽車的行為決策不再是一個冰冷的黑箱,而是變得可以理解,也更接近人類的思維。我們終于有機會窺見,那只「猴子」的腦子里,在想些什么。

      那么,擁有了「大腦」的 VLA 司機,想成為一個什么樣的角色?

      理想的答案出人意料,卻又在情理之中:不做「老司機」,要做「私人司機」。

      這二者有什么區別?老司機關注的是「我怎么把車開好」,核心是駕駛者本身;私人司機關注的是「怎么讓乘客坐得舒服、安心」,核心是乘坐者。

      因此,在首個 VLA 版本中,「安全」被放在了「效率」之前。當遇到復雜的路況,它寧愿慢一點、穩一點,也絕不做任何讓家人感到不安的激進冒險。它的每一次決策,都以你和家人的安心為優先準則。

      當然,要實現這一切,絕非易事。理想汽車的路徑,并非是跳過模仿學習直接進入 VLA,而是建立在數據、算力、算法和工程能力上的長期積累。

      特別值得一提的是,理想汽車 VLA 的訓練場是「世界模型仿真系統」。你可以把它理解成一個為 AI 司機量身打造的、無限逼真的「元宇宙」駕駛模擬器。在這個虛擬世界里,AI 不再是單純模仿,而是通過一次次「試錯」去探索和學習。

      它每天可以在這里「行駛」超過 30 萬公里,經歷現實中普通人一生都難遇到的極端、危險場景(Corner Case)。它會經歷無數次失敗,并從失敗中總結經驗,以驚人的速度進化。

      今天,第一版的 VLA 系統相比過去,也許只是在舒適性上邁出了一小步。但真正的變革在于,它的進化將不再是線性的,而是指數級的。當它的平均接管里程從 100 公里躍升至 1000 公里時,一個新的時代就將開啟。

      這場深刻的變革才剛剛拉開序幕。也許在不久的將來,當我們再次坐進駕駛座,會發現那個曾經需要我們時時警惕的系統,已經成為了一個值得托付的「人」。

      自動駕駛的「ChatGPT 時刻」,或許比我們想象中來得更快。

      理想汽車自動駕駛研發高級副總裁 郎咸朋博士 | 圖片來源:理想汽車

      以下為訪談內容,部分有刪減:

      訪談嘉賓:

      理想汽車自動駕駛研發高級副總裁 郎咸朋博士

      理想汽車自動駕駛高級算法專家 詹錕

      理想汽車自動駕駛高級算法專家 湛逸飛

      VLA:通往更高階自動駕駛的「必經之路」?

      Q:去年,「端到端」成為輔助駕駛主流方案,但也很快遇到瓶頸,VLA 是當時唯一考慮的技術路線嗎?還是有其它備選方案?

      郎咸朋:我們一直保持對前沿算法的探索,做端到端時也在考慮下一代技術。當時業內最有前途的就是 VLA,它不僅用于輔助駕駛,更是具身智能和未來機器人領域的通用技術框架。經過長時間的調研和探索,我們制定了 VLA 的技術方向。

      Q:VLA 看似并未顛覆「端到端」,這是否意味著它更多是工程能力的創新,而非革命性的技術路線革新?

      詹錕:VLA 不只是工程方面的創新。VLA 也是一種端到端(場景輸入,軌跡輸出),但算法的創新是多了「思考」。端到端可以理解為 VA(視覺 - 動作),VLA 加入了 Language(語言),對應思考和理解,把機器人范式統一。但 VLA 作為大模型,部署在邊緣端算力上極具挑戰,需要工程創新,必須有大算力芯片才能部署。

      Q:行業有觀點認為,VLA 和「好的模型」是兩回事,后者更多取決于數據和強化學習。您如何看待這個觀點?

      詹錕:我贊同 VLA 是一種模型架構,不一定代表是好模型。任何模型的設計思路只代表想法,不代表能落地。要訓練出好的 VLA 模型,需要更好的數據、算力、算法、工程部署。我們認為,輔助駕駛想往 L4 或更高能力前進,L(語言)是必經之路。

      Q:多模態大模型尚未迎來真正的「ChatGPT 時刻」,理想此時量產 VLA,這是一個足夠好的解法了嗎?它距離那個引爆點還有多遠?

      詹錕:多模態沒達到 GPT 時刻。VLA 在機器人領域泛化能力不強,但在輔助駕駛這個相對統一的范式里,有機會做到一個 GPT 時刻。

      我們承認,現在的 VLA 是業界第一個要推向量產的版本,肯定會存在缺陷。這次嘗試是想用 VLA 探索一條新路徑,不一定非要達到 GPT 時刻才能量產落地。只要能通過評測、仿真驗證它能給用戶帶來「更好、更舒適、更安全」的體驗,就可以交付。

      GPT 時刻更多指的是很強的通用性和泛化性。我們會在落地以后,隨著用戶數據迭代、場景和交互的豐富,逐漸往 ChatGPT 時刻遷移。到明年我們如果到了 1000MPI,可能會給用戶一種真的到了 VLA 的 ChatGPT 時刻的感覺。

      Q:從「司機 Agent」到「更好的家庭司機」,理想對 VLA 的終極價值思考,發生了哪些變化?未來它將如何重塑我們的出行空間?

      郎咸朋:我們之前的「司機 Agent」說法迭代了,現在我們認為 VLA 應先專注于成為一個好的「私人司機」。

      我們認為 VLA 是一個底層能力,對用戶最大的價值就是把車開好。如果車都開不好,做其他事沒有意義。而且,我們分析后認為,目前的 AI Agent 產品還處于比較初級的階段。

      所以我們重新審視 VLA 的能力,核心還是把車開好,為用戶提供一個安全、舒適、安心且越開越好的司機體驗。這是我們今年 VLA 上車后想實現的目標。

      未來,在 VLA 模型的基礎上,輔助駕駛會向「移動空間」的思路發展。當車輛能做到足夠安心、安全后,它就能幫你去做其他事情,我相信那一天會很快到來。

      解構大腦 —— VLA 的「七十二變」與「數據煉金術」

      Q:理想自研的 MindGPT 基座模型,究竟比行業開源模型「好用」在何處?

      詹錕:我們自研的基座模型對部署 VLA 有很大作用,我們 VLA 是 4B 模型,比以前更大了,但推理速度更快了。核心原因是我們自研的基座架構,專門對嵌入式芯片做了定制的 MoE 混合專家架構,并不是業界任何一個開源模型都能達到這個效率。VLA 的推理幀率在 10Hz 左右,我們做了很多優化,把思考過程盡可能地能夠在車端推理出來。

      Q:云端大模型參數量是越大越好嗎?面對友商的 72B 模型,理想的 32B 模型如何應戰?車企判斷模型大小的標準是什么?

      郎咸朋:關于云端模型 72B 好還是 32B 好,我覺得各有各的好。關鍵看你是否能把模型訓練到的能力,蒸餾好了之后,能落到自己的芯片上,做好優化、量化的部署,并且轉換成用戶的實際價值。能做到這點,都是好的應用。

      當然,模型的參數量越大,訓練消耗的資源就會越多,效率也可能低一點。把大模型蒸餾成小模型,能力損失也可能存在,這很考驗各家工程師的能力。最終,我們還是要看最終的產品體驗以及給用戶帶來的價值。

      湛逸飛:其實也不完全只看參數量,你給它什么數據也是非常重要的。現在很多大模型都是基于互聯網通用數據,而數據污染已越來越嚴重。我們理想汽車的云端大模型,是基于自己的數據去做訓練,它在駕駛場景的理解上,比那些通用大模型的能力要強很多。我們需要的正是它對駕駛場景的理解能力。

      Q:在 VLA 的訓練中,在語言模型上是怎么避免大模型由于跟人類理解不同從而產生的反常識或者反人類習慣的生成指令,我們是如何解決的?

      詹錕:首先以現在的技術而言大模型已經有了一些初步的共識方法和思路。

      第一,我們需要對不好的數據做精細的清洗,清洗的越多,質量就越好。

      第二,生成數據。之前會有很多大語言模型會有幻覺,本質上因為「大模型」對這個東西是不理解的或者沒見過的,在它這個領域之外回答問題。所以我們需要構建很多數據,甚至生成數據,去讓它把這個領域理解到位,能把所有的知識能夠知道,甚至知道它什么不知道,這是它很重要的一個能力。

      通過這兩個思路,其實大幅能降低語言模型的幻覺能力,甚至反常識的東西。

      第三,超級對齊,讓它去更做到符合人類價值觀,比如剛剛那個例子,不能跨對向車道,就是類似的思路,這是第一個問題。

      相比端到端,VLA 的不同之處是在「看見」(Vision)和「行動」(Action)之間,加入了語言(Language) | 圖片來源:視覺中國

      Q:在浩如煙海的數據中,理想如何像煉金術士一樣,定義并篩選出能訓練出「老司機」的「黃金數據」?

      湛逸飛:我們需要的數據,一個詞總結就是「老司機數據」。我們會在云端用大模型對數據進行檢查,看它是否符合我們定義的「老司機」標準。比如,在望京有些右轉車道上有違停車,我們到底需不需要車輛壓實線繞行?如果不繞,在望京就沒法右轉。我們對這些數據理解花費了很大功夫,并做了很多清洗。

      郎咸朋:對于 corner case 和困難場景,我們會通過生成數據來提供。在強化學習階段,數據更大的作用是訓練世界模型,讓它更符合真實世界,所以我們更多的訓練數據來自合成。

      我們從理想 ONE 就開始做數據閉環。2020 年,我們就積累了 1500 萬左右的有效回傳數據。這 5 年做下來,從去年端到端開始,對手才真正把理想輔助駕駛當回事,但為時已晚,因為這些能力建設不是一天兩天就能完成的。

      如果還沿著端到端的思路做 VLA,速度一定會變慢。我們的最終目標,是在云端建立一個模擬真實物理世界的世界模型,讓算法在里面跑,就像在《SimCity》里一樣。到那時,算法在模擬世界里跑一天,等于在真實世界跑好幾年的訓練速度。一年之后,當一個 1000MPI 的產品放在你面前時,大家會覺得輔助駕駛真的來了。我相信理想肯定是第一個走出來的。

      Q:VLA 如何憑空理解「前進 10 米」這類物理概念?我們真的能完全信任一個大模型做出的判斷嗎?

      詹錕:我們不會單純地讓模型學習向前走 10 米、12 米這樣生硬的數據。但在海量的通識數據中,有很多對物理空間的理解,比如前方白車距離多少米。現在的大模型也已加入很多物理空間的知識。

      我們分享的五步訓練法,第一步就是加入通識能力和物理世界的知識,第二步進行微調,將能力和 action 結合。當我們把海量數據喂給它以后,數據具備組合泛化能力,并不是教什么學什么。當量級達到一定規模時,會涌現出一些能力。它懂了數字,懂了米數,當給它一個新的東西,就存在組合泛化的機制。我們也非常關注現在大模型的進展,隨時可以向輔助駕駛上遷移。

      Q:VLA 的「大腦」再聰明,也需要敏銳的「眼睛」。在感知層面,我們如何持續進化,解決類似「懂車帝測試」中暴露出的問題?

      郎咸朋:還是要繼續提升技術能力。在 VLA 中,我們對感知有一個比較大的升級,能看得更遠、更精細。

      比較典型的兩個例子是:我們動態物體純視覺的檢測范圍從原來的 150 米擴到了 200 米,OCC 通用物體檢測從原來的 80 米擴到了 125 米。這都是目前在 VLA 上做的技術能力提升,包括數據、包括推理性能的提升才能做到。目前我們確實會在基礎能力上做更多提升。

      理想如何將 VLA 大腦塞進車里?

      Q:從規則到端到端,再到 VLA,理想的智駕算力經歷了怎樣的指數級增長?未來的算力規劃藍圖是怎樣的?

      郎咸朋:算力增長過程與技術方案相關。在規則算法時代,訓練卡只用于訓練 BEV 模型和感知模型,數量較少。但在端到端時代,模型訓練需要大量算力,我們的訓練卡從不到 1EFLOPS 增長到去年的 10EFLOPS,增長了 10 倍左右。我們認為訓練算力是一方面,同時要增加推理算力。

      Q:理想是如何在 Thor 芯片上壓榨出翻倍算力的?將精度從 FP16 降至 FP8 甚至 FP4,如何做到性能不降反升?

      詹錕:我們從去年開始用 Orin 芯片做大模型部署,通過魔改 CUDA 底層、重寫 PTX 底層指令等方式實現。理想汽車輔助駕駛團隊的工程部署能力是一以貫之的,從早期地平線 J3,到 Orin,再到 Thor 芯片,很多技巧、分析方法和工具鏈都繼承下來了。

      關鍵是我們打磨細節的能力,通過做底層分析解決瓶頸。VLA 從最初推理一幀需要 500-600 毫秒到最后實現 10Hz,提升了近 10 倍的效率。這其中有非常多的細節,比如調整算子,讓它和芯片能力更匹配。大家常用的推理模型會用 FP16,我們把它降到 FP8,性能做了非常大的提升,未來還會用 FP4 進一步把芯片算力壓榨出來。

      郎咸朋:自研芯片的核心原因是能針對自己的算法進行特定優化,性價比和效率都會很高。現在依然使用 Thor 芯片,是因為英偉達對新算子支持較好,算力也比較充足,在 VLA 迭代過程中依然有變化的可能性。如果未來算法鎖定,為了更好的效率和成本,大家都會考慮自研芯片。

      Q:在車端部署 VLA 大模型時,理想是否會有一些輕量化的版本?如何在這場「性能」與「效率」的博弈中取得平衡的?

      詹錕:在部署時的效率和蒸餾上我們做了非常多平衡。架構上,我們的基座模型是自研的 8x0.4B 的 MOE 模型,這個架構非常適合英偉達芯片,推理速度快的同時模型容量大。

      優化上,我們最早訓練了一個 32B 的云端大模型,把它做出的思考和推理流程蒸餾到 3.2B 的 MoE 模型上。我們也針對 Diffusion 做了工程優化,并不是直接使用標準 Diffusion,而是進行了推理的壓縮。以前 Diffusion 可能要推理 10 步,我們使用了 flow matching 流匹配只需要推理 2 步就可以了,這方面的壓縮也是導致我們真正能夠部署 VLA 的本質原因。

      Q:面對未來,理想會走上自研智駕芯片的道路嗎?

      郎咸朋:自研芯片的核心原因是能針對自己的算法進行特定地優化處理,性價比和效率都會很高。現在我們依然使用 Thor 芯片,是因為英偉達對一些新的算子支持比較好,算力也比較充足,在整體 VLA 迭代過程中依然有變化的可能性。如果未來算法鎖定,為了更好的效率和成本,大家都會考慮自研芯片的。

      Q:在 Orin 與 Thor 兩個平臺,理想后續的 VLA 推送會「一視同仁」嗎?兩個平臺的能力差距何時會顯現?

      郎咸朋:我們 Orin X 或 Thor 平臺都會同步推送。目前測試來看在能力上沒有任何差異,幀率上也沒有差異,都是 10 幀。唯一的差異可能是底盤不同導致的舒適度體驗差異。

      后續的推送節奏也是同步的。我們現在肯定不會做這種差異化。但隨著下一步的迭代,如果我們在 INT4 的量化上有一些突破,那時可能會有一定差異,但現在談這個還為時尚早。

      仿真,何以成為理想的「殺手锏」?

      Q:面對「安全、舒適、效率」的「不可能三角」,現階段的 VLA,做出了怎樣的取舍?

      郎咸朋:我們的數據顯示,理想車主的人駕數據是約 60 萬公里出一次事故,而使用輔助駕駛功能是 350 到 400 萬公里發生一次事故。我們的目標是將輔助駕駛的 MPA(每兩次事故間的平均里程)提升到人類駕駛的 10 倍。

      在不可能三角中,我們的排序是安全、舒適,最后是效率。安全由 MPA 指標衡量,是最高優先級;舒適是在保障安全的基礎上,我們通過優化 MPI(每兩次人工干預間的平均里程)來重點提升舒適度,減少因急剎、重剎等不佳體驗導致的接管;效率排在安全和舒適之后。例如,即便走錯路,我們也不會通過危險的動作立刻糾正,而是在保證安全和舒適的基礎上去追求效率。

      Q:理想為何敢大幅減少實車測試,并斷言仿真測試效果更好?這背后的底氣是什么?

      郎咸朋:我們認為實車測試有很多問題,成本是其中一方面,最主要的是我們在測試驗證一些場景時不可能完全復現發生問題時的場景。同時,實車測試的效率太低了,在實車測試過程中要開過去之后再復測回來,我們現在的仿真效果完全可以媲美實車測試,現在的超級版本和理想 i8 的 VLA 版本中 90% 以上的測試都是仿真測試。

      從去年端到端版本我們就已經開始進行仿真測試的驗證,目前我們認為它的可靠性和有效性都很高,所以我們以此替代了實車測試。但仍有一些測試是無法替代的,比如硬件耐久測試,但和性能相關的測試我們基本上會使用仿真測試替代,效果也非常好。

      Q:仿真世界如何做到復刻真實物理世界?理想的「殺手锏」是什么?

      湛逸飛:我們在 2024 年進行了 150 多萬公里實車測試,來驗證仿真環境的可靠性。

      最初世界模型仿真的真實性確實存在問題,但我們通過與實車測試數據對比,在過去一年里針對仿真測試中的漏洞或缺陷進行了大量工程和算法優化,讓仿真一致性達到了非常高的程度。雖然沒有達到 100%,但準確率也可以在 99.9% 以上。

      例如,我們針對仿真環境中「200 米外看不清紅綠燈」的問題,對紅綠燈的視野模型和相機分辨率仿真進行了大量優化。正是用過去一年的時間將仿真系統的可靠性提升到了很好的程度,我們才會放心地去使用這套系統。

      Q:在仿真訓練中,如何判定一個場景的訓練已經「畢業」?從「實習司機」到「老司機」的進化需要多久?

      湛逸飛:強化學習是一個循環交替的過程。每一輪仿真,我們會給它一個打分(reward),這個 reward 會反向改變模型參數,然后我們再拿它去仿真,產生新行為。這個過程不是瞬間完成的,也沒有固定時長,主要和場景的難度相關。直到它通過了我們在仿真環境里的所有 metrics,我們才判斷這個場景的訓練完成了。

      Q:如果滿分是 100 分,您會給今天我們體驗的 VLA 版本打多少分?要達到怎樣的標準才能讓您安心地將它推向市場?

      郎咸朋:我們內部有自己的評分機制。大家試駕的這版 VLA,內部打分已經全面超越了我們最后一個端到端版本 OTA7.5,但在一些小的分數上可能還有波動。

      在真正推送給用戶之前,我們會做到一個明顯的效果提升。大家體驗的主要是我們在舒適度上的一些提升。接下來,我們會在「安全、合規、導航、效率」等維度上都會有較大幅度的提升。

      我們的目標是,讓熟悉我們車的用戶一上車就會有非常大的體驗提升;讓沒用過輔助駕駛的人,在使用時也會有很強的安全感、安心感和舒適度。

      Scaling Law 信仰,讓理想成為理想

      Q:您如何判斷輔助駕駛的商業化落地時間表?理想的變現之路將如何鋪開?

      郎咸朋:從技術層面看,我們認為 VLA 模型可以走向更高級別的輔助駕駛,但它現在處于起步階段,約等于端到端的上限。我相信 VLA 的迭代速度也會非常快,但這需要完備的算法、算力和數據等基礎能力,以及工程能力的支撐。VLA 的訓練需要和成熟的仿真環境來進行強化學習,和之前單純依靠實車數據模仿學習是完全不同的。

      商業變現最核心的影響因素是國家的法律政策。從技術上看 L4 級別的輔助駕駛落地會非常快,但從商業角度看,還有很多問題需要考慮,比如保險和事故賠償等。

      Q:如果一個新玩家想入局 VLA,會面臨哪些難以逾越的挑戰?理想的核心技術壁壘是什么?

      郎咸朋:新玩家想做 VLA 模型,沒法跳過規則算法和端到端階段。VLA 要建立在之前的基礎上,如果沒有完整的通過實車采集的數據閉環,是沒有數據能夠去訓練世界模型的。

      理想汽車之所以能夠落地 VLA 模型,是因為我們有 12 億公里的數據。只有在充分了解這些數據的基礎上,才能夠更好地生成數據。如果沒有這些數據基礎,首先不能訓練世界模型,其次也不清楚要生成什么樣的數據。同時,基礎訓練和推理算力的支撐也需要大量資金和技術能力。

      Q:在研發 VLA 過程中最大的挑戰是什么?理想在組織架構上進行了怎樣的調整?

      郎咸朋:我覺得挑戰最大的是要把整個研發流程進行迭代。每一個技術革新都伴隨著研發流程的迭代。去年端到端需要數據驅動流程,今年做 VLA 就必須要做強化學習的流程,需要快速驗證我們世界模型的可靠性,也需要快速搭建高效的仿真環境。

      組織層面,我們是 IPD(項目制)組織。不管是去年做端到端,還是今年做 VLA,都是成立內部項目組來做。這反而成為我們的一種優勢。去年端到端是 180 個人,今年 VLA 是 200 多個人,我們覺得不需要幾千人去做。我覺得做得最好的是特斯拉,永遠都是那一兩百人,做的還都挺好的。

      Q:作為國內 VLA 的「探路者」,理想在「摸著石頭過河」時,踩過最大的「坑」是什么?組織架構為此做出了怎樣的變革?

      郎咸朋:我有個最大的體驗,就是對整個行業和輔助駕駛的判斷與認知,決定了我們是否會踩坑。

      我們很早就理解輔助駕駛是個人工智能問題,必須做好算法、數據和算力。我們從 2021 年開始搭建數據閉環,這是我們能做端到端的基礎。

      同時,去年在做端到端時我們就在反思,它是不是就夠了。我們對人工智能的理解不是模仿學習,而是要像人類一樣有思維和推理能力,去解決沒有見過的事情。所以我們很快從端到端切換到了 VLA 方案。

      小的工程細節、優化等小坑肯定有,但我們沒有遇到大的判斷失誤。

      詹錕:我補充一下,可能也不叫坑,是個經驗。就是要相信 AI 的力量,相信 Scaling Law(規模法則)。我們之前相信 data Scaling Law(數據規模法則),看到了很好的效果;下一步就是堅信,當我們能給更多的數據、更大的訓練時長,它總能出更好的效果。這是 AI 界的「the bitter lesson(苦澀的教訓)」,我們要堅信這一點。

      Q:最新的調研中,智能駕駛在消費者購車決策中的權重有多高?

      郎咸朋:我們市場部的同學是做過調研的,并且給到我的反饋肯定是需要,都是排在首選 top3 里的。

      現在新購車的人對智駕的要求,我覺得一年前可能問這個問題大家還有點質疑,但現在我相信特別是新購車的用戶智駕一定是排在它的首先選要素里的,像去年麥肯錫的調研基本上都是第一或第二的購車要素。

      Q:未來,理想是否會將 VLA 這項核心能力,向行業開放、賦能嗎?

      郎咸朋:我認為是可以的,我們希望為行業做貢獻。但前提是,第一,我們是不是能夠很好地驗證這套系統,因為整個 VLA 的發展還是在技術周期的初期階段,需要繼續提升;第二,是否其他人有能力和我們一起去做這件事,因為他也需要有自己的評測方式、仿真環境,以及強化學習訓練能力。

      從公司或我個人的態度上,是希望能夠促進行業發展,但從目前 VLA 技術發展階段來看,依然是比較初級的,它的發展速度可能會比較快,像端到端一樣,用一年的時間將效果提升 10 倍。行業發展速度會非常快,我相信明年溝通的時候可能會討論一下開源的問題。

      相關標簽
      主站蜘蛛池模板: 国产日韩一区二区三区在线观看 | 久久国产午夜一区二区福利| 福利一区二区三区视频午夜观看| 无码人妻久久久一区二区三区| 国产福利在线观看一区二区| 国产激情无码一区二区app| 蜜桃视频一区二区| 韩国一区二区视频| 一区二区在线观看视频| 日本道免费精品一区二区| 无码AV一区二区三区无码| 国产大秀视频一区二区三区| 末成年女AV片一区二区| 国产午夜精品一区理论片| 国产一区二区精品久久岳| 精品一区狼人国产在线| 亚洲av乱码一区二区三区按摩 | 美女AV一区二区三区| 国产日韩精品视频一区二区三区| 国产一区二区三区夜色 | 交换国产精品视频一区| 日韩一区二区在线观看视频 | 久久精品国产亚洲一区二区| 国产福利一区二区在线视频| 视频在线观看一区二区三区| 国产精品99精品一区二区三区| 精品人妻一区二区三区浪潮在线 | 午夜天堂一区人妻| 久久久精品人妻一区二区三区| 亚洲一区二区三区日本久久九| 中文字幕精品一区二区日本| 亚洲一区二区三区高清视频| 亚洲AV成人一区二区三区观看 | 色多多免费视频观看区一区| 国产一区风间由美在线观看| 卡通动漫中文字幕第一区| 丰满岳乱妇一区二区三区| 东京热人妻无码一区二区av| 亚洲天堂一区在线| 一区二区三区无码被窝影院| 波多野结衣在线观看一区二区三区|