盡管今天語言模型的開源生態已經十分蓬勃,但機器人領域,開源還是很小眾的詞匯,相比于模型的開源,數據的開源更為稀缺,甚至有公司直言 " 數據是不可能開源的 "。
本來就不走尋常路的星海圖,決定繼續唱 " 反調 "。
硅星人獨家了解到,星海圖即將開源全球首個開放場景高質量真機數據集 Galaxea Open-World Dataset,及其 G0- 快慢雙系統全身智能 VLA 模型。這一舉動無疑在相對各自為戰的機器人行業打開了一條新的路徑。
成立不到兩年,星海圖已完成 7 輪融資、累計近 15 億元人民幣,最新 1 億美元 A4/A5 輪由今日資本與美團系共同領投,公司估值正快速沖向 10 億美元,是目前機器人獨角獸中最有特點的一家公司。
在行業普遍保守的背景下,走開放路線,讓這家公司不再是技術構想上獨樹一幟,而是真刀真槍地干起了的革命性實踐。
據硅星人了解,星海圖即將發布的全球首個開放場景高質量真機數據集 Galaxea Open-World Dataset 包含 500 小時真實世界移動操作數據,覆蓋家庭、廚房、零售、辦公等 50 個場景、150 類任務、1600+ 物體、58 種操作技能,全程使用星海圖 R1 Lite 本體采集,保證動作空間一致性與語言標注的高精度對齊。這一數據集的突破性在于其真實性和完整性的完美結合。以往的機器人數據集要么規模有限,要么局限于實驗室環境,要么因為多平臺采集導致數據一致性問題。而星海圖的數據集不僅規模龐大,更重要的是全部來自真實的生活和工作環境,同時通過統一硬件平臺確保了數據的一致性和可靠性。
星海圖 G0- 快慢雙系統全身智能模型結合 System-2(規劃,VLM)+ System-1(執行,VLA),分別在 2Hz 與 200Hz 異步運行,實現從自然語言指令到 23 自由度全身控制的長程任務執行。這種架構設計靈感來源于人類認知的 " 雙系統理論 ",巧妙地將深度思考與快速反應結合起來。慢系統負責理解復雜指令、分析環境狀況、制定執行計劃,而快系統則專注于精確的動作執行和實時反饋控制。兩個系統的異步協作不僅提高了執行效率,也增強了系統的魯棒性和適應性。
星海圖 G0 快慢雙系統全身智能模型,結合 System-2(規劃,G0-VLM)+ System-1(執行,G0-VLA)異步運行,實現從視覺和語言指令到 23 自由度全身控制的長程任務執行。提出 3 階段訓練方法:跨本體預訓練泛化感知與語言理解,再用單本體高質量數據精訓動作控制,最后少樣本后訓練提升特定任務表現。
更令人印象深刻的是其三階段訓練策略的創新性。跨本體預訓練泛化感知與語言理解,再用單本體高質量數據精訓動作控制,最后少樣本后訓練提升特定任務表現。這種漸進式的訓練方法解決了機器人學習中的一個核心問題:如何在保持通用性的同時實現精確控制。星海圖團隊通過大量實驗發現,當預訓練平臺與目標機器人之間存在較大體現差距時,跨體現預訓練的效果會顯著減弱,甚至產生負面影響。這一發現顛覆了業界對于跨平臺預訓練必然有益的傳統認知,突出了單體現預訓練的重要性,特別是對于需要精確全身協調的復雜任務。
在實際性能表現上,G0 突破了柔性物體操作、全身移動控制、長程任務與泛化性的瓶頸,在少樣本遷移與本體特定技能上均顯著優于現有最新的 benchmark Pi0,特別在整理床鋪等全身協調任務表現領先。這些任務的成功執行不僅驗證了技術方案的有效性,更重要的是證明了真實世界數據訓練的價值。整理床鋪這樣的任務涉及柔性物體操作、全身協調控制、長序列規劃等多個技術難點,G0 的優異表現表明其已經具備了在復雜真實環境中執行實用任務的能力。
站在行業全局的高度來看,如果能夠引起數據共享的連鎖反應,整個機器人行業或許將打開另外一種局面。
高質量機器人數據集的開源將顯著降低中小企業和研究機構的研發門檻。過去,收集大規模真實世界機器人數據需要巨額投資和長期積累,許多有想法的團隊因為缺乏數據基礎而無法開展研究。現在,研究者可以直接基于 Galaxea 數據集進行算法創新,大大縮短了從研究到應用的周期,讓更多的創新想法有機會得到驗證和實現。
其次,統一的數據格式和標注標準有助于建立行業基準,推動機器人領域的規范化發展。不同團隊的研究成果將具有可比性,避免了各自為政、重復建設的問題,促進了科學研究的系統性和累積性進步。這種標準化還為監管部門制定相關政策提供了重要參考,有助于建立機器人安全、倫理等方面的行業規范。
更重要的是,開源數據集為不同領域的專家提供了共同的研究平臺,激發了跨學科創新的活力。計算機視覺、自然語言處理、控制理論等不同領域的研究者可以在同一個數據基礎上驗證各自的理論和算法,這種跨領域的交流與合作往往能夠產生意想不到的創新突破。同時,硬件廠商、軟件開發者、系統集成商等產業鏈各環節也能夠基于統一的數據標準進行更好的協作,形成良性的生態循環。
正如開源軟件推動了互聯網的繁榮,開源機器人數據和模型也可能催生出一個更加開放、協作、創新的機器人生態系統。在這個生態中,技術創新的速度將大幅提升,應用場景將更加豐富,而機器人真正走入千家萬戶的愿景也將更快實現。
這家 " 不走尋常路 " 的公司,用實際行動證明了有時候 " 反叛 " 并不意味著對抗,而是為了推動整個行業向前發展,或許正在為機器人行業找到新的方向。