一個能夠意識到失敗的機器人,或許比一個永不出錯的機器,更接近AGI(Artificial General Intelligence,通用人工智能)。
在過去的幾天中,第一財經記者近距離看到了多次“失誤”:機器人鋪床時意外卡殼、運動時突然中斷“抽搐”、操作中出現延遲……但部分機器人能夠在任務失敗后,不斷嘗試新的解法——這種由數據驅動的閉環大模型帶來的感知與反復嘗試能力,恰恰是行業追逐的技術亮點。
但圍繞機器人大模型的分歧也在不斷加劇。有人堅持“統一模型直出”,有人選擇分層設計,算力消耗、延遲表現與落地場景成為博弈焦點。另一方面,機器人企業也不斷推出靈活度更高、更便宜的本體或自研核心零部件產品來搶占市場。
現階段,共識或許并非必須。在模型或本體的局部競爭之外,行業領先者們正搶奪更重要的話語權:誰來制定統一的性能測評標準?誰能掌握核心數據集的開放權與主導權?這些問題的答案或許將直接決定未來的行業競爭格局。
機器人失敗了,也會思考了
機器人正在收拾床鋪,但它的抓夾突然停頓,身體失去了平衡,死死地咬住被子的一角不放開。
在機器人主動嘗試幾次調整角度也未能找到角度松開抓夾時,許華哲宣告了這次任務的失敗。他說:“我們的機器人似乎沒有找到一個很好的辦法來繼續完成這次任務,希望大家給他一些時間,稍后再來觀看。”
許華哲是清華大學交叉信息研究院助理教授,同時也是星海圖的聯合創始人。第一財經記者在一旁全程觀察到了這次“失敗”,許華哲告訴記者,在具身智能模型發展初期,這個狀況發生非常正常,“就這幾天機器人的工作情況來看,這種情況的發生概率不高”。
機器人的“失敗”時刻。圖片來源:喬心怡
星海圖首席科學家、清華交叉信息學院助理教授趙行在向記者提及此事的時候,也坦言,在這次失敗的過程里,他希望大家能看到的是模型自主學習的能力。這個執行鋪床任務的機器人身上搭載的是星海圖新發布的端到端雙系統全身VLA模型G0。“我們正在做的是一個閉環的大模型系統,所以在搭載G0的機器人察覺到自己任務失敗之后,他仍然會反復嘗試去完成任務。”
“他起碼能夠意識到自己沒有成功,這是數據驅動的具身大模型一個典型的標志。”趙行解釋,傳統的機器人系統,更多是按照既定程序機械執行,一旦出現偏差,也會像“走流程”一樣繼續做下去,哪怕動作已經脫離目標。
但由數據驅動的具身大模型,也是這一波具身智能AI模型的追逐點,是機器人能夠利用模仿學習、強化學習等方式,通過傳感器感知環境狀態,將實時反饋與任務目標進行比對,如果判斷未達成預期,就會觸發新的動作嘗試。
這種能力并非源自人工預設,而是依靠大量數據訓練與模仿學習逐步習得,因此它不僅會“做動作”,還會“評估結果”,并且不斷學習,最終“琢磨”出一個可行方案。
沒有共識又如何?擊穿場景才是正經事
在過去的幾天中,包括星海圖、自變量、宇樹科技等機器人企業創始人在內,都在公開場合表達了對具身智能大模型的追逐。
具身智能大模型的背后,是數據、算力和算法。數據和算法又有緊密的關系——數據規模越大,對算力的需求越高,而算力的提升又直接拓展了可處理的數據量級與模型復雜度。
正如宇樹科技的創始人王興興所說:“大家對于基礎數據的關注度太高了。”他認為,相比數據,機器人的模型架構是更應該探討的點,因為現在的模型“不夠好,也不夠統一”。
當前,業界追求的主流大模型方向為VLA(Vision-Language-Action,視覺語言動作)模型。自變量機器人創始人兼CEO王潛告訴記者,業界對VLA模型的定義并非絕對統一,“相對寬泛的定義是,只要模型具備視覺、語言和動作處理能力,就可以稱為VLA模型”。從這個角度上看,目前業內大部分模型都可歸入這一范疇。
不過,在具體架構上,各家企業都還在探索自己的路。自變量的通用具身大模型WALL-A并沒有采用分層架構,而是將視覺、語言和動作的輸入輸出全部交由同一個模型完成,省去了中間分層銜接帶來的損耗。“這是為了提升模型效率。”王潛解釋,如果采用分層架構,隨著信息在不同層之間傳遞,某一層產生的微小誤差可能會在后續環節呈指數級擴散。
這種“一個模型直出”的構型,意味著WALL-A不需要為感知、決策、控制分別調用模型。理論層面,只要模型學習到了豐富的原子技能,就能將長序列任務拆解為這些技能的組合,從而處理更長序列的任務,并執行更復雜的推理與規劃。
王潛也向記者坦言,這個構型所需要的算力是“巨量”的,“統一模型的推理過程需要大量算力支撐,因此訓練成本很高”。且長程推理雖然具備更強的泛化能力,但也可能帶來延遲,在工業生產等高節拍場景中未必適用。
對于這一點,自變量也有明確的商業打法。王潛說,目前團隊的短期目標是攻下商業服務和公共服務的場景,如酒店和養老院等。在更貼近C端的場景完成足夠復雜的任務,有助于其展現WALL-A模型的長程推理優勢。“我們并不局限于某個單點技能,而是希望他能夠在真實的世界里做一些傳統自動化無法替代的工作。”
“只要能成功擊穿一個標桿場景,就證明了我們技術路線的商業價值,屆時我們撬動的將是一個千億元甚至萬億元級別的巨大市場,實現規模化商業落地將是水到渠成的事。”王潛說。
搶奪標準定義權,誰會成功?
在和趙行、王潛、許華哲等人交流的過程當中,第一財經記者注意到,benchmark是一個被他們提及的高頻詞。Benchmark指的是用來檢驗和對比模型好壞的統一測評標準,就像一場所有人都參加的統一考試。在這場考試中,也許沒有標準答案,但能夠通過比較判斷出模型的好壞。
Benchmark也能夠作為衡量具身智能大模型的標準之一。只是,這個測評標準的定義尚未清晰,行業中已經出現了一些企業,希望來定義這個標準。
星海圖于近日開源了數據集 Galaxea Open-World Dataset。這個500小時的數據集不再僅僅包括簡單的拿放操作數據,還包括軀干和移動數據,涵蓋超過150種任務。星海圖目前已經宣布面向全球具身智能開發者開源。
至于開源的目的,趙行告訴第一財經記者,他希望這次數據集的開源,對于行業來說能夠構成一個很好的衡量標準。“具身智能在模型層面的發展,在過去很難被衡量。”趙行說,但如果大家用相同的數據和本體去訓練模型,那通過結果能夠很快比較出誰的算法更優。
為模型的優劣提供一個評判標準,這一舉措的背后藏著更大的野心。“我們希望提供數據,吸引更多人來參與到我們的生態當中,讓星海圖成為一個能夠服務更多開發者的平臺型、生態型的公司。”趙行說。
想要成為機器人平臺型公司的企業并不只有星海圖一家。除了一直強調全棧能力的智元、傅利葉等機器人企業之外,此前在本體領域一向低調的自變量機器人也首發了全自研輪式雙臂仿人形機器人“量子2號(Quanta X2)”和自研的靈巧手。同時,自變量也在研發自己的遙操平臺工具。
自變量新發布的本體。圖片來源:受訪者供圖。
從數據環節,到核心零部件,再到機器人的本體和大模型,原本強調單點能力的企業,正在劍指更大的生態環節。
共識尚未達成,頭部企業的野心已經顯現。“不同企業在VLA與強化學習等技術路徑上有差異,但這并不是‘二選一’的問題。”首程控股董事會辦公室總經理康雨向第一財經記者如是說道。
去年,首程控股參與設立并管理了規模總計100億元的“北京機器人產業發展投資基金”,并且已經參與投資了星海圖、自變量、宇樹科技等企業。在首程控股投資的企業中,各家的技術路徑分歧已經出現,比如星海圖采用的是分層模型,而自變量則堅持統一模型直出。康雨也坦言,架構是模型的核心與底層問題,“因為它直接決定未來需要的數據量、算法的絲滑程度,以及訓練中要消耗多少算力”。
“根據我們的觀察,幾乎每一家涉及具身智能的公司,都在不斷迭代自己的架構。”康雨同意了王興興此前表達的觀點:架構決定了后續的訓練成本與效率。她說,一套優秀的模型架構可能只需極少的數據就能完成泛化,而也許能夠成為企業的核心競爭力。
在康雨看來,技術的優勢不僅關乎當下機器人的性能表現,更決定了企業未來能否以可控的成本實現規模化落地。
對于正處在快速迭代中的機器人行業而言,這或許才是真正的分水嶺——跑得快并不難,難的是在長跑中保持速度與耐力。