物理AI在2020年正式被提出,被認為與數字世界平行。去年,英偉達CEO黃仁勛正式將它定義為AI發展的下一個重要方向,自此,整個行業掀起新一波物理AI的熱潮。在發展物理AI時,業內也希望打造一個類似ChatGPT的殺手級場景或者應用。
物理AI的“ChatGPT時刻”何時能到來?判斷的理由是什么?目前仍存在哪些瓶頸?在近日舉行的2025外灘大會“AGI:數字與物理世界的共同進化”論壇上,與會人士圍繞上述話題展開了探討。
極佳視界聯合創始人兼首席科學家朱政對物理AI的落地相對樂觀。他將物理AI的“ChatGPT時刻”定義為若干個任務,當機器人在100種或者200種常見家庭場景任務中,執行成功率能到90%甚至95%以上,便標志著物理AI的“ChatGPT時刻”來臨,屆時機器人有機會率先進入一些家庭場景。
“從當前的技術發展現狀來看,我認為要實現上述目標約需要2—3年時間。”朱政說。
智源研究院FLM團隊負責人、“新一代人工智能”國家科技重大專項負責人王業全則通過對比ChatGPT的發展歷程,給出了更長期的預估。他指出,從GPT-1到GPT-2,再到GPT-3乃至ChatGPT,期間經歷了多年的技術積累與迭代。目前,具身智能AGI發展水平大致處于潛在的GPT-1.6、1.7階段,按照線性時間估計,在一兩年內達到ChatGPT級別難度還是很大。王業全認為,要觸及類似ChatGPT時刻,樂觀預估需要5年時間,若要達到較為完善的程度,可能接近10年時間。
盡管業內人士對物理AI“ChatGPT時刻”到來的時間判斷不一,但都認為,當前物理AI的發展仍面臨諸多挑戰,其中數據和建模問題尤為突出。
在朱政看來,物理AI最大的難點是數據,與數字世界中語言模型能夠利用互聯網海量的文本、視頻、圖像等數據進行訓練不同,物理AI在數據采集上困難重重。無論是自動駕駛還是具身智能,都需要頻繁與物理世界發生交互甚至改變物理世界的狀態,這使得數據收集不僅難度大,而且周期長。
例如,在演示機器人疊衣服的操作場景時,由于現實世界中衣服的紋理、顏色、款式種類繁多且不斷更新,相關數據根本無法完全采集。
朱政認為,世界模型有望解決這一困境——通過生成式數據填補真實數據的不足,從而讓物理世界的數據在體量與泛化性上,達到與數字世界互聯網數據相媲美的效果。
王業全則認為物理AI發展的最大難點在于建模方法,包括數據、訓練流程等,目前尚未有明確的方向。他建議第一步可利用大規模自監督數據、高質量數據得到一個基礎模型,這需要耗費大量資源,第二步通過對齊、強化等工作,將模型能力釋放到具身智能等相關物理世界相關場景中,“這條路線或許是可行的,但客觀來講難度依然很大,因為我們目前還未找到合適的建模方法與合理的數據組織形式”。