“人形機器人訓練的問題歸根結底就是數(shù)據(jù)的問題”。多位采訪對象向新京報貝殼財經(jīng)記者表達了相似的觀點。


從不同企業(yè)近期的一些戰(zhàn)略布局動作來看,數(shù)據(jù)的重要性正在提升。3月17日,傅利葉正式開源全尺寸人形機器人數(shù)據(jù)集Fourier ActionNet,并發(fā)布全球首個全流程工具鏈,首批上線超3萬條高質量真機訓練數(shù)據(jù);3月10日,智元機器人正式發(fā)布首個通用具身基座大模型—智元啟元大模型(GenieOperator-1),借助人類和多種機器人數(shù)據(jù),讓機器人獲得學習能力;1月9日,銀河通用機器人發(fā)布端到端具身抓取基礎大模型GraspVLA,利用合成數(shù)據(jù)學習測試。


薩摩耶云科技集團AI機器人行業(yè)研究員鄭揚洋認為,“數(shù)據(jù)未來會成為拉開企業(yè)差距的重要因素,擁有高質多樣化數(shù)據(jù)集的企業(yè),能在訓練、優(yōu)化機器人模型上取得優(yōu)勢,提高自己的市場競爭力?!?/p>


供具身大模型學習的數(shù)據(jù)遠低于通用大模型可學習的數(shù)據(jù)


從行業(yè)發(fā)展的歷史來看,人形機器人并不是一個新鮮的事物,但在ChatGPT發(fā)布以后,市場將AI帶來的想象空間和具身智能進行了結合,希望大模型可以賦予機器人更高的智能水平,熱度開始上漲。


人形機器人本質上是一個智能體,要想做出和人類一樣的動作,需要龐大的數(shù)據(jù)作為訓練的基礎,培育出性能優(yōu)秀的具身智能大模型,機器人才有可能實現(xiàn)泛化的能力。


“我們可以隨意拿起一個水瓶或者咖啡杯,但對機器人來說,這是兩個完全不同的物體,用多大的力,摩擦系數(shù)的大小是多少都不一樣,這些都是需要機器人通過學習的數(shù)據(jù)計算而來?!便y河通用機器人公司某算法工程師告訴貝殼財經(jīng)記者。


大語言模型之所以可以快速發(fā)展,和數(shù)據(jù)量充足有著直接關系,網(wǎng)絡上的文本、圖片、視頻以及各種公開資料都是模型可以學習的。但到具身大模型領域,可供學習的數(shù)據(jù)并不多。


清控金信資本高級投資經(jīng)理萬安在接受貝殼財經(jīng)記者采訪時指出,“機器人訓練所需要的是對三維空間的運動描述的數(shù)據(jù),而現(xiàn)在這些可供機器人學習訓練的數(shù)據(jù)量遠遠不夠?!?/p>


“具身智能大模型的發(fā)展遠落后于通用大模型的發(fā)展?!庇顦淇萍紕?chuàng)始人王興興曾公開表示。


但如今各家企業(yè)已經(jīng)開始發(fā)力解決“數(shù)據(jù)饑渴”的問題。傅利葉將開源全尺寸人形機器人數(shù)據(jù)集Fourier ActionNet,據(jù)介紹,該數(shù)據(jù)集囊括了傅利葉GRx系列所有機型的各類任務訓練,完整記錄機器人在真實環(huán)境中的任務執(zhí)行數(shù)據(jù);智元機器人此前發(fā)布的智元啟元大模型將結合互聯(lián)網(wǎng)視頻和真實人類示范進行學習,增強模型對人類行為的理解;銀河通用機器人將利用仿真數(shù)據(jù)進行訓練學習。


去年12月底,國家地方共建具身智能機器人創(chuàng)新中心與北京大學計算機學院聯(lián)合推出了一個大規(guī)模多構型具身智能數(shù)據(jù)集和Benchmark——RoboMIND,支持多本體任務并具備通用性。


“數(shù)據(jù)集可以通過提供高質量的訓練數(shù)據(jù)提升機器人的性能和適應性,降低開發(fā)成本,推動行業(yè)標準化和技術創(chuàng)新,從而加速機器人企業(yè)的商業(yè)化進程?!编崜P洋指出。


既要比拼數(shù)據(jù)類型,又要比拼數(shù)據(jù)成本


雖然各家企業(yè)在使用哪種數(shù)據(jù)進行訓練的方面有不同選擇,但他們共同需要考慮的一個問題就是數(shù)據(jù)的成本問題。過去數(shù)據(jù)采集的成本居高不下,人力、物力以及時間成本都制約了高質量數(shù)據(jù)的獲取。


據(jù)相關媒體報道,2024年8月,特斯拉為了解決數(shù)據(jù)不足的問題開始招聘了“數(shù)據(jù)收集操作員”,具體工作時間則是“三班倒”,預期時薪為25.25美元至48美元。特斯拉的Optimus(擎天柱,特斯拉開發(fā)的一款人形機器人)社交媒體賬戶曾發(fā)布過一段視頻,展示了該崗位的具體工作內(nèi)容,在視頻中,一名操作員穿著動作捕捉服,戴著觸覺手套和VR頭顯拾取物體,而虛擬版特斯拉Optimus機器人則執(zhí)行相同的動作。


萬安告訴貝殼財經(jīng)記者,“現(xiàn)在最大的成本就來自人力成本,動作數(shù)據(jù)的復雜程度很高,要實現(xiàn)預期的訓練效果需要海量高質量數(shù)據(jù)。例如一個簡單的‘倒水’動作就需要學習幾百條數(shù)據(jù)?!?/p>


在鄭揚洋看來,除高成本之外,數(shù)據(jù)采集還存在數(shù)據(jù)質量參差不齊,如不同傳感器存在采樣精度差異的問題,行業(yè)缺乏數(shù)據(jù)集的處理標準,對數(shù)據(jù)的處理方法不一將導致數(shù)據(jù)難以共享和通用。


相較于具身大模型的發(fā)展和突破,機器人硬件本體的創(chuàng)新會相對更加容易一些。宇樹科技之所以可以在這一次機器人熱浪中受到較高的關注,就在于本體的運動控制。王興興曾指出,因為有了四足機器狗的技術積累,做人形機器人相對來說會比較容易,硬件等一些零部件是可以通用的。


多位受訪者將當下人形機器人的發(fā)展階段與早期自動駕駛技術的發(fā)展進行類比,豐富海量的數(shù)據(jù)和足夠的算力是自動駕駛技術得以普及的關鍵因素。人形機器人未來想要普及,數(shù)據(jù)的突破至關重要。


“不同企業(yè)之間在訓練數(shù)據(jù)上不僅要比拼數(shù)據(jù)類型,還要比拼數(shù)據(jù)成本。至于數(shù)據(jù)類型和成本哪個更重要,取決于企業(yè)的需求和應用場景?!编崜P洋認為。


在她看來,仿真數(shù)據(jù)的采集成本相對較低,但可能需要額外的資源來縮小仿真與現(xiàn)實之間的差距,企業(yè)在選擇數(shù)據(jù)采集方式的同時,也需要考慮到成本的影響,在采集方式和成本之間找到平衡。數(shù)據(jù)將會成為未來拉開企業(yè)差距的重要因素。


但萬安也坦言,“現(xiàn)在數(shù)據(jù)的收集還處在較為初期的階段,這些數(shù)據(jù)在人形機器人實際操作落地的階段將會起到哪些作用,還沒有看到顯著的差異化,還需繼續(xù)觀察?!?/p>

新京報貝殼財經(jīng)記者 張晗

編輯 陳莉

校對 柳寶慶