欧美爱爱中文字幕一区,久久久久久久人妻

銀河通用機(jī)器人推出 LDA：全域數(shù)據(jù)、跨本體隱式世界-動(dòng)作基座模型

http://www.henanjusheng.com 2026-04-29 11:20 來(lái)源：銀河通用機(jī)器人

在語(yǔ)言模型的發(fā)展歷程中，GPT-2 之所以成為一個(gè)關(guān)鍵里程碑，并不只是因?yàn)槟Ｐ捅旧砟芰Φ奶嵘?，更因?yàn)樗谝淮蜗到y(tǒng)性地定義了一個(gè)問(wèn)題——如何讓模型有效利用互聯(lián)網(wǎng)規(guī)模的異構(gòu)數(shù)據(jù)。

從那一刻起，語(yǔ)言模型不再依賴少量高質(zhì)量標(biāo)注數(shù)據(jù)，而是開(kāi)始以“全量數(shù)據(jù)”為燃料，進(jìn)入持續(xù) Scaling 的時(shí)代。

但在具身智能領(lǐng)域，這個(gè)問(wèn)題從未被真正解決。

不同來(lái)源的數(shù)據(jù)彼此割裂：機(jī)器人數(shù)據(jù)與人類數(shù)據(jù)難以統(tǒng)一，真實(shí)與仿真難以融合，有動(dòng)作標(biāo)注與無(wú)動(dòng)作視頻難以協(xié)同，高質(zhì)量與低質(zhì)量數(shù)據(jù)往往被割裂使用。這些結(jié)構(gòu)性的斷層，使得具身智能始終停留在“數(shù)據(jù)稀缺驅(qū)動(dòng)”的階段，難以走向規(guī)模化學(xué)習(xí)。

近日，銀河通用機(jī)器人發(fā)布的跨本體「隱式世界-動(dòng)作基礎(chǔ)模型」LDA，正是對(duì)這一問(wèn)題的正面回答。

其核心突破不單在于模型能力的探索，而在于世界范圍內(nèi)首次在數(shù)據(jù)層面實(shí)現(xiàn)：虛實(shí)共融、人機(jī)混合、質(zhì)量參差、有無(wú)動(dòng)作標(biāo)簽的數(shù)據(jù)統(tǒng)一有效利用。

換句話說(shuō)：一個(gè)模型，開(kāi)始能夠“吞吐全部數(shù)據(jù)，并讓所有的數(shù)據(jù)各盡其用”。

這也意味著，具身智能第一次真正具備了類似 GPT-2 的能力——進(jìn)入以數(shù)據(jù)規(guī)模驅(qū)動(dòng)性能持續(xù)提升的新階段。

具身數(shù)據(jù)范式新標(biāo)準(zhǔn)：從“篩選數(shù)據(jù)”到“組織數(shù)據(jù)”

在具身智能中，數(shù)據(jù)問(wèn)題從來(lái)不是“有沒(méi)有”，而是“能不能被統(tǒng)一利用”。

長(zhǎng)期以來(lái)，不同類型的數(shù)據(jù)彼此割裂：真實(shí)機(jī)器人數(shù)據(jù)規(guī)模有限，遙操作數(shù)據(jù)成本高昂，人類視頻缺乏動(dòng)作標(biāo)注，互聯(lián)網(wǎng)數(shù)據(jù)難以對(duì)齊物理世界，而仿真數(shù)據(jù)又始終面臨真實(shí)性約束。這使得具身智能始終依賴少量高質(zhì)量數(shù)據(jù)驅(qū)動(dòng)，難以走向規(guī)?；?。

銀河通用的解決方式，是構(gòu)建完整的數(shù)據(jù)基礎(chǔ)設(shè)施——銀河星數(shù)（AstraData），并在 LDA 中實(shí)現(xiàn)對(duì)全類數(shù)據(jù)的統(tǒng)一完整運(yùn)用。

圍繞這一體系，銀河通用構(gòu)建了一個(gè)自下而上的數(shù)據(jù)結(jié)構(gòu)（五層金字塔）：

互聯(lián)網(wǎng)圖像/視頻/文本數(shù)據(jù)（底層）：規(guī)模最大、成本最低，用于構(gòu)建基礎(chǔ)感知與語(yǔ)義理解能力，但與具體動(dòng)作執(zhí)行相關(guān)性較弱

人類行為數(shù)據(jù)（次底層）：提供動(dòng)作先驗(yàn)與任務(wù)理解，將“視覺(jué)認(rèn)知”連接到“行為語(yǔ)義”

多本體合成仿真數(shù)據(jù)（中間層，銀河自研合成數(shù)據(jù)管線產(chǎn)出）：以物理一致性為約束，大規(guī)模生成可控、多樣的機(jī)器人交互數(shù)據(jù)，實(shí)現(xiàn)從認(rèn)知到執(zhí)行的關(guān)鍵過(guò)渡

真實(shí)遙操作數(shù)據(jù)（高層）：提供高質(zhì)量動(dòng)作示范，但規(guī)模與采集效率受限

真實(shí)機(jī)器人自主運(yùn)行數(shù)據(jù)（頂層）：來(lái)自真實(shí)部署環(huán)境的閉環(huán)數(shù)據(jù)，直接反映系統(tǒng)在現(xiàn)實(shí)世界中的運(yùn)行表現(xiàn)，并持續(xù)驅(qū)動(dòng)強(qiáng)化學(xué)習(xí)與系統(tǒng)優(yōu)化

高質(zhì)量專家數(shù)據(jù)：同時(shí)用于策略與動(dòng)力學(xué)建模，定義“最優(yōu)動(dòng)作”

低質(zhì)量與噪聲數(shù)據(jù)：用于前向與逆向動(dòng)力學(xué)學(xué)習(xí)，刻畫(huà)真實(shí)世界演化

無(wú)動(dòng)作標(biāo)注視頻：用于視覺(jué)預(yù)測(cè)，提取行為結(jié)構(gòu)與潛在意圖

在這一框架下，數(shù)據(jù)不再被簡(jiǎn)單劃分為“有用或無(wú)用”，而是被系統(tǒng)性重組進(jìn)統(tǒng)一的世界-動(dòng)作模型之中。

這一范式在 LDA 中首次展現(xiàn)出清晰的規(guī)模化特征：隨著數(shù)據(jù)規(guī)模從數(shù)千小時(shí)擴(kuò)展至數(shù)萬(wàn)小時(shí)，模型性能持續(xù)穩(wěn)定提升。

尤其關(guān)鍵的是：即使引入大量低質(zhì)量甚至失敗數(shù)據(jù)，模型性能不降反升；在高質(zhì)量動(dòng)作數(shù)據(jù)耗盡后，僅依賴無(wú)動(dòng)作標(biāo)注的人類視頻，模型依然可以持續(xù)進(jìn)步。

這意味著，低質(zhì)量數(shù)據(jù)與無(wú)動(dòng)作數(shù)據(jù)，同樣可以驅(qū)動(dòng)具身模型的持續(xù) Scaling——這一點(diǎn)，是傳統(tǒng)行為克隆（BC）及既有世界模型方法難以實(shí)現(xiàn)的。

從這個(gè)角度看，LDA 不僅是一個(gè)模型突破，更是「銀河星數(shù)」數(shù)據(jù)體系在模型層的關(guān)鍵閉環(huán)——標(biāo)志著具身智能開(kāi)始真正進(jìn)入以數(shù)據(jù)驅(qū)動(dòng)的規(guī)?；l(fā)展階段。

具身模型范式統(tǒng)一：從 VLA， World Model 到 World Action Model

如果說(shuō)數(shù)據(jù)決定模型能學(xué)什么，那么模型結(jié)構(gòu)決定它如何理解這些數(shù)據(jù)。

傳統(tǒng)機(jī)器人模型，本質(zhì)上是從感知到動(dòng)作的映射，其能力邊界在于：它可以執(zhí)行動(dòng)作，但并不真正理解“動(dòng)作之后世界會(huì)發(fā)生什么”。

LDA 在這一點(diǎn)上進(jìn)行了根本性改變。

銀河通用提出并實(shí)踐的，是將 World Model（世界模型）與 Action Model（動(dòng)作模型）統(tǒng)一的框架，即 WAM（World-Action Model）。

在模型層面，LDA 并不是一次結(jié)構(gòu)創(chuàng)新，而是銀河通用長(zhǎng)期技術(shù)路線的自然延伸。

銀河通用提出并實(shí)踐的，是將World Model（世界模型）與Action Model（動(dòng)作模型）統(tǒng)一的框架，即 WAM（World-Action Model）。

這一方向如今已成為具身智能領(lǐng)域的研究熱點(diǎn)，但早在 2025 年 3 月，銀河通用發(fā)表了 DyWA: Dynamics-adaptive World Action Model，在全球范圍內(nèi)首次對(duì) WAM 的概念進(jìn)行結(jié)構(gòu)化定義，并在接觸動(dòng)力學(xué)復(fù)雜的任務(wù)實(shí)現(xiàn)了成功的驗(yàn)證。

2025 年 3 月銀河通用團(tuán)隊(duì)率先對(duì) World-Action Model 展開(kāi)前沿探索

在論文中，團(tuán)隊(duì)對(duì) WAM 進(jìn)行了系統(tǒng)性的定義

從這一時(shí)間節(jié)點(diǎn)來(lái)看，團(tuán)隊(duì)并非在跟隨趨勢(shì)，而是在這一關(guān)鍵范式尚未形成行業(yè)共識(shí)之前，就已經(jīng)完成了前瞻研究。

也正是在這一技術(shù)路徑的持續(xù)演進(jìn)下，LDA 得以在同一模型中統(tǒng)一學(xué)習(xí)策略、動(dòng)力學(xué)與視覺(jué)預(yù)測(cè)能力，形成真正閉環(huán)的“世界—行動(dòng)”聯(lián)合建?？蚣?，使模型從“執(zhí)行動(dòng)作”走向“理解并作用于世界”。

在這一框架下，模型在同一體系中同時(shí)學(xué)習(xí)：

策略學(xué)習(xí)（Policy Learning）：從當(dāng)前觀測(cè)生成動(dòng)作

前向動(dòng)力學(xué)（Forward Dynamics）：預(yù)測(cè)動(dòng)作將如何改變世界

逆向動(dòng)力學(xué)（Inverse Dynamics）：從結(jié)果反推中間行為

視覺(jué)預(yù)測(cè)（Visual Forecasting）：在無(wú)動(dòng)作條件下推演世界未來(lái)

這些能力不再彼此割裂，而是在同一表示空間與訓(xùn)練過(guò)程中協(xié)同優(yōu)化，形成一個(gè)完整的“感知—決策—反饋”閉環(huán)。

這帶來(lái)了以往模型難以實(shí)現(xiàn)的能力躍遷，換句話說(shuō)，在「銀河星腦」的整體架構(gòu)中，LDA 讓機(jī)器人第一次具備了這樣一種能力：既能行動(dòng)，也能理解行動(dòng)如何改變世界。

這一步，使機(jī)器人從“執(zhí)行任務(wù)的工具”，開(kāi)始邁向“理解世界的系統(tǒng)”。

視覺(jué)表征統(tǒng)一和動(dòng)作對(duì)齊：面向規(guī)?；南到y(tǒng)解法

World Action Model 類方法通常使用 VAE 派生的像素級(jí)表示進(jìn)行動(dòng)力學(xué)預(yù)測(cè)。這條路看似合理，卻暗藏一個(gè)結(jié)構(gòu)性缺陷：VAE 潛空間將外觀、幾何、動(dòng)力學(xué)混雜在一起，不同機(jī)器人平臺(tái)、不同光照?qǐng)鼍暗臄?shù)據(jù)在這個(gè)空間里難以對(duì)齊，導(dǎo)致動(dòng)力學(xué)學(xué)習(xí)受到嚴(yán)重干擾，更重要的是——難以隨規(guī)模擴(kuò)展持續(xù)收益。

論文數(shù)據(jù)直接說(shuō)明了這一點(diǎn)：將 UWM 從 0.1B 擴(kuò)展到 1B，RoboCasa-GR1 成功率僅從 14.2% 提升至 19.3%，即使替換為 MM-DiT 也只有 20.0%，Scaling 幾乎停滯。

LDA 的核心選擇，是放棄 VAE，轉(zhuǎn)向 DINO 結(jié)構(gòu)化潛空間。DINO 通過(guò)自監(jiān)督預(yù)訓(xùn)練，天然過(guò)濾光照、紋理等外觀冗余，保留物體級(jí)語(yǔ)義與空間結(jié)構(gòu)。在這個(gè)空間中，不同機(jī)器人、不同環(huán)境的數(shù)據(jù)具有一致的表達(dá)形式——外觀差異被壓制，物理相關(guān)信息被突出，使跨本體的動(dòng)力學(xué)學(xué)習(xí)真正成為可能。

而僅有視覺(jué)統(tǒng)一還遠(yuǎn)遠(yuǎn)不夠，真正阻礙具身大模型擴(kuò)展的另一堵墻，是動(dòng)作空間的割裂。

不同機(jī)器人本體往往擁有完全不同的執(zhí)行器形式：兩指夾爪、多指靈巧手、吸盤(pán)、剪刀式末端執(zhí)行器……如果仍然沿用各自獨(dú)立的關(guān)節(jié)空間（joint space）建模，動(dòng)作語(yǔ)義天然無(wú)法共享，數(shù)據(jù)規(guī)模再大，也只是分散在彼此孤立的數(shù)據(jù)孤島中。

LDA 首次系統(tǒng)性地提出了一套統(tǒng)一的 hand-centric action space，將所有動(dòng)作統(tǒng)一映射到“手如何作用于世界”這一物理本質(zhì)上，而不是機(jī)器人自身的關(guān)節(jié)定義上。

具體來(lái)說(shuō)，動(dòng)作由兩部分組成：

其一，是末端執(zhí)行器的 delta wrist pose，即手腕在連續(xù)時(shí)刻之間的位姿變化（位置 + 姿態(tài)）；這部分刻畫(huà)的是操作意圖本身，例如靠近、推拉、插入、翻轉(zhuǎn)、對(duì)齊等跨本體共享的核心操作語(yǔ)義。

其二，是 finger configuration，即手部接觸形態(tài)。對(duì)于 parallel-jaw gripper（平行夾爪），使用單自由度的 gripper width 表示開(kāi)合狀態(tài)；而對(duì)于 multi-finger dexterous hand（多指靈巧手），則使用在 wrist 坐標(biāo)系下定義的關(guān)鍵點(diǎn)（keypoints）來(lái)描述手指構(gòu)型，而非依賴不同本體各異的關(guān)節(jié)參數(shù)。

這一設(shè)計(jì)的關(guān)鍵突破在于：它不再讓模型學(xué)習(xí)“某臺(tái)機(jī)器人怎么動(dòng)關(guān)節(jié)”，而是學(xué)習(xí)“手如何與物體發(fā)生作用”。

這意味著，夾取、旋轉(zhuǎn)、插入、剪切這類操作，不再被綁定在某一種機(jī)械結(jié)構(gòu)上，而能夠在不同本體之間共享動(dòng)力學(xué)規(guī)律。無(wú)論是仿真中的雙指夾爪，還是真實(shí)世界中的多指靈巧手，模型看到的都是統(tǒng)一的物理交互語(yǔ)言。

超強(qiáng)真機(jī)表現(xiàn)：跨本體、少樣本、長(zhǎng)程靈巧操作

LDA 在真實(shí)世界中展現(xiàn)出強(qiáng)大的泛化與執(zhí)行能力，模型在全部任務(wù)類別上穩(wěn)定超越 GR00T-N1.6 和 π₀.₅，展現(xiàn)出更強(qiáng)的泛化與適應(yīng)能力。

GROOT-N1.6、π0.5、LDA 三項(xiàng)工作在各類任務(wù)中使用二指夾爪操作的成功率對(duì)比

GROOT-N1.6、π0.5、LDA 三項(xiàng)工作在具體任務(wù)中使用靈巧手操作的成功率對(duì)比

少樣本跨本體泛化

從工業(yè)場(chǎng)景中的物體搬運(yùn)，到零售環(huán)境中的取放操作，再到家庭中的日常任務(wù)，LDA 能夠在多種場(chǎng)景下穩(wěn)定執(zhí)行任務(wù)。

值得強(qiáng)調(diào)的是，所有測(cè)試所使用的機(jī)器人本體，均未出現(xiàn)在預(yù)訓(xùn)練數(shù)據(jù)中。

在這一嚴(yán)格設(shè)置下，在 Pick-and-Place 任務(wù)中進(jìn)一步引入多種分布外擾動(dòng)，包括未見(jiàn)位置、新物體以及背景變化。

結(jié)果表明，LDA 在各類擾動(dòng)下仍能保持較高成功率，而僅依賴行為克?。˙C）的基線模型性能則出現(xiàn)顯著下降。

這表明，LDA 學(xué)到的不只是“動(dòng)作模仿”，而是能夠跨本體遷移的世界-動(dòng)作結(jié)構(gòu)。

長(zhǎng)程靈巧操作

在更具挑戰(zhàn)性的長(zhǎng)程任務(wù)與高自由度操作中，LDA 同樣表現(xiàn)出色。例如，模型可以完成“煎牛排”“疊紙杯塔”等復(fù)雜操作，這類任務(wù)既需要長(zhǎng)時(shí)序規(guī)劃能力，也依賴精細(xì)的接觸建模與控制能力。

在 LDA 驅(qū)動(dòng)下，機(jī)器人可以勝任煎牛排這一長(zhǎng)程任務(wù)，即便中途受到干擾（打斷現(xiàn)有任務(wù)，發(fā)布新任務(wù)），機(jī)器人依然可以隨機(jī)應(yīng)變，按照指令理解并行動(dòng)

失敗數(shù)據(jù)讓性能再提升

一個(gè)更具啟發(fā)性的現(xiàn)象來(lái)自低質(zhì)量真機(jī)數(shù)據(jù)。

在相同的數(shù)據(jù)設(shè)置下，將這部分包含大量失敗和不穩(wěn)定操作的數(shù)據(jù)加入訓(xùn)練：對(duì)于 π₀.₅，性能明顯下降；而對(duì)于 LDA，性能反而持續(xù)提升。

這表明，LDA 并不是簡(jiǎn)單依賴“干凈數(shù)據(jù)”，而是能夠從失敗中學(xué)習(xí)世界的真實(shí)動(dòng)力學(xué)，將原本被視為噪聲的數(shù)據(jù)轉(zhuǎn)化為有效信號(hào)。

具身基礎(chǔ)模型進(jìn)入“可規(guī)?；瘯r(shí)代”

LDA 的突破，意味著具身智能的 scaling 路徑正在發(fā)生根本性變化：它不再依賴稀缺而昂貴的專家示范數(shù)據(jù)作為唯一燃料，而是開(kāi)始向更廣泛、更真實(shí)、更復(fù)雜的數(shù)據(jù)來(lái)源全面打開(kāi)——包括業(yè)務(wù)回流數(shù)據(jù)、低質(zhì)量操作軌跡，以及大規(guī)模人類行為視頻。

在這一范式下，數(shù)據(jù)不再被嚴(yán)格篩選為“可用”與“不可用”，而是被統(tǒng)一納入模型對(duì)世界的建模過(guò)程之中。真正決定能力上限的，不再是數(shù)據(jù)是否完美，而是模型是否具備從異構(gòu)數(shù)據(jù)中抽取結(jié)構(gòu)、規(guī)律與因果關(guān)系的能力。

從這個(gè)角度看，LDA 回答的并不只是“如何構(gòu)建一個(gè)更強(qiáng)的模型”，而是一個(gè)更基礎(chǔ)的問(wèn)題：機(jī)器人，是否可以像語(yǔ)言模型一樣，從海量異構(gòu)數(shù)據(jù)中持續(xù)學(xué)習(xí)世界本身？

而 LDA 給出的答案正在變得清晰：當(dāng)動(dòng)力學(xué)學(xué)習(xí)、策略學(xué)習(xí)與視覺(jué)預(yù)測(cè)被統(tǒng)一到同一表示空間，當(dāng)?shù)唾|(zhì)量甚至失敗數(shù)據(jù)也能轉(zhuǎn)化為有效監(jiān)督信號(hào)，具身智能就第一次具備了“從真實(shí)世界持續(xù)學(xué)習(xí)”的基礎(chǔ)條件。

在這一進(jìn)程中，銀河通用將 LDA 的核心算法與代碼體系全面開(kāi)源，希望推動(dòng)行業(yè)從封閉優(yōu)化走向開(kāi)放共建，加速基礎(chǔ)能力的整體躍遷。

更重要的是，這一能力并非孤立存在，而是嵌入在「銀河星腦（AstraBrain）」的完整技術(shù)體系之中：從「銀河星坊」所構(gòu)建的數(shù)據(jù)基礎(chǔ)設(shè)施，到跨本體的世界-動(dòng)作基礎(chǔ)模型，再到面向真實(shí)場(chǎng)景的持續(xù)部署與反饋學(xué)習(xí)閉環(huán)，正在形成一條完整的具身智能技術(shù)管線。

接下來(lái)，這一體系將進(jìn)一步向真實(shí)應(yīng)用場(chǎng)景延展，從工業(yè)制造、零售服務(wù)，到復(fù)雜開(kāi)放環(huán)境中的自主作業(yè)能力，推動(dòng)具身智能從“可演示能力”，走向“可持續(xù)運(yùn)行能力”，并最終成為新一代生產(chǎn)力基礎(chǔ)設(shè)施的一部分。

欧美韩国日本桃色,一区二区三区国产私人毛片,精品极品精品,亚洲一区人妻,久久久久久久久亚洲免费,青娱乐91,亚洲情涩,久久久成人毛片,日本欧美不卡二区在线

銀河通用機(jī)器人推出 LDA：全域數(shù)據(jù)、跨本體隱式世界-動(dòng)作基座模型

相關(guān)新聞

編輯精選

工控原創(chuàng)