亚洲欧洲日韩,父亲微电影完整版在线观看,毛片在线免费观看视频,av在线手机免费观看,日韩aa毛片,αv视频,亚洲一区二区国产精品

星塵智能聯合清華、MIT發(fā)布CLAP框架 機器人“看懂視頻學操作”

AI視界(以下內容由AI生成,僅供參考)

  • 關鍵詞
  • 簡介
  • 重點
  • 分析
  • 猜你
    想問

深圳新聞網2026年1月21日訊(記者 王睿)近日,星塵智能與清華、港大、MIT聯合提出基于對比學習的隱空間動作預訓練(Contrastive Latent Action Pretraining, CLAP)框架。這個框架能夠將視頻中提純的運動空間與機器人的動作空間進行對齊,也就是說,機器人能夠直接從視頻中學習技能。相關研究論文已上線arXiv。

長期以來,機器人學習面臨著一個令人頭疼的“數據饑荒”難題:互聯網上有著數以億計的人類行為視頻,但專門用于訓練機器人的數據卻寥寥無幾。這種數據不對稱現象的根源在于,收集機器人操作數據需要昂貴的硬件設備、專業(yè)的操作環(huán)境,以及大量的人工標注工作,成本高昂且效率低下。相比之下,人類行為視頻數據雖然豐富,但由于視覺表征與機器人動作空間之間存在巨大的語義鴻溝,傳統方法難以有效利用這些資源。

現有的潛在動作模型(Latent Action Models)試圖利用視頻數據,但往往會遭遇“視覺糾纏”(visual entanglement)問題——模型學到的更多是與實際操控無關的視覺噪聲,而非真實的操控技能。

CLAP框架的核心創(chuàng)新正是解決了這一長期困擾業(yè)界的技術瓶頸。該框架能夠將視頻中提純的運動空間與機器人的動作空間進行對齊,有效避免了以往潛在動作模型中普遍存在的"視覺糾纏"問題。通過對比學習,CLAP 將視頻中的狀態(tài)轉移映射到一個量化的、物理上可執(zhí)行的動作碼本上。

研究團隊基于兩種VLA建模范式進行訓練:其一是 CLAP-NTP,一種自回歸模型,在指令跟隨與對象泛化方面表現突出;其二是 CLAP-RF,一種基于 Rectified Flow 的策略,面向高頻率、精細化的操控。

這一技術突破的實際意義體現在多個層面。首先,從數據利用效率來看,CLAP框架使得機器人能夠從YouTube、抖音等平臺上的海量視頻中學習技能,極大擴展了可用訓練數據的規(guī)模。其次,從成本效益角度分析,這種“看視頻學技能”的方式顯著降低了機器人技能獲取的門檻。

此外,該框架還解決了機器人學習中的一個關鍵技術挑戰(zhàn)——知識遷移問題。通過知識匹配(Knowledge Matching, KM)正則化策略,CLAP有效緩解了模型微調過程中的災難性遺忘現象,確保機器人在學習新技能的同時不會丟失已掌握的能力。大量實驗表明,CLAP 顯著優(yōu)于強基線方法,使得從人類視頻中學習到的技能能夠有效遷移到機器人執(zhí)行中。

從產業(yè)應用前景來看,CLAP框架的長期價值不僅在于技術創(chuàng)新,更在于其對機器人產業(yè)化進程的推動作用。當機器人能夠通過觀看視頻快速掌握新技能時,企業(yè)部署機器人的成本和周期將大幅降低,這有望加速機器人在服務業(yè)、制造業(yè)等領域的規(guī)?;瘧谩?/p>

論文標題:CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos

論文地址:https://arxiv.org/abs/2601.04061

項目地址:https://lin-shan.com/CLAP/#

記者:王睿 審核:葉梅 校對:王容 責任編輯:戰(zhàn)旗

AI視界(以下內容由AI生成,僅供參考)

關鍵詞

簡介

重點

分析

猜你想問