中科視語重磅發布 LightPlanner!首個開源輕量化具身推理大模型,打破機器人輕量與推理能力困局
中科視語在具身智能領域再獲突破!此前,中科視語發布了PhysVLM——首個開源機器人物理空間具身大模型。該模型突破了傳統模型普遍存在的局限,通過多模態感知、動態環境建模與自主決策規劃的深度融合,PhysVLM成功賦予機器人在復雜物理空間中類人級的操作能力。
當前,中科視語再次取得關鍵進展,發布首個開源輕量化具身決策深度推理大模型——LightPlanner,通過創新的層次化決策框架,成功突破邊緣設備上 “輕量與智能不可兼得” 的行業難題,為機器人在物流、制造、服務等場景的規模化部署奠定了技術基礎,持續引領具身智能技術的創新與發展。
讓邊緣端機器人“既能思考又能行動”
傳統大語言模型(LLM)在具身任務中展現了強大的語義理解能力,但其龐大的參數規模難以在邊緣設備上高效運行。輕量級模型雖解決了算力限制,卻因缺乏復雜推理能力,如在 “抓取最大積木” 等需動態邏輯判斷的任務中表現乏力。這一“推理能力瓶頸”已成為制約輕量級具身智能系統規模化應用的核心障礙。
圖1: LightPlanner與主流任務規劃方法的對比
針對這一挑戰,中科視語提出了首個具身規劃決策的輕量化深度推理大模型——LightPlanner。借鑒DeepSeek-R1在復雜任務推理中的成功經驗,LightPlanner通過創新的層次化深度推理和動態參數化技能控制方法,充分釋放了多種規格輕量級LLM的推理能力,以提升其在復雜任務規劃中的性能。LightPlanner在機器人規劃決策任務中復現了類似DeepSeek-R1的“回溯、反思、糾錯”行為,從而顯著提高了任務規劃的準確性和系統的魯棒性。
圖2: LightPlanner在決策推理時出現的“回溯、反思、糾錯”行為
圖3: LightPlanner框架,生成層次化深度推理與動態技能控制
LightPlanner三大核心創新突破
● 層次化深度推理
模擬人類決策邏輯,在每一步執行前觸發三層驗證:
· 執行反饋:通過歷史記憶動態修正偏差,實現 “錯誤自愈”;
· 語義一致性:確保子動作與全局任務目標對齊;
· 參數有效性:實時計算抓取對象的空間位置等連續參數,提升動作精度。
● 參數化動態技能鏈
突破固定技能模板限制,通過上下文感知的函數調用機制,動態解析指令中的動態參數(如 “最大積木” 需實時計算面積并定位),使得系統能夠執行需要視覺或空間推理的復雜具身任務。
● 邊緣設備友好架構
在大模型的輸入端引入一個動態更新的歷史行動記憶模塊,結合迭代式上下文管理,顯著降低顯存占用。在長期任務規劃中,平均顯存占用不超過3.9G(未量化),滿足邊緣端設備的部署需求。當前設備已支持Nvidia jetson 系列邊緣計算設備,以及瑞芯微、算能、華為Atlas等國產化邊緣計算設備
開源生態:4萬級數據集+輕量模型,加速產業落地
為推動技術普惠,團隊同步開源了:
開源量化模型:模型提供0.9到2.7g多種量化版本,憑借其卓越性能與實用價值,近期在Hugging Face平臺熱度飆升,單周下載總量已突破300次。
LightPlan-40K 數據集:首個具身決策深度推理數據集,覆蓋動作序列長度為2-13的不同復雜度任務,總計包含4萬個帶有層次化深度推理的動作決策步驟,其中精選2.3萬條高質量數據作為訓練集。
表1: 不同復雜度的任務中的性能表現
我們基于LightPlan-40K數據集訓練了LightPlanner模型。實驗結果顯示,在真實世界環境中的具身決策規劃任務中,盡管LightPlanner的參數數量最少,僅為1.5B,但其任務成功率最高。在需要空間語義推理的任務中,其成功率比ReAct高出14.9%。此外,實驗還展示了LightPlanner在邊緣設備上的運行潛力,突顯其在資源受限環境中的適用性。
圖4: LightPlanner在Jetson Xavier Orin上的部署展示
● 立即獲取
論文地址:https://arxiv.org/abs/2503.08508
代碼地址:https://github.com/unira-zwj/LightPlanner