scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.RO方向,2025年8月12日更新论文60
[1] 用于服装制造的褶皱裤自动折缝机
标题: Automated Seam Folding and Sewing Machine on Pleated Pants for Apparel Manufacturing
作者: Ray Wai Man Kong
原文:   [英文]  
备注: 13 pages, 9 figures
摘要:
本应用研究旨在设计和开发一台用于折叠和缝制褶皱裤的自动化机器。这项研究在解决手工缝制过程中遇到的挑战方面取得了显著进展。传统的褶皱制作方法劳动强度大,容易出现不一致性,并且需要高水平的技能,因此在服装行业中实现自动化是一个关键需求。本研究探讨了将先进技术整合到服装生产中的技术可行性和操作优势,重点是创建一台能够精确折叠和缝制操作的自动化机器,并消除标记操作。 所提出的机器结合了关键特性,例如集成到自动缝纫单元中的精密折叠机制,并具备实时监控能力。结果显示出显著的改进:标准劳动时间减少了93%,从每件117秒降至仅8秒。类似地,机器时间提高了73%,总产出率增加了72%。这些改进使得每件的循环时间从117秒减少到令人印象深刻的33秒,使制造商能够更迅速地满足客户需求。通过消除手动标记过程,该机器不仅降低了人工成本,还通过一致的褶皱形成减少了浪费。这种自动化符合行业向可持续性和效率发展的趋势,可能通过减少材料浪费和能源消耗来降低环境影响。

[2] 基于深度学习模拟器的星舰翻转着陆轨迹优化
标题: Optimization of Flip-Landing Trajectories for Starship based on a Deep Learned Simulator
作者: Liwei Chen / Tong Qin / Zhenhua Huangfu / Li Li / Wei Wei
原文:   [英文]  
备注: None
摘要:
我们提出了一种可微优化框架,用于可重复使用航天器的翻转和着陆轨迹设计,以Starship飞行器为例。一个深度神经网络代理模型经过高保真CFD数据训练后,可以预测空气动力学力和力矩,并与可微刚体动力学求解器紧密结合。这使得无需线性化或凸松弛即可进行端到端的基于梯度的轨迹优化。该框架处理执行器限制和终端着陆约束,生成物理一致的优化控制序列。标准自动微分和神经ODEs都被应用以支持长时间范围的预测。结果证明了该框架在建模和优化具有高度非线性的复杂机动方面的有效性。这项工作为未来涉及非定常空气动力学、喷流相互作用和智能制导设计的扩展奠定了基础。

[3] 刺针机器人:一种用于在狭窄地下环境中自主钻探的自支撑机器人平台
标题: Stinger Robot: A Self-Bracing Robotic Platform for Autonomous Drilling in Confined Underground Environments
作者: H. Liu / L. S. Moreu / T. S. Andersen / V. V. Puche / M. Fumagalli
原文:   [英文]   [中文]  
备注: 7 pages, submitted
摘要:
对关键原材料日益增长的需求重新激发了对废弃地下矿井的兴趣,这些矿井由于环境狭窄、结构不规则且缺乏基础设施,对传统钻探机械构成了极大的挑战。本文介绍了Stinger机器人,这是一种专门为在此类环境中进行自主高力钻探而设计的新型紧凑型机器人平台。该机器人具有机械自锁的三腿支撑机制,能够稳定地锚定在不规则的隧道表面。其关键创新在于力感知的闭环控制策略,使其在支撑和钻探过程中能够与不规则环境进行力交互。该控制策略在ROS 2中实现为有限状态机,能够根据实时接触反馈和负载阈值动态调整腿部部署,确保在没有外部支撑的情况下保持稳定。我们通过模拟和初步硬件测试证明,Stinger机器人能够在当前采矿机器无法进入的条件下自主稳定和钻探。这项工作构成了第一个经过验证的机器人架构,能够在地下环境中集成分布式力支撑和自主钻探,为未来使用模块化机器人系统进行协作采矿作业奠定了基础。

[4] MetAdv:一个用于自动驾驶的统一和交互式对抗性测试平台
标题: MetAdv: A Unified and Interactive Adversarial Testing Platform for Autonomous Driving
作者: Aishan Liu / Jiakai Wang / Tianyuan Zhang / Hainan Li / Jiangfan Liu / Siyuan Liang / Yilong Ren / Xianglong Liu / Dacheng Tao
原文:   [英文]   [中文]  
备注: Accepted by ACM MM 2025 Demo/Videos track
摘要:
评估和确保自动驾驶(AD)系统的对抗性鲁棒性是一个关键且未解决的挑战。本文介绍了MetAdv,这是一种新颖的对抗性测试平台,通过紧密集成虚拟仿真与物理车辆反馈,实现了现实、动态和交互式的评估。MetAdv的核心是建立一个混合虚拟-物理沙盒,在其中我们设计了一个三层闭环测试环境,具有动态对抗性测试演化。该架构促进了端到端的对抗性评估,从高级统一对抗生成、中级基于仿真的交互,到低级在物理车辆上的执行。此外,MetAdv支持广泛的AD任务、算法范式(例如,模块化深度学习管道、端到端学习、视觉-语言模型)。它支持灵活的3D车辆建模和模拟与物理环境之间的无缝过渡,并内置兼容商业平台,如Apollo和Tesla。MetAdv的一个关键特性是其人机交互能力:除了灵活的环境配置以实现更定制化的评估外,它还能实时捕捉驾驶员的生理信号和行为反馈,为对抗条件下的人机信任提供新的见解。我们相信MetAdv可以提供一个可扩展和统一的对抗性评估框架,为更安全的自动驾驶铺平道路。

[5] 跳跃四足机器人可解释简化模型的符号学习
标题: Symbolic Learning of Interpretable Reduced-Order Models for Jumping Quadruped Robots
作者: Gioele Buriani / Jingyue Liu / Maximilian Stölzle / Cosimo Della Santina / Jiatao Ding
原文:   [英文]   [中文]  
备注: 8 pages, under review
摘要:
降阶模型对于四足机器人运动规划和控制至关重要,因为它们在保留关键行为的同时简化了复杂的动力学。本文介绍了一种新颖的方法,用于推导此类可解释的动态模型,特别是针对跳跃。我们通过提出一种结合非线性动力学稀疏识别(SINDy)与跳跃动力学物理结构先验的学习架构,将高维、非线性的跳跃动力学捕捉到低维潜在空间中。我们的方法在精度上优于传统的驱动弹簧加载倒立摆(aSLIP)模型,并通过不同跳跃策略的仿真和硬件实验进行了验证。

[6] 关于为视觉-语言-动作模型收集模拟数据的教程说明
标题: A tutorial note on collecting simulated data for vision-language-action models
作者: Heran Wu / Zirun Zhou / Jingfeng Zhang
原文:   [英文]   [中文]  
备注: This is a tutorial note for educational purposes
摘要:
传统机器人系统通常将智能分解为计算机视觉、自然语言处理和运动控制的独立模块。视觉-语言-动作(VLA)模型通过采用单一神经网络来同时处理视觉观察、理解人类指令并直接输出机器人动作,从根本上改变了这种方法——所有这些都在一个统一的框架内。然而,这些系统高度依赖于高质量的训练数据集,以捕捉视觉观察、语言指令和机器人动作之间的复杂关系。本教程回顾了三个具有代表性的系统:用于灵活定制数据生成的PyBullet仿真框架、用于标准化任务定义和评估的LIBERO基准套件,以及用于大规模多机器人数据采集的RT-X数据集集合。我们展示了在PyBullet仿真中的数据集生成方法和LIBERO中的定制数据收集,并概述了RT-X数据集在大规模多机器人数据采集中的特征和作用。

[7] AquaChat++:基于大型语言模型辅助的多水下机器人养殖网箱检查系统,集成电池管理和推进器故障容错功能
标题: AquaChat++: LLM-Assisted Multi-ROV Inspection for Aquaculture Net Pens with Integrated Battery Management and Thruster Fault Tolerance
作者: Abdelhaleem Saad / Waseem Akram / Irfan Hussain
原文:   [英文]   [中文]  
备注: None
摘要:
水产养殖网箱的检查对于确保离岸鱼类养殖系统的结构完整性和可持续运行至关重要。传统方法通常基于人工操作或单一水下机器人系统,在实时约束条件下(如能耗、硬件故障和动态水下环境)适应性有限。本文介绍了AquaChat++,一种新颖的多水下机器人检查框架,利用大型语言模型(LLMs)实现复杂水产养殖环境中的自适应任务规划、协调任务执行和容错控制。所提出的系统由两层架构组成。高层计划生成层使用LLM(如ChatGPT-4)将自然语言用户命令转换为符号化的多代理检查计划。任务管理器根据水下机器人的实时状态和操作约束(包括推进器故障和电池电量)动态分配和调度动作。低层控制层确保准确的轨迹跟踪,并集成推进器故障检测和补偿机制。通过结合实时反馈和事件触发的重新规划,AquaChat++增强了系统的鲁棒性和操作效率。在基于物理的水产养殖环境中进行的模拟实验显示了改进的检查覆盖率、节能行为以及对执行器故障的弹性。这些发现突显了LLM驱动框架在支持水产养殖行业中可扩展、智能和自主水下机器人操作方面的潜力。

[8] 通过自适应无解缠四元数滑模控制实现稳健和敏捷的四旋翼飞行
标题: Robust and Agile Quadrotor Flight via Adaptive Unwinding-Free Quaternion Sliding Mode Control
作者: Amin Yazdanshenas / Reza Faieghi
原文:   [英文]   [中文]  
备注: None
摘要:
本文提出了一种新的自适应滑模控制(SMC)框架,用于四旋翼飞行器,在严格的计算约束下实现稳健和灵活的飞行。所提出的控制器解决了之前SMC公式的关键限制,包括(i)基于$\mathrm{SO(3)}$方法的慢收敛和几乎全局稳定性,(ii)欧拉基控制器中旋转动力学的过度简化,(iii)四元数公式中的解缠现象,以及(iv)自适应SMC方案中的增益过度增长问题。利用非光滑稳定性分析,我们为定义在$\mathbb{S}^3$上的非光滑姿态滑动动力学和位置滑动动力学提供了严格的全局稳定性证明。我们的控制器计算效率高,并能可靠地运行在资源受限的纳米四旋翼飞行器上,实现位置和姿态控制分别为250 Hz和500 Hz的刷新率。在超过130次飞行试验的广泛硬件实验中,所提出的控制器始终优于三种基准方法,表现出卓越的轨迹跟踪精度和稳健性,同时控制努力相对较低。该控制器能够实现动态抛投启动、翻转动作以及超过3g的加速度等激进动作,这对于一个32克的纳米四旋翼飞行器来说是非常显著的。这些结果突出了在实际应用中的潜力,特别是在需要稳健、高性能飞行控制的情况下,面对显著的外部干扰和严格的计算约束。

[9] 通过对碰撞衍生场景的自适应搜索实现自动驾驶车辆的高效安全测试
标题: Efficient Safety Testing of Autonomous Vehicles via Adaptive Search over Crash-Derived Scenarios
作者: Rui Zhou
原文:   [英文]   [中文]  
备注: None
摘要:
确保自动驾驶车辆(AVs)的安全性在其开发和部署中至关重要。安全关键场景带来了更严峻的挑战,因此需要高效的测试方法来验证AVs的安全性。本研究专注于设计一种用于安全关键场景的加速测试算法,以便快速识别其驾驶能力。首先,从中国深入移动安全研究-交通事故(CIMSS-TA)数据库中的真实事故中提取典型的逻辑场景,通过重建获得碰撞前特征。其次,集成了百度Apollo,一个先进的黑箱自动驾驶系统(ADS),以控制自车的行为。第三,我们提出了一种自适应大变量邻域模拟退火算法(ALVNS-SA)来加速测试过程。实验结果表明,使用ALVNS-SA可以显著提高测试效率。它实现了对安全关键场景的84.00%覆盖率,其中碰撞场景覆盖率为96.83%,近碰撞场景覆盖率为92.07%。与遗传算法(GA)、自适应大邻域模拟退火算法(ALNS-SA)和随机测试相比,ALVNS-SA在安全关键场景中表现出显著更高的覆盖率。

[10] 使用航天器星座进行响应式跟踪和增强预测的野火优化规划与机器学习
标题: Optimal Planning and Machine Learning for Responsive Tracking and Enhanced Forecasting of Wildfires using a Spacecraft Constellation
作者: Sreeja Roy-Singh / Vinay Ravindra / Richard Levinson / Mahta Moghaddam / Jan Mandel / Adam Kochanski / Angel Farguell Caus / Kurtis Nelson / Samira Alkaee Taleghan / Archana Kannan / Amer Melebari
原文:   [英文]  
备注: None
摘要:
我们提出了一种新颖的操作概念,利用最优规划方法和机器学习(ML)来收集前所未有的空间数据,以监测野火,并在野火危险或蔓延监测的背景下处理这些数据,以创建新的或增强的产品,并将其同化以改进现有的野火决策支持工具,从而在适合时间关键应用的延迟内提供给消防员。该概念是针对NASA的CYGNSS任务进行研究的,该任务是一个被动微波接收器星座,能够在云层和烟雾中测量GNSS-R的镜面反射。我们的规划器使用混合整数规划公式来为所有卫星安排联合观测数据的收集和下行链路。快速找到的最优解能够收集98-100%的可用观测机会。驱动规划器目标的基于ML的火灾预测与地面实况的相关性比现有的最先进方法高出40%以上。2024年德克萨斯州烟屋溪火灾和2025年洛杉矶火灾的案例研究展示了CYGNSS首次收集的活跃火灾的高分辨率数据。使用ML在活跃火灾期间应用于数据的烧毁区域图(BAM)的创建,以及BAM同化到NASA的天气研究和预报模型中以使用ML广播火灾蔓延,都是新颖的成果。BAM和CYGNSS获得的土壤湿度首次被整合到美国地质调查局的火灾危险地图中。将CYGNSS数据纳入基于ML的烧毁预测中提高了准确性13%,而纳入高分辨率数据又提高了ML召回率15%。所提出的工作流程预计延迟为6-30小时,相较于当前多天的交付时间有所改善。所提出概念中的所有组件都被证明在计算上具有可扩展性和全球通用性,并考虑了可持续性,如边缘效率和小型设备上的低延迟。

[11] 使用ORCA-FLC改进自主机器人的障碍物规避
标题: Improved Obstacle Avoidance for Autonomous Robots with ORCA-FLC
作者: Justin London
原文:   [英文]   [中文]  
备注: None
摘要:
障碍物规避使自主代理和机器人能够在动态和复杂的环境中安全高效地运行,降低碰撞和损坏的风险。为了使机器人或自主系统成功穿越障碍物,它必须能够检测到这些障碍物。虽然已经提出了许多碰撞规避算法,如动态窗口法(DWA)、定时弹性带(TEB)和互相速度障碍(RVO),但由于固定权重,它们可能导致次优路径,计算成本高昂,或者在多代理环境中对动态障碍物的适应性有限。改进后的互相碰撞规避(ORCA)在RVO的基础上提供了更平滑的轨迹和更强的碰撞规避保证。我们提出了ORCA-FL,通过使用模糊逻辑控制器(FLCs)来改进ORCA,以更好地处理路径规划中障碍物规避的不确定性和不精确性。进行了大量的多代理实验,结果表明如果代理的速度超过某个阈值,ORCA-FL在减少碰撞次数方面可以优于ORCA。此外,详细介绍了一种使用模糊Q强化学习(FQL)改进ORCA-FL的算法,用于优化和调整FLCs。

[12] 学习因果结构分布以实现稳健规划
标题: Learning Causal Structure Distributions for Robust Planning
作者: Alejandro Murillo-Gonzalez / Junhong Xu / Lantao Liu
原文:   [英文]   [中文]  
备注: None
摘要:
结构因果模型描述了机器人系统的各个组成部分如何相互作用。它们提供了关于系统中存在的关系的结构和功能信息。结构信息概述了存在相互作用的变量,而功能信息通过方程或学习模型描述了这些相互作用是如何工作的。在本文中,我们发现,在考虑结构信息不确定性的同时学习功能关系,可以得到更稳健的动态模型,从而改善下游规划,同时显著降低计算资源的使用。这与常见的模型学习方法形成对比,后者忽略了因果结构,未能利用机器人系统中相互作用的稀疏性。我们通过估计一个因果结构分布来实现这一点,该分布用于采样因果图,以告知编码器-多解码器概率模型中的潜在空间表示。我们展示了我们的模型可以用于学习机器人的动态,这与基于采样的规划器结合使用,可以在新环境中执行新任务,前提是有可用的新需求的目标函数。我们在模拟和现实世界中使用机械臂和移动机器人验证了我们的方法。此外,我们验证了学习到的动态在适应性和对输入损坏及环境变化的鲁棒性方面的提高,这在具有挑战性的现实世界机器人场景中是非常理想的。视频:this https URL。

[13] 用于安全超声图像引导机器人脊柱手术的鲁棒亚高斯模型预测控制
标题: Robust-Sub-Gaussian Model Predictive Control for Safe Ultrasound-Image-Guided Robotic Spinal Surgery
作者: Yunke Ao / Manish Prajapat / Yarden As / Yassine Taoudi-Benchekroun / Fabio Carrillo / Hooman Esfandiari / Benjamin F. Grewe / Andreas Krause / Philipp Fürnstahl
原文:   [英文]   [中文]  
备注: None
摘要:
在诸如自动驾驶和机器人手术等领域,使用来自光学数据(例如图像、点云)的高维感知反馈进行安全关键控制面临重大挑战。控制可以依赖于从高维数据中估计的低维状态。然而,估计误差通常遵循复杂且未知的分布,标准概率模型难以捕捉这些分布,从而使得形式化的安全保证变得困难。在这项工作中,我们引入了一种新颖的方法来表征这些一般估计误差,使用具有有界均值的次高斯噪声。我们开发了一种新的技术,用于在线性系统中传播所提出的噪声表征的不确定性,该技术结合了基于集合的鲁棒方法和次高斯方差代理的传播。我们进一步开发了一个模型预测控制(MPC)框架,在所提出的噪声假设下为线性系统提供闭环安全保证。我们将这种MPC方法应用于超声图像引导的机器人脊柱手术流程中,该流程包含基于深度学习的语义分割、基于图像的配准、高级基于优化的规划和低级机器人控制。为了验证该流程,我们开发了一个逼真的仿真环境,集成了真实的人体解剖结构、机器人动力学、高效的超声仿真,以及呼吸运动和钻孔力的体内数据。仿真中的评估结果展示了我们的方法在解决复杂的图像引导机器人手术任务时确保安全的潜力。

[14] 学习基于视觉的步态规划器用于分层行走控制
标题: Learning a Vision-Based Footstep Planner for Hierarchical Walking Control
作者: Minku Kim / Brian Acosta / Pratik Chaudhari / Michael Posa
原文:   [英文]   [中文]  
备注: 8 pages, 8 figures, accepted to 2025 IEEE-RAS 24th International Conference on Humanoid Robots
摘要:
双足机器人在通过动态地面接触导航复杂地形方面展示了潜力。然而,当前的框架通常仅依赖于本体感受或使用手动设计的视觉管道,这在现实环境中是脆弱的,并且在非结构化环境中使实时步态规划变得复杂。为了解决这个问题,我们提出了一种基于视觉的分层控制框架,该框架集成了一个基于强化学习的高级步态规划器,该规划器基于局部高程图生成步态命令,以及一个低级操作空间控制器来跟踪生成的轨迹。我们利用角动量线性倒立摆模型构建了一个低维状态表示,以捕捉动态的有效编码,同时降低复杂性。我们使用欠驱动的双足机器人Cassie在不同地形条件下评估我们的方法,并通过仿真和硬件实验研究我们方法的能力和挑战。

[15] D3P:通过强化学习实现动态去噪扩散策略
标题: D3P: Dynamic Denoising Diffusion Policy via Reinforcement Learning
作者: Shu-Ang Yu / Feng Gao / Yi Wu / Chao Yu / Yu Wang
原文:   [英文]   [中文]  
备注: None
摘要:
扩散策略在学习机器人视觉运动任务的复杂动作分布方面表现出色,但其迭代去噪过程成为实时部署的主要瓶颈。现有的加速方法对每个动作应用固定数量的去噪步骤,隐含地将所有动作视为同等重要。然而,我们的实验表明,机器人任务通常包含\emph{关键}和\emph{常规}动作的混合,这些动作在任务成功中的影响不同。受这一发现的启发,我们提出了\textbf{动态去噪扩散策略 (D3P)},这是一种基于扩散的策略,在测试时自适应地分配去噪步骤到各个动作。D3P使用一个轻量级的、状态感知的适配器,为每个动作分配最佳数量的去噪步骤。我们通过强化学习联合优化适配器和基础扩散策略,以平衡任务性能和推理效率。在模拟任务中,D3P在不降低成功率的情况下,实现了平均2.2倍的推理速度提升。此外,我们在物理机器人上展示了D3P的有效性,相较于基线实现了1.9倍的加速。

[16] 基于振动的能量度量用于自主机器人超声中的针头对准恢复
标题: Vibration-Based Energy Metric for Restoring Needle Alignment in Autonomous Robotic Ultrasound
作者: Zhongyu Chen / Chenyang Li / Xuesong Li / Dianye Huang / Zhongliang Jiang / Stefanie Speidel / Xiangyu Chu / K. W. Samuel Au
原文:   [英文]   [中文]  
备注: None
摘要:
在机器人超声引导的操作中,精确的针头对准对于经皮针插入至关重要。然而,固有的挑战如斑点噪声、针状伪影和低图像分辨率使得稳健的针检测变得困难,特别是在能见度降低或丧失时。在本文中,我们提出了一种方法来恢复当超声成像平面与针插入平面不对齐时的针头对准。与许多现有方法严重依赖于超声图像中针的可见性不同,我们的方法通过使用机械系统周期性地振动针来利用更稳健的特征。具体而言,我们提出了一种基于振动的能量度量,即使在针完全不在平面内时也能保持有效。利用这一度量,我们开发了一种控制策略,以应对成像平面与针插入平面在平移和旋转上的不对齐,从而重新定位超声探头。在使用双臂机器人超声引导针插入系统对离体猪组织样本进行的实验中,验证了所提出方法的有效性。实验结果显示,平移误差为0.41±0.27毫米,旋转误差为0.51±0.19度。

[17] 用于帮助能力受限人士的机械臂
标题: Manipulator for people with limited abilities
作者: Bingkun Huang / Evgeniy Kotov / Arkady Yuschenko
原文:   [英文]  
备注: 105 pages, in Russian language
摘要:
由于开发旨在帮助残疾人的机器人系统的重要性,本次最终资格工作的主题被选定。机器人和自动化技术的进步为创造能够显著改善这些人生活质量的设备开辟了新的前景。在此背景下,设计一款适应残疾人需求的控制系统的机器人手是一个重大的科学和实践挑战。本工作解决了开发和制造一款适合实际操作的四自由度机器人手的问题。解决这一问题需要综合的方法,包括手部机械结构的设计、控制系统的开发,以及与基于机器人操作系统(ROS)的技术视觉系统和软件的集成。

[18] 使用场景图进行具身智能体导航的想象世界建模
标题: Imaginative World Modeling with Scene Graphs for Embodied Agent Navigation
作者: Yue Hu / Junzhe Wu / Ruihan Xu / Hang Liu / Avery Xi / Henry X. Liu / Ram Vasudevan / Maani Ghaffari
原文:   [英文]   [中文]  
备注: 23 pages
摘要:
语义导航要求智能体在未见过的环境中朝指定目标导航。采用一种预测未来场景的想象导航策略可以使智能体更快找到目标。受到这一理念的启发,我们提出了SGImagineNav,一种新颖的想象导航框架,该框架利用符号世界建模主动构建全球环境表示。SGImagineNav维护一个不断演变的层次场景图,并使用大型语言模型预测和探索环境中未见的部分。现有方法仅依赖于过去的观察,而这种想象场景图提供了更丰富的语义上下文,使智能体能够主动估计目标位置。在此基础上,SGImagineNav采用了一种自适应导航策略,在有希望时利用语义捷径,否则探索未知区域以收集额外的上下文。该策略不断扩展已知环境并积累有价值的语义上下文,最终引导智能体朝向目标。SGImagineNav在真实世界场景和模拟基准中进行了评估。SGImagineNav始终优于以前的方法,将成功率提高到HM3D上的65.4和HSSD上的66.8,并在真实世界环境中展示了跨楼层和跨房间导航,强调了其有效性和通用性。

[19] EGS-SLAM: 基于事件的RGB-D高斯点云SLAM
标题: EGS-SLAM: RGB-D Gaussian Splatting SLAM with Events
作者: Siyu Chen / Shenghai Yuan / Thien-Minh Nguyen / Zhuyu Huang / Chenyang Shi / Jin Jing / Lihua Xie
原文:   [英文]   [中文]  
备注: Accepted by IEEE RAL
摘要:
高斯喷溅SLAM(GS-SLAM)在传统SLAM方法上提供了显著的改进,使得实现照片级真实感的3D重建成为可能,而这是传统方法常常难以实现的。然而,现有的GS-SLAM系统在真实世界场景中常见的持续且严重的运动模糊情况下表现不佳,导致跟踪精度显著下降以及3D重建质量受损。为了解决这一限制,我们提出了EGS-SLAM,一种新颖的GS-SLAM框架,它将事件数据与RGB-D输入融合,以同时减少图像中的运动模糊并补偿事件流的稀疏和离散特性,从而实现稳健的跟踪和高保真度的3D高斯喷溅重建。具体来说,我们的系统显式地建模了相机在曝光期间的连续轨迹,支持在统一的3D高斯喷溅场景中进行事件和模糊感知的跟踪和映射。此外,我们引入了一个可学习的相机响应函数,以对齐事件和图像的动态范围,并通过无事件损失来抑制重建过程中的振铃伪影。我们在一个包含显著运动模糊的合成和真实世界序列的新数据集上验证了我们的方法。大量实验结果表明,EGS-SLAM在轨迹精度和照片级真实感的3D高斯喷溅重建方面始终优于现有的GS-SLAM系统。源代码将在此https URL上提供。

[20] $\mathcal{P}^3$: 迈向多功能的具身智能体
标题: $\mathcal{P}^3$: Toward Versatile Embodied Agents
作者: Shengli Zhou / Xiangchen Wang / Jinrui Zhang / Ruozai Tian / Rongtao Xu / Feng Zheng
原文:   [英文]   [中文]  
备注: 16 pages, 8 figures
摘要:
具身代理在不同的物理环境中表现出令人鼓舞的泛化能力,使其在广泛的现实世界应用中变得不可或缺。然而,由于三个关键问题,构建多功能的具身代理面临重大挑战:动态环境感知、开放式工具使用和复杂的多任务规划。大多数先前的工作仅依赖工具代理的反馈来感知环境变化和任务状态,这限制了对实时动态的适应性,导致错误积累,并限制了工具的灵活性。此外,多任务调度受到的关注有限,主要是由于在动态和复杂环境中管理任务依赖关系和平衡竞争优先级的固有复杂性。为了解决这些挑战,我们引入了$\mathcal{P}^3$,一个集成实时感知和动态调度的统一框架。具体来说,$\mathcal{P}^3$能够:1)\textbf 主动从环境中感知相关任务信息,2)\textbf 插入并使用任何工具而无需反馈要求,3)\textbf 基于优先处理紧急任务并根据依赖关系动态调整任务顺序来规划多任务执行。广泛的现实世界实验表明,我们的方法弥合了基准测试与实际部署之间的差距,提供了高度可转移的通用具身代理。代码和数据将很快发布。

[21] 从数据到安全的移动机器人导航:一种高效且模块化的鲁棒MPC设计流程
标题: From Data to Safe Mobile Robot Navigation: An Efficient and Modular Robust MPC Design Pipeline
作者: Dennis Benders / Johannes Köhler / Robert Babuška / Javier Alonso-Mora / Laura Ferranti
原文:   [英文]   [中文]  
备注: 8 pages, 5 figures
摘要:
模型预测控制(MPC)是一种在自主移动机器人导航中进行规划和控制的强大策略。然而,由于存在干扰和测量噪声,确保在现实世界中的安全部署仍然具有挑战性。现有的方法通常依赖于理想化的假设,忽视了噪声测量的影响,并简单地凭经验猜测不切实际的界限。在这项工作中,我们提出了一种高效且模块化的鲁棒MPC设计流程,系统地解决了这些限制。该流程由一个迭代过程组成,利用闭环实验数据来估计干扰界限并合成鲁棒输出反馈MPC方案。我们以确定性和可重复的代码形式提供了该流程,以便从数据中合成鲁棒输出反馈MPC。我们在使用Gazebo的四旋翼飞行器仿真中实证展示了鲁棒约束满足和递归可行性。

[22] 基于学习的轨迹预测的人群导航模型预测控制
标题: Model Predictive Control for Crowd Navigation via Learning-Based Trajectory Prediction
作者: Mohamed Parvez Aslam / Bojan Derajic / Mohamed-Khalil Bouzidi / Sebastian Bernhard / Jan Oliver Ringert
原文:   [英文]   [中文]  
备注: None
摘要:
在行人密集的环境中实现安全导航仍然是自主机器人面临的一个关键挑战。本文评估了在物理Continental Corriere机器人上,将基于深度学习的Social-Implicit (SI) 行人轨迹预测器与模型预测控制 (MPC) 框架相结合的效果。在不同的行人密度下进行测试,SI-MPC系统与传统的恒速 (CV) 模型在开环预测和闭环导航中进行了比较。结果表明,SI在轨迹预测方面有所改进——在低密度环境中将误差减少了多达76%——并在拥挤场景中增强了安全性和运动的平滑性。此外,实际部署揭示了开环指标与闭环性能之间的差异,因为SI模型产生了更广泛、更谨慎的预测。这些发现强调了系统级评估的重要性,并突出了SI-MPC框架在动态、人群密集环境中实现更安全、更自适应导航的潜力。

[23] 一种考虑社会接受度的自动驾驶演化博弈论合并决策
标题: An Evolutionary Game-Theoretic Merging Decision-Making Considering Social Acceptance for Autonomous Driving
作者: Haolin Liu / Zijun Guo / Yanbo Chen / Jiaqi Chen / Huilong Yu / Junqiang Xi
原文:   [英文]   [中文]  
备注: None
摘要:
高速公路匝道并入对于自动驾驶车辆(AVs)来说是一个巨大的挑战,因为它们必须主动与周围车辆互动,以在有限的时间内安全地进入主路。然而,现有的决策算法未能充分解决自动驾驶车辆的动态复杂性和社会接受度问题,导致次优或不安全的并入决策。为了解决这个问题,我们提出了一种基于进化博弈论(EGT)的并入决策框架,该框架基于人类驾驶员的有限理性,动态平衡自动驾驶车辆和主路车辆(MVs)的利益。我们将切入决策过程表述为一个具有多目标收益函数的EGT问题,该函数反映了类似人类的驾驶偏好。通过求解复制动态方程以获得进化稳定策略(ESS),得出最佳切入时机,平衡了自动驾驶车辆和主路车辆的效率、舒适性和安全性。我们提出了一种实时驾驶风格估计算法,通过观察主路车辆的即时反应来在线调整博弈收益函数。实证结果表明,与现有的博弈论和传统规划方法相比,我们在多目标指标上提高了自动驾驶车辆和主路车辆的效率、舒适性和安全性。

[24] DexFruit:水果的灵巧操作与高斯喷溅检测
标题: DexFruit: Dexterous Manipulation and Gaussian Splatting Inspection of Fruit
作者: Aiden Swann / Alex Qiu / Matthew Strong / Angelina Zhang / Samuel Morstein / Kai Rayle / Monroe Kennedy III
原文:   [英文]   [中文]  
备注: 8 pages, 5 figures
摘要:
DexFruit 是一个机器人操作框架,能够温和地自主处理易碎水果并精确评估损伤。许多水果都很脆弱,容易出现瘀伤,因此需要人类小心地手动采摘。在这项工作中,我们通过使用光学触觉传感器展示了可以实现对水果的自主操作,并将损伤降到最低。我们表明,我们的触觉感知扩散策略在减少瘀伤和抓取放置成功率方面,在草莓、西红柿和黑莓这三种水果上都优于基线。此外,我们引入了 FruitSplat,这是一种通过 3D 高斯散点(3DGS)在高分辨率 3D 表示中表示和量化视觉损伤的新技术。现有的损伤测量指标缺乏定量严谨性或需要昂贵的设备。通过 FruitSplat,我们将 2D 草莓掩码以及 2D 瘀伤分割掩码提炼到 3DGS 表示中。此外,这种表示是模块化和通用的,与任何相关的 2D 模型兼容。总体而言,我们展示了 92% 的抓取策略成功率,视觉瘀伤减少高达 20%,在我们测试的三种水果中,与基线相比,抓取成功率提高了高达 31%。我们通过超过 630 次试验严格评估了这一结果。请访问我们的网站,网址为此 HTTPS URL。

[25] 将神经符号人工智能整合到先进空中交通中的综合调查
标题: Integrating Neurosymbolic AI in Advanced Air Mobility: A Comprehensive Survey
作者: Kamal Acharya / Iman Sharifi / Mehul Lad / Liang Sun / Houbing Song
原文:   [英文]   [中文]  
备注: 9 pages, 4 figures, IJCAI-2025 (accepted)
摘要:
神经符号人工智能结合了神经网络的适应性与符号推理,提供了一种解决先进空中交通(AAM)中复杂的监管、运营和安全挑战的方法。这篇综述回顾了其在关键AAM领域的应用,如需求预测、飞机设计和实时空中交通管理。我们的分析揭示了一个支离破碎的研究格局,其中包括神经符号强化学习的方法在动态优化方面显示出潜力,但在可扩展性、鲁棒性和符合航空标准方面仍面临障碍。我们对当前的进展进行了分类,展示了相关的案例研究,并概述了未来的研究方向,旨在将这些方法整合到可靠、透明的AAM系统中。通过将先进的人工智能技术与AAM的运营需求相结合,这项工作为开发下一代空中交通解决方案的研究人员和从业者提供了一个简明的路线图。

[26] 用于动态场景重建的具有运动轨迹场的三维高斯表示
标题: 3D Gaussian Representations with Motion Trajectory Field for Dynamic Scene Reconstruction
作者: Xuesong Li / Lars Petersson / Vivien Rolland
原文:   [英文]   [中文]  
备注: None
摘要:
本文解决了从单目视频中进行动态场景的新视图合成和运动重建的挑战,这对于许多机器人应用至关重要。尽管神经辐射场(NeRF)和三维高斯点(3DGS)在渲染静态场景方面取得了显著成功,但将其扩展到重建动态场景仍然具有挑战性。在这项工作中,我们引入了一种新颖的方法,将3DGS与运动轨迹场相结合,从而能够精确处理复杂的物体运动并实现物理上合理的运动轨迹。通过将动态物体与静态背景分离,我们的方法紧凑地优化了运动轨迹场。该方法结合了时间不变的运动系数和共享的运动轨迹基,以捕捉复杂的运动模式,同时最小化优化复杂性。大量实验表明,我们的方法在从单目视频中进行新视图合成和运动轨迹恢复方面达到了最先进的结果,提升了动态场景重建的能力。

[27] 基于注视的交互和增强对关键任务中人机协作的影响
标题: Impact of Gaze-Based Interaction and Augmentation on Human-Robot Collaboration in Critical Tasks
作者: Ayesha Jena / Stefan Reitmann / Elin Anna Topp
原文:   [英文]  
备注: None
摘要:
我们进行了一项用户研究,分析了基于头部凝视的机器人控制和在模拟搜索与救援任务中的中央凹视觉增强。结果表明,中央凹增强显著提高了任务性能,将认知负荷降低了38%,并将任务时间缩短了超过60%。对整个任务持续时间和较短时间段的头部凝视模式分析表明,近距离和远距离注意力捕捉对于更好地理解用户在关键场景中的意图至关重要。我们的研究结果强调了中央凹作为增强技术的潜力,以及进一步研究凝视测量以在关键任务中利用它们的必要性。

[28] 基于生物启发的拓扑自主导航与机器人中的主动推理
标题: Bio-Inspired Topological Autonomous Navigation with Active Inference in Robotics
作者: Daria de Tinguy / Tim Verbelen / Emilio Gamba / Bart Dhoedt
原文:   [英文]   [中文]  
备注: Conference ICCAS 2025 - accepted (in processing)
摘要:
实现完全自主的探索和导航仍然是机器人领域的一个关键挑战,需要集成定位、建图、决策和运动规划的解决方案。现有的方法要么依赖于缺乏适应性的严格导航规则,要么依赖于需要大量数据集的预训练。这些人工智能方法通常计算量大或基于静态假设,限制了它们在动态或未知环境中的适应性。本文介绍了一种基于主动推理框架(AIF)的仿生代理,该框架统一了自主导航中的建图、定位和自适应决策,包括探索和目标达成。我们的模型实时创建和更新环境的拓扑地图,规划目标导向的轨迹以探索或达到目标,而无需预训练。主要贡献包括一个用于可解释导航的概率推理框架、对动态变化的强大适应性,以及与现有导航系统兼容的模块化ROS2架构。我们的方法在模拟和现实环境中进行了测试。该代理成功探索了大规模模拟环境,并适应动态障碍和漂移,证明其与其他探索策略如Gbplanner、FAEL和Frontiers相当。该方法为在复杂、非结构化环境中导航提供了一种可扩展且透明的方法。

[29] 利用主动推理进行导航与探索:从生物学到工业
标题: Navigation and Exploration with Active Inference: from Biology to Industry
作者: Daria de Tinguy / Tim Verbelen / Bart Dhoedt
原文:   [英文]   [中文]  
备注: conference IWAI 2025 - accepted (in processing)
摘要:
通过构建和更新内部认知地图,动物在复杂动态环境中表现出非凡的导航能力。受这些生物机制的启发,我们提出了一个基于主动推理框架(AIF)的实时机器人导航系统。我们的模型逐步构建拓扑地图,推断代理的位置,并通过最小化预期的不确定性和实现感知目标来规划行动,而无需任何事先训练。集成到ROS2生态系统中,我们验证了其在2D和3D环境(模拟和现实世界)中的适应性和效率,展示了与传统和最先进的探索方法的竞争性能,同时提供了一种受生物启发的导航方法。

[30] 用于空间机器人操作的多模态脉冲神经网络
标题: Multimodal Spiking Neural Network for Space Robotic Manipulation
作者: Liwen Zhang / Dong Zhou / Shibo Shao / Zihao Su / Guanghui Sun
原文:   [英文]   [中文]  
备注: None
摘要:
本文提出了一种基于脉冲神经网络(SNNs)的多模态控制框架,用于空间站上的机械臂。该框架旨在应对有限的机载资源限制,同时实现空间操作中的自主操控和物料转移。通过结合几何状态与触觉和语义信息,该框架增强了环境感知能力,并有助于制定更稳健的控制策略。为了逐步引导学习过程,系统中进一步集成了双通道、三阶段课程强化学习(CRL)方案。该框架在一系列任务中进行了测试,包括目标接近、物体抓取和使用壁挂式机械臂进行稳定提升,表现出可靠的性能。实验评估表明,所提出的方法在任务成功率和能源效率方面始终优于基线方法。这些发现突出了其在实际航空航天应用中的适用性。

[31] 一种基于图注意力网络的可变形线性物体形状控制的混合力-位置策略
标题: A Hybrid Force-Position Strategy for Shape Control of Deformable Linear Objects With Graph Attention Networks
作者: Yanzhao Yu / Haotian Yang / Junbo Tan / Xueqian Wang
原文:   [英文]   [中文]  
备注: None
摘要:
操控可变形线性物体(DLOs),如电线和电缆,在电子装配和外科手术等各种应用中至关重要。然而,由于DLOs具有无限自由度、复杂的非线性动态特性以及系统的欠驱动特性,这一任务面临诸多挑战。为了解决这些问题,本文提出了一种用于DLO形状控制的混合力-位置策略。该框架结合了DLO的力和位置表示,集成了力空间中的状态轨迹规划和位置空间中的模型预测控制(MPC)。我们提出了一种动态模型,该模型具有显式动作编码器、属性提取器和基于图注意力网络的图处理器。该模型用于MPC中以提高预测精度。模拟和实际实验的结果表明,我们的方法在实现DLOs的高效和稳定形状控制方面是有效的。代码和视频可在此https URL获取。

[32] 基于能量的人工势场(E-APF)实现机器人机械臂的无碰撞轨迹规划与控制
标题: Collision-Free Trajectory Planning and control of Robotic Manipulator using Energy-Based Artificial Potential Field (E-APF)
作者: Adeetya Uppal / Rakesh Kumar Sahoo / Manoranjan Sinha
原文:   [英文]  
备注: None
摘要:
在动态且杂乱的环境中进行机器人轨迹规划仍然是一个关键挑战,特别是在努力实现时间效率和运动平滑度的同时还要考虑驱动约束时。传统的路径规划器,如人工势场(APF),虽然具有计算效率,但由于基于位置的势场函数和靠近障碍物时的牛顿力学导致的振荡运动,存在局部极小值问题。为了解决这一限制,本文提出了一种基于能量的人工势场(E-APF)框架,该框架集成了位置和速度相关的势函数。E-APF确保动态适应性并减轻局部极小值问题,使得能够不间断地向目标前进。所提出的框架将E-APF与混合轨迹优化器相结合,在速度和加速度约束下共同最小化加加速度和执行时间,确保几何平滑性和时间效率。整个框架在模拟中使用7自由度的Kinova Gen3机器人操纵器进行了验证。结果表明,在存在障碍物的情况下,轨迹无碰撞、平滑、时间高效且无振荡,突出了轨迹优化与实时障碍物规避方法结合的有效性。这项工作为未来与反应控制策略的集成以及在现实世界操作任务中的物理硬件部署奠定了基础。

[33] MonoMPC:基于单目视觉的导航,结合学习的碰撞模型与风险感知模型预测控制
标题: MonoMPC: Monocular Vision Based Navigation with Learned Collision Model and Risk-Aware Model Predictive Control
作者: Basant Sharma / Prajyot Jadhav / Pranjal Paul / K.Madhava Krishna / Arun Kumar Singh
原文:   [英文]   [中文]  
备注: None
摘要:
使用单个RGB相机在未知环境中导航具有挑战性,因为缺乏深度信息会阻碍可靠的碰撞检测。虽然一些方法使用估计的深度来构建碰撞地图,但我们发现视觉基础模型的深度估计对于在杂乱环境中的零样本导航来说过于嘈杂。 我们提出了一种替代方法:与其使用嘈杂的估计深度进行直接碰撞检测,不如将其用作学习碰撞模型的丰富上下文输入。该模型预测机器人在给定控制序列下可以预期的最小障碍物间隙的分布。在推理过程中,这些预测为一个风险感知的MPC规划器提供信息,该规划器最小化估计的碰撞风险。我们的联合学习管道通过安全和不安全的轨迹共同训练碰撞模型和风险度量。关键是,我们的联合训练确保了碰撞模型的最佳方差,从而改善了在高度杂乱环境中的导航。因此,真实世界的实验显示出相对于NoMaD和ROS堆栈分别提高了9倍和7倍的成功率。消融研究进一步验证了我们设计选择的有效性。

[34] AgriVLN:用于农业机器人的视觉与语言导航
标题: AgriVLN: Vision-and-Language Navigation for Agricultural Robots
作者: Xiaobei Zhao / Xingqi Lyu / Xiang Li
原文:   [英文]   [中文]  
备注: None
摘要:
农业机器人在农业任务中已成为强大的成员,然而,它们仍然严重依赖人工操作或不可移动的轨道进行移动,导致机动性有限和适应性差。视觉与语言导航(VLN)使机器人能够根据自然语言指令导航到目标目的地,并在多个领域表现出强大的性能。然而,现有的基准或方法中没有专门为农业场景设计的。为弥补这一差距,我们提出了农业到农业(A2A)基准,包含六个不同农业场景中的1,560个情节,其中所有真实的RGB视频都是通过安装在四足机器人上的前置摄像头拍摄的,摄像头高度为0.38米,与实际部署条件一致。同时,我们提出了基于视觉语言模型(VLM)的农业机器人视觉与语言导航(AgriVLN)基线,该模型通过精心设计的模板进行提示,能够理解给定的指令和农业环境,以生成适当的低级动作进行机器人控制。在A2A上进行评估时,AgriVLN在短指令上表现良好,但在长指令上表现不佳,因为它常常无法跟踪当前正在执行的指令部分。为了解决这一问题,我们进一步提出了子任务列表(STL)指令分解模块,并将其集成到AgriVLN中,将成功率(SR)从0.33提高到0.47。我们还将AgriVLN与几个现有的VLN方法进行了比较,展示了在农业领域的最新性能。

[35] Triple-S:一种用于解决机器人长时间隐含任务的多LLM协作框架
标题: Triple-S: A Collaborative Multi-LLM Framework for Solving Long-Horizon Implicative Tasks in Robotics
作者: Zixi Jia / Hongbin Gao / Fashe Li / Jiqiang Liu / Hexiao Li / Qinghua Liu
原文:   [英文]   [中文]  
备注: Accepted to IROS 2025
摘要:
利用大型语言模型(LLMs)编写用于控制机器人的策略代码已引起广泛关注。然而,在长时间跨度的隐含任务中,这种方法常常导致API参数、注释和顺序错误,从而导致任务失败。为了解决这个问题,我们提出了一种协作的Triple-S框架,该框架涉及多个LLMs。通过上下文学习,不同的LLMs在一个闭环的简化-解决-总结过程中承担特定角色,有效提高了长时间跨度隐含任务的成功率和鲁棒性。此外,一种从成功中学习的新颖演示库更新机制使其能够推广到以前失败的任务。我们在长时间跨度桌面隐含放置(LDIP)数据集中的各种基线模型上验证了该框架,其中Triple-S在可观察和部分可观察场景中成功执行了89%的任务。在模拟和现实世界的机器人环境中的实验进一步验证了Triple-S的有效性。我们的代码和数据集可在此HTTPS URL获取。

[36] 一种基于学习的无碰撞运动规划框架
标题: A Learning-Based Framework for Collision-Free Motion Planning
作者: Mateus Salomão / Tianyü Ren / Alexander König
原文:   [英文]   [中文]  
备注: None
摘要:
本文提出了一种基于学习的扩展方法,用于基于圆形场(CF)的运动规划器,以在复杂环境中高效生成无碰撞的轨迹。所提出的方法通过使用深度神经网络来克服手动调整力场参数的局限性,该网络经过训练可以从场景的单个深度图像中推断出最佳规划增益。该流程包括一个CUDA加速的感知模块、一个预测性基于代理的规划策略,以及通过贝叶斯优化在模拟中生成的数据集。最终的框架实现了实时规划,无需手动参数调整,并在模拟环境和Franka Emika Panda机器人上进行了验证。实验结果表明,与传统规划器相比,该方法成功完成任务并提高了泛化能力。

[37] 用于安全关键自动驾驶的渐进式鸟瞰视图感知:全面综述
标题: Progressive Bird's Eye View Perception for Safety-Critical Autonomous Driving: A Comprehensive Survey
作者: Yan Gong / Naibang Wang / Jianli Lu / Xinyu Zhang / Yongsheng Gao / Jie Zhao / Zifan Huang / Haozhi Bai / Nanxin Zeng / Nayu Su / Lei Yang / Ziying Song / Xiaoxi Hu / Xinmin Jiang / Xiaojuan Zhang / Susanto Rahardja
原文:   [英文]   [中文]  
备注: None
摘要:
鸟瞰视角(BEV)感知已成为自动驾驶中的基础范式,能够提供统一的空间表示,支持稳健的多传感器融合和多智能体协作。随着自动驾驶车辆从受控环境过渡到现实世界的部署,确保BEV感知在复杂场景中的安全性和可靠性——如遮挡、不利天气和动态交通——仍然是一个关键挑战。本综述首次从安全关键的角度对BEV感知进行了全面回顾,系统分析了三个渐进阶段的最新框架和实施策略:单模态车载、多模态车载和多智能体协作感知。此外,我们还审查了涵盖车载、路侧和协作环境的公共数据集,评估其与安全性和稳健性的相关性。我们还识别了关键的开放世界挑战,包括开放集识别、大规模未标记数据、传感器退化和智能体间通信延迟,并概述了未来的研究方向,如与端到端自动驾驶系统、具身智能和大型语言模型的集成。

[38] 单尾仿生59毫克游动器的反馈控制
标题: Feedback Control of a Single-Tail Bioinspired 59-mg Swimmer
作者: Conor K. Trygstad / Cody R. Longwell / Francisco M. F. R. Gonçalves / Elijah K. Blankenship / Néstor O. Pérez-Arancibia
原文:   [英文]   [中文]  
备注: To be presented at the 2025 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2025)
摘要:
我们展示了一种进化的可操控版本的单尾鱼带启发小型游泳谐波机器人(FRISSHBot),这是一种59毫克的仿生游泳机器人,由一种新型形状记忆合金(SMA)双弯曲致动器驱动。新的FRISSHBot可以在二维(2D)空间中控制,实现了首次在亚克级别的单尾水下机器人上进行反馈控制轨迹跟踪。这些新功能是通过物理启发设计实现的,其头部相对于原始平台增大,尾部缩短。得益于其设计,这个平台实现了高达13.6毫米/秒(0.38体长/秒)的前进游泳速度,是原始平台的四倍多。此外,在闭环跟随2D参考时,测试的FRISSHBot原型实现了高达9.1毫米/秒的前进游泳速度,均方根(RMS)跟踪误差低至2.6毫米,转弯速率高达13.1°/秒,转弯半径小至10毫米。

[39] 具有物理约束的原位价值对齐人机交互
标题: In-situ Value-aligned Human-Robot Interactions with Physical Constraints
作者: Hongtao Li / Ziyuan Jiao / Xiaofeng Liu / Hangxin Liu / Zilong Zheng
原文:   [英文]   [中文]  
备注: 8 pages, 7 figures
摘要:
配备了大型语言模型(LLMs)的以人为中心的机器人现在能够执行许多以前被认为具有挑战性或无法实现的任务。然而,仅仅完成任务对于认知机器人来说是不够的,它们还应该学习并将人类的偏好应用于未来的情境。在这项工作中,我们提出了一个将人类偏好与物理约束相结合的框架,要求机器人在考虑两者的情况下完成任务。首先,我们开发了一个日常家务活动的基准,这些活动通常基于特定的偏好进行评估。然后,我们引入了来自人类反馈的上下文学习(ICLHF),其中人类反馈来自日常生活中有意或无意的直接指令和调整。大量的实验集测试了ICLHF在生成任务计划以及在物理约束与偏好之间取得平衡方面的效率,证明了我们方法的有效性。

[40] 端到端人形机器人安全舒适行走策略
标题: End-to-End Humanoid Robot Safe and Comfortable Locomotion Policy
作者: Zifan Wang / Xun Yang / Jianzhuang Zhao / Jiaming Zhou / Teli Ma / Ziyao Gao / Arash Ajoudani / Junwei Liang
原文:   [英文]   [中文]  
备注: None
摘要:
在人类为中心的非结构化环境中部署类人机器人需要导航能力,这不仅仅是简单的运动,还包括稳健的感知、可证明的安全性和社会意识行为。目前的强化学习方法通常受限于缺乏环境感知的盲目控制器,或是无法感知复杂三维障碍物的基于视觉的系统。在这项工作中,我们提出了一种端到端的运动策略,能够直接将原始的时空LiDAR点云映射到电机指令,从而在拥挤的动态场景中实现稳健的导航。我们将控制问题表述为一个约束马尔可夫决策过程(CMDP),以正式将安全性与任务目标分开。我们的关键贡献是一种新颖的方法,将控制障碍函数(CBFs)的原理转化为CMDP中的成本,使无模型的惩罚近端策略优化(P3O)在训练过程中能够强制执行安全约束。此外,我们引入了一套以人机交互研究为基础的舒适导向奖励,以促进平滑、可预测且不具侵扰性的运动。我们通过成功的模拟到真实转移展示了我们框架的有效性,物理类人机器人在静态和动态三维障碍物周围表现出灵活且安全的导航。

[41] Grasp-HGN:抓住意料之外
标题: Grasp-HGN: Grasping the Unexpected
作者: Mehrshad Zandigohar / Mallesham Dasari / Gunar Schirner
原文:   [英文]  
备注: Paper accepted at ACM Transactions on Embedded Computing Systems
摘要:
对于桡骨截肢者来说,机器人假手有望恢复执行日常生活活动的能力。为了推进下一代假手控制设计,解决当前在实验室外环境中的鲁棒性不足以及在新环境中的泛化能力不足的问题至关重要。由于现有数据集中用于交互的物体数量是固定的,而现实世界中遇到的物体种类几乎是无限的,当前的抓取模型在未见过的物体上表现不佳,负面影响了用户的独立性和生活质量。为了解决这个问题:(i) 我们定义了语义投射,即模型泛化到未见过的物体类型的能力,并展示了像YOLO这样的传统模型尽管在训练中有80%的准确率,但在未见过的物体上准确率下降到15%。(ii) 我们提出了Grasp-LLaVA,一种抓取视觉语言模型,能够进行类似人类的推理,根据物体的物理特征推断合适的抓取类型估计,与现有的抓取估计模型相比,在未见过的物体类型上实现了显著的50.2%准确率,而现有模型的准确率为36.7%。最后,为了弥合性能与延迟之间的差距,我们提出了混合抓取网络(HGN),一种边缘-云部署基础设施,能够在边缘快速进行抓取估计,并在云端进行准确的推断作为保险措施,有效扩展了延迟与准确率的帕累托。HGN通过置信度校准(DC)实现了边缘和云模型之间的动态切换,将语义投射准确率提高了5.6%(达到42.3%),在未见过的物体类型上实现了3.5倍的加速。在真实世界样本混合中,它达到了86%的平均准确率(比仅使用边缘提高了12.2%),比单独使用Grasp-LLaVA快2.2倍。

[42] GraphCoT-VLA:一种用于机器人操作的三维空间感知推理视觉-语言-动作模型,适用于模糊指令
标题: GraphCoT-VLA: A 3D Spatial-Aware Reasoning Vision-Language-Action Model for Robotic Manipulation with Ambiguous Instructions
作者: Helong Huang / Min Cen / Kai Tan / Xingyue Quan / Guowei Huang / Hong Zhang
原文:   [英文]   [中文]  
备注: 10 pages, 6 figures
摘要:
视觉-语言-动作模型已成为机器人操作中的关键范式。然而,现有的VLA模型在处理模糊语言指令和未知环境状态方面存在显著局限。此外,它们的感知主要局限于静态的二维观察,缺乏对机器人与环境之间三维交互的建模能力。为了解决这些挑战,本文提出了GraphCoT-VLA,一种高效的端到端模型。为了增强模型解释模糊指令和改进任务规划的能力,我们设计了一个结构化的链式思维推理模块,该模块整合了高级任务理解与规划、失败任务反馈以及关于未来物体位置和机器人动作的低级想象推理。此外,我们构建了一个实时可更新的3D姿态-物体图,该图捕捉了机器人关节的空间配置以及物体在三维空间中的拓扑关系,使模型能够更好地理解和操控它们的交互。我们进一步整合了一种dropout混合推理策略,以实现高效的控制输出。多个真实世界机器人任务的实验结果表明,GraphCoT-VLA在任务成功率和响应速度方面显著优于现有方法,在开放环境和不确定指令下表现出强大的泛化能力和鲁棒性。

[43] MoRoCo:在受限通信条件下的多操作员-机器人协调、交互与探索
标题: MoRoCo: Multi-operator-robot Coordination, Interaction and Exploration under Restricted Communication
作者: Zhuoli Tian / Yuyang Zhang / Jinsheng Wei / Meng Guo
原文:   [英文]  
备注: 38 pages, 28 figures, Submitted to the International Journal of Robotics Research (IJRR). Project website: this https URL
摘要:
随着自主机器人队列越来越多地与多个人类操作员一起部署,以探索未知环境、识别显著特征并在地下探索、侦察和搜救任务等场景中执行复杂任务。在这些情况下,通信通常严重受限于通过临时网络进行的短距离交换,这对协调构成了挑战。尽管最近的研究已经解决了通信约束下的多机器人探索问题,但它们在很大程度上忽视了人类操作员及其与机器人团队实时交互的重要作用。操作员可能需要及时更新探索进度和机器人状态,动态地重新优先排序或取消任务,或请求实时视频传输和控制访问。相反,机器人可能需要人类确认异常事件或需要帮助从运动或规划故障中恢复。为了在受限通信下实现这种双向、上下文感知的交互,本文提出了MoRoCo,一个用于多操作员、多机器人系统在线协调和探索的统一框架。MoRoCo使团队能够在三种协调模式之间自适应切换:扩展模式用于间歇性数据共享的并行探索,迁移模式用于协调重新定位,以及链模式用于通过多跳链路保持高带宽连接。这些转换是通过仅本地通信的分布式算法进行管理的。大量大规模的人机交互仿真和硬件实验验证了人机交互的必要性,并证明MoRoCo在有限通信下实现了高效、可靠的协调,标志着在挑战性环境中实现稳健的人机交互多机器人自治的重要一步。

[44] 风险地图作为中间件:面向可解释的协作端到端自动驾驶的风险感知规划
标题: Risk Map As Middleware: Towards Interpretable Cooperative End-to-end Autonomous Driving for Risk-Aware Planning
作者: Mingyue Lei / Zewei Zhou / Hongchen Li / Jiaqi Ma / Jia Hu
原文:   [英文]   [中文]  
备注: None
摘要:
端到端范式已成为自动驾驶领域的一种有前景的方法。然而,现有的单代理端到端管道通常受到遮挡和有限感知范围的限制,导致驾驶危险。此外,其黑箱性质阻碍了驾驶行为的可解释性,导致系统不可信。为了解决这些限制,我们引入了作为中间件的风险地图(RiskMM),并提出了一种可解释的协作端到端驾驶框架。风险地图直接从驾驶数据中学习,并提供场景的可解释时空表示,从上游感知和自车与周围环境的交互中为下游规划提供支持。RiskMM首先使用统一的基于Transformer的架构构建多代理时空表示,然后通过注意力机制对周围环境的交互进行建模,得出风险感知表示。这些表示随后被输入到基于学习的模型预测控制(MPC)模块中。MPC规划器本质上适应物理约束和不同车辆类型,并可以通过将学习到的参数与明确的MPC元素对齐来提供解释。在真实世界的V2XPnP-Seq数据集上进行的评估证实,RiskMM在风险感知轨迹规划中实现了卓越且稳健的性能,显著增强了协作端到端驾驶框架的可解释性。代码库将被发布,以促进该领域的未来研究。

[45] LAURON VI:一种用于动态行走的六足机器人
标题: LAURON VI: A Six-Legged Robot for Dynamic Walking
作者: Christian Eichmann / Sabine Bellmann / Nicolas Hügel / Louis-Elias Enslin / Carsten Plasberg / Georg Heppner / Arne Roennau / Ruediger Dillmann
原文:   [英文]   [中文]  
备注: None
摘要:
足式运动使机器人系统能够穿越极具挑战性的地形。在许多现实场景中,地形并没有那么困难,这些混合地形类型引入了灵活使用不同行走策略的需求,以快速、可靠和节能的方式实现任务目标。六足机器人具有高度的灵活性和固有的稳定性,这有助于它们穿越一些最困难的地形,例如倒塌的建筑物。然而,它们在较容易的地面上缺乏快速行走步态是它们在这些场景中不常被应用的原因之一。 本研究介绍了LAURON VI,这是一种用于研究动态行走步态以及复杂现场任务自主性的六足机器人平台。机器人的18个串联弹性关节执行器提供了用于笛卡尔阻抗和纯扭矩控制的高频接口。我们设计、实现并比较了三种控制方法:基于运动学的、模型预测的和强化学习的控制器。机器人硬件和不同的控制方法在实验室环境以及火星模拟任务中进行了广泛测试。为LAURON VI引入快速运动策略使六足机器人在更广泛的现实应用中变得更加适用。

[46] 机器人与桥式起重机协作方案以增强载荷操控
标题: Robot and Overhead Crane Collaboration Scheme to Enhance Payload Manipulation
作者: Antonio Rosales / Alaa Abderrahim / Markku Suomalainen / Mikael Haag / Tapio Heikkilä
原文:   [英文]   [中文]  
备注: None
摘要:
本文提出了一种方案,通过机器人与桥式起重机协作来增强载荷操作。在当前的工业实践中,当起重机的载荷需要精确操作并定位到期望位置时,任务变得繁重且危险,因为操作员必须用手引导载荷的精细运动。在所提出的协作方案中,起重机提升载荷,而机器人的末端执行器将其引导至期望位置。机器人与起重机之间的唯一联系是在引导载荷过程中产生的交互力。考虑了两个导纳传递函数以实现与载荷的无害和顺畅接触。第一个用于与机器人集成的基于位置的导纳控制。第二个通过导纳传递函数处理交互力,为起重机增加柔顺性,以生成起重机的速度指令,使起重机跟随载荷。然后,机器人的末端执行器和起重机协同移动,将载荷引导至期望位置。本文提出了一种设计导纳控制器的方法,以实现流畅的机器人-起重机协作。展示了验证该方案潜力的模拟和实验。

[47] AgentWorld:用于场景构建和移动机器人操作的交互式仿真平台
标题: AgentWorld: An Interactive Simulation Platform for Scene Construction and Mobile Robotic Manipulation
作者: Yizheng Zhang / Zhenjun Yu / Jiaxin Lai / Cewu Lu / Lei Han
原文:   [英文]   [中文]  
备注: Accepted by Conference on Robot Learning 2025
摘要:
我们介绍了AgentWorld,这是一个用于开发家庭移动操作能力的交互式模拟平台。我们的平台结合了自动场景构建,包括布局生成、语义资产放置、视觉材料配置和物理模拟,并配备了支持轮式底座和类人运动策略的数据收集双模式远程操作系统。由此产生的AgentWorld数据集捕捉了从基本动作(拾取和放置、推拉等)到多阶段活动(提供饮料、加热食物等)在客厅、卧室和厨房中的多样化任务。通过对模仿学习方法的广泛基准测试,包括行为克隆、动作分块变换器、扩散策略和视觉-语言-动作模型,我们展示了该数据集在模拟到现实转移中的有效性。集成系统为在复杂家庭环境中大规模获取机器人技能提供了全面的解决方案,弥合了基于模拟的训练与现实世界部署之间的差距。代码和数据集将在此HTTPS URL上提供。

[48] SwarmVLM:用于异构机器人在动态仓储中自主导航的VLM引导阻抗控制
标题: SwarmVLM: VLM-Guided Impedance Control for Autonomous Navigation of Heterogeneous Robots in Dynamic Warehousing
作者: Malaika Zafar / Roohan Ahmed Khan / Faryal Batool / Yasheerah Yaqoot / Ziang Guo / Mikhail Litvinov / Aleksey Fedoseev / Dzmitry Tsetserukou
原文:   [英文]   [中文]  
备注: None
摘要:
随着对高效物流需求的增长,无人机(UAV)越来越多地与自动导引车(AGV)配对使用。虽然无人机能够在密集环境和不同高度中导航,但其受限于电池寿命、载荷能力和飞行时间,因此需要协调的地面支持。 SwarmVLM专注于异构导航,通过阻抗控制实现无人机与地面机器人之间的语义协作,以应对这些限制。该系统利用视觉语言模型(VLM)和检索增强生成(RAG)来根据环境变化调整阻抗控制参数。在此框架中,无人机作为领导者,使用人工势场(APF)规划进行实时导航,而地面机器人通过虚拟阻抗链接跟随,并通过自适应链接拓扑来避免与短障碍物碰撞。 该系统在12次真实世界试验中展示了92%的成功率。在最佳光照条件下,VLM-RAG框架在物体检测和阻抗参数选择方面达到了8%的准确率。移动机器人优先考虑短障碍物的避让,偶尔导致与无人机路径的横向偏差达到50厘米,这展示了在复杂环境中安全导航的能力。

[49] 触摸在说话,声音在感受:从机器人到人类的情感和社交触摸的多模态方法
标题: Touch Speaks, Sound Feels: A Multimodal Approach to Affective and Social Touch from Robots to Humans
作者: Qiaoqiao Ren / Tony Belpaeme
原文:   [英文]   [中文]  
备注: None
摘要:
情感触觉互动构成了人类交流的基本组成部分。在自然的人与人之间的互动中,触摸很少是孤立体验的;相反,它本质上是多感官的。个体不仅感知到触摸的物理感觉,还记录通过接触产生的伴随听觉线索。触觉和听觉信息的整合形成了丰富而细腻的情感表达渠道。虽然大量研究已经考察了机器人如何通过面部表情和语言传达情感,但它们通过触摸传达社交手势和情感的能力仍然很少被探索。为了解决这一差距,我们开发了一种多模态互动系统,结合了一个5*5的25个振动电机网格与音频播放同步,使机器人能够传递结合的触觉-音频刺激。在一项涉及32名中国参与者的实验中,通过振动、声音或它们的组合呈现了十种情感和六种社交手势。参与者在唤醒和效价尺度上对每种刺激进行评分。结果显示:(1)结合的触觉-音频模态显著提高了解码准确性,相比于单一模态;(2)每个单独的通道——振动或声音——有效支持某些情感识别,具有根据情感表达的不同优势;(3)单独的手势通常不足以传达清晰可辨的情感。这些发现强调了多感官整合在情感人机互动中的重要性,并突出了触觉和听觉线索在增强情感交流中的互补作用。

[50] DETACH:通过解耦专家混合实现长时间任务的跨领域学习
标题: DETACH: Cross-domain Learning for Long-Horizon Tasks via Mixture of Disentangled Experts
作者: Yutong Shen / Hangxu Liu / Penghui Liu / Ruizhe Xia / Tianyi Yao / Yitong Sun / Tongtong Feng
原文:   [英文]   [中文]  
备注: 14 pages,8 figures. Submitted to AAAI'26
摘要:
人类场景交互(HSI)中的长时间跨度(LH)任务是复杂的多步骤任务,需要在多个领域中进行持续规划、顺序决策和延长执行以实现最终目标。然而,现有方法严重依赖于通过连接预训练子任务来进行技能链结,环境观察与自身状态紧密耦合,缺乏泛化到新的环境和技能组合的能力,无法在多个领域中完成各种LH任务。为了解决这个问题,本文提出了DETACH,一种通过生物启发的双流解耦进行跨领域学习的LH任务框架。受大脑“何处-何物”双路径机制的启发,DETACH包含两个核心模块:i) 环境学习模块用于空间理解,捕捉对象功能、空间关系和场景语义,通过完整的环境-自身解耦实现跨领域迁移;ii) 技能学习模块用于任务执行,处理包括关节自由度和运动模式在内的自身状态信息,通过独立的运动模式编码实现跨技能迁移。我们在HSI场景中的各种LH任务上进行了广泛实验。与现有方法相比,DETACH可以实现平均子任务成功率提高23%和平均执行效率提高29%。

[51] 使用多模态感知和大语言模型驱动的高级语义推理在狭小空间中实现云控制四旋翼飞行器的自主导航
标题: Autonomous Navigation of Cloud-Controlled Quadcopters in Confined Spaces Using Multi-Modal Perception and LLM-Driven High Semantic Reasoning
作者: Shoaib Ahmmad / Zubayer Ahmed Aditto / Md Mehrab Hossain / Noushin Yeasmin / Shorower Hossain
原文:   [英文]   [中文]  
备注: None
摘要:
本文介绍了一种先进的人工智能驱动感知系统,用于在无GPS的室内环境中实现自主四旋翼飞行器导航。所提出的框架利用云计算来卸载计算密集型任务,并结合定制设计的印刷电路板(PCB)以高效获取传感器数据,从而在狭小空间中实现稳健的导航。该系统集成了YOLOv11用于目标检测,Depth Anything V2用于单目深度估计,配备飞行时间(ToF)传感器和惯性测量单元(IMU)的PCB,以及基于云的大型语言模型(LLM)用于上下文感知决策。通过校准的传感器偏移来实施的虚拟安全包络确保了避碰功能,而多线程架构实现了低延迟处理。通过卡尔曼滤波的3D边界框估计增强了空间感知能力。室内测试床的实验结果显示出强劲的性能,目标检测的平均精度(mAP50)达到0.6,深度估计的平均绝对误差(MAE)为7.2厘米,在大约11分钟的42次试验中仅发生16次安全包络突破,端到端系统延迟低于1秒。这个云支持的高智能框架作为辅助感知和导航系统,补充了最先进的无人机自主技术,以应对无GPS的狭小空间。

[52] MolmoAct:能够在空间中进行推理的动作推理模型
标题: MolmoAct: Action Reasoning Models that can Reason in Space
作者: Jason Lee / Jiafei Duan / Haoquan Fang / Yuquan Deng / Shuo Liu / Boyang Li / Bohan Fang / Jieyu Zhang / Yi Ru Wang / Sangho Lee / Winson Han / Wilbert Pumacay / Angelica Wu / Rose Hendrix / Karen Farley / Eli VanderBilt / Ali Farhadi / Dieter Fox / Ranjay Krishna
原文:   [英文]   [中文]  
备注: Appendix on Blogpost: this https URL
摘要:
推理是有目的行动的核心,但大多数机器人基础模型将感知和指令直接映射到控制,这限制了适应性、泛化能力和语义基础。我们介绍了动作推理模型(ARMs),这是一类视觉-语言-动作模型,通过结构化的三阶段管道整合感知、规划和控制。我们的模型MolmoAct将观察和指令编码为深度感知的感知标记,生成可编辑的轨迹痕迹作为中级空间计划,并预测精确的低级动作,从而实现可解释和可操控的行为。MolmoAct-7B-D在模拟和现实环境中表现出色:在SimplerEnv视觉匹配任务中实现了70.5%的零样本准确率,超过了闭源的Pi-0和GR00T N1;在LIBERO中平均成功率为86.6%,在长时间任务中比ThinkAct额外提高了6.3%;在现实世界微调中,比Pi-0-FAST在单臂任务推进上额外提高了10%,在双臂任务推进上额外提高了22.7%。它还在分布外泛化上比基线高出23.3%,并在开放式指令跟随和轨迹操控中获得最高的人类偏好评分。此外,我们首次发布了MolmoAct数据集——一个中期训练机器人数据集,包含超过10,000个高质量机器人轨迹,涵盖多种场景和任务。使用该数据集进行训练,整体性能比基础模型平均提高了5.5%。我们发布了所有模型权重、训练代码、我们收集的数据集以及我们的动作推理数据集,确立了MolmoAct作为最先进的机器人基础模型和一个开放的蓝图,通过结构化推理将感知转化为有目的的行动。博客文章:这个https URL

[53] PCHands:基于PCA的N自由度机械手手势协同表示
标题: PCHands: PCA-based Hand Pose Synergy Representation on Manipulators with N-DoF
作者: En Yen Puang / Federico Ceola / Giulia Pasquale / Lorenzo Natale
原文:   [英文]   [中文]  
备注: 2025 IEEE-RAS 24th International Conference on Humanoid Robots
摘要:
我们研究了在不同形态的操控器之间学习灵巧操作的通用表示的问题。为此,我们提出了PCHands,这是一种从大量操控器中提取手部姿态协同的新方法。我们基于锚点位置定义了一种简化和统一的描述格式,适用于从两指夹持器到五指拟人手的操控器。这使得能够学习操控器配置的可变长度潜在表示以及所有操控器末端执行器框架的对齐。我们展示了可以从这种潜在表示中提取主要成分,这些成分在不同结构和自由度的操控器之间是通用的。为了评估PCHands,我们使用这种紧凑的表示来编码通过强化学习(RL)学习的灵巧操作任务的控制策略的观察和动作空间。在学习效率和一致性方面,所提出的表示优于在关节空间中学习相同任务的基线。我们还展示了当演示来自不同操控器时,PCHands在基于演示的RL中表现出稳健性。我们通过涉及两指夹持器和四指拟人手的真实实验进一步支持我们的结果。代码和附加材料可在此https URL获取。

[54] 带有噪声距离观测的空中目标包围与拦截
标题: Aerial Target Encirclement and Interception with Noisy Range Observations
作者: Fen Liu / Shenghai Yuan / Thien-Minh Nguyen / Wei Meng / Lihua Xie
原文:   [英文]   [中文]  
备注: The paper has been accepted in Automatica
摘要:
本文提出了一种策略,通过利用噪声距离测量进行状态估计来包围和拦截非合作的空中点质量移动目标。在这种方法中,守护者通过使用反同步(AS)和三维“振动弦”轨迹主动确保目标的可观测性,从而能够基于卡尔曼滤波器快速估计位置和速度。此外,为守护者设计了一种新颖的反目标控制器,使其能够在包围受保护目标与包围、拦截和中和敌对目标之间进行自适应转换,同时考虑到守护者的输入约束。基于保证的统一可观测性,状态估计误差的指数有界稳定性和包围误差的收敛性进行了严格分析。模拟结果和真实世界的无人机实验被展示以进一步验证系统设计的有效性。

[55] 用于粗糙地形自主导航的倾覆引导轨迹优化
标题: Capsizing-Guided Trajectory Optimization for Autonomous Navigation with Rough Terrain
作者: Wei Zhang / Yinchuan Wang / Wangtao Lu / Pengyu Zhang / Xiang Zhang / Yue Wang / Chaoqun Wang
原文:   [英文]   [中文]  
备注: None
摘要:
对于地面机器人来说,在恶劣环境中自主导航是一项具有挑战性的任务,因为存在复杂的障碍物和不平坦的地形。这需要在安全性和效率之间取得平衡的轨迹规划。主要的挑战是生成一个可行的轨迹,既能防止机器人倾覆,又能确保有效的导航。在本文中,我们提出了一种考虑倾覆的轨迹规划器(CAP),以实现不平坦地形上的轨迹规划。我们分析了机器人在崎岖地形上的倾覆稳定性。基于倾覆稳定性,我们定义了可通行的方向,指示了机器人的安全方向范围。然后将该方向纳入到轨迹优化的倾覆安全约束中。我们采用基于图的求解器来计算一个稳健且可行的轨迹,同时遵循倾覆安全约束。大量的模拟和现实世界实验验证了所提方法的有效性和稳健性。结果表明,CAP优于现有的最先进方法,在不平坦地形上提供了增强的导航性能。

[56] AimBot:一种简单的辅助视觉提示以增强视觉运动策略的空间意识
标题: AimBot: A Simple Auxiliary Visual Cue to Enhance Spatial Awareness of Visuomotor Policies
作者: Yinpei Dai / Jayjun Lee / Yichi Zhang / Ziqiao Ma / Jed Yang / Amir Zadeh / Chuan Li / Nima Fazeli / Joyce Chai
原文:   [英文]   [中文]  
备注: CoRL 2025
摘要:
在本文中,我们提出了AimBot,这是一种轻量级的视觉增强技术,提供明确的空间提示,以改善机器人操作中的视觉运动策略学习。AimBot在多视角RGB图像上叠加射击线和瞄准镜标线,提供编码末端执行器状态的辅助视觉指导。这些叠加是从深度图像、相机外参和当前末端执行器姿态计算得出的,明确传达了抓手与场景中物体之间的空间关系。AimBot带来的计算开销极小(不到1毫秒),且无需对模型架构进行更改,因为它只是用增强后的图像替换了原始RGB图像。尽管其简单,我们的结果表明,AimBot在模拟和现实环境中始终如一地提高了各种视觉运动策略的性能,突显了空间定位视觉反馈的优势。

[57] 面向组件感知剪枝的潜在空间模型加速控制任务
标题: COMponent-Aware Pruning for Accelerated Control Tasks in Latent Space Models
作者: Ganesh Sundaram / Jonas Ulmen / Amjad Haider / Daniel Görges
原文:   [英文]   [中文]  
备注: Submitted in: The 2026 IEEE/SICE International Symposium on System Integration (SII 2026)
摘要:
资源受限的移动平台(包括移动机器人、可穿戴系统和物联网设备)的快速增长,增加了对能够在严格硬件限制下运行的计算高效神经网络控制器(NNC)的需求。尽管深度神经网络(DNN)在控制应用中表现出卓越的性能,但其巨大的计算复杂性和内存需求对在边缘设备上的实际部署构成了显著障碍。本文介绍了一种综合的模型压缩方法,该方法利用组件感知的结构化剪枝来确定每个剪枝组的最佳剪枝幅度,从而确保NNC部署的压缩与稳定性之间的平衡。我们的方法在时间差分模型预测控制(TD-MPC)上进行了严格评估,这是一种最先进的基于模型的强化学习算法,并系统地整合了数学稳定性保证属性,特别是李雅普诺夫准则。本文的关键贡献在于提供了一个原则性框架,用于在保持控制器稳定性的同时确定模型压缩的理论极限。实验验证表明,我们的方法在保持必要的控制性能和稳定性特征的同时,成功地降低了模型复杂性。此外,我们的方法建立了安全压缩比的定量边界,使从业者能够系统地确定在违反关键稳定性属性之前允许的最大模型缩减,从而促进在资源有限环境中自信地部署压缩的NNC。

[58] Verti-Arena:一个可控且标准化的室内测试平台,用于多地形越野自主性研究
标题: Verti-Arena: A Controllable and Standardized Indoor Testbed for Multi-Terrain Off-Road Autonomy
作者: Haiyue Chen / Aniket Datar / Tong Xu / Francesco Cancelliere / Harsh Rangwala / Madhan Balaji Rao / Daeun Song / David Eichinger / Xuesu Xiao
原文:   [英文]   [中文]  
备注: 6 pages
摘要:
越野导航是部署在对人类不可接近或危险的环境中的移动机器人的一项重要能力,例如灾难响应或行星探索。然而,由于缺乏可控和标准化的真实世界测试平台来进行系统的数据收集和验证,进展受到限制。为填补这一空白,我们引入了Verti-Arena,这是一个专为越野自主性设计的可重构室内设施。通过提供一个可重复的基准环境,Verti-Arena支持在各种垂直挑战地形上的可重复实验,并通过车载传感器和运动捕捉系统提供精确的地面真实测量。Verti-Arena还支持一致的数据收集和越野自主研究中算法的比较评估。我们还开发了一个基于网络的界面,使全球的研究小组能够远程在Verti-Arena上进行标准化的越野自主实验。

[59] 奥德赛:用于长时间任务的开放世界四足动物探索与操控
标题: ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks
作者: Kaijun Wang / Liqin Lu / Mingyu Liu / Jianuo Jiang / Zeju Li / Bolin Zhang / Wancai Zheng / Xinyi Yu / Hao Chen / Chunhua Shen
原文:   [英文]   [中文]  
备注: None
摘要:
语言引导的长时程移动操作一直是体现语义推理、可推广操作和自适应运动的重大挑战。三大基本限制阻碍了这一领域的进展:首先,尽管大型语言模型通过语义先验改善了空间推理和任务规划,但现有的实现仍局限于桌面场景,未能解决移动平台的感知受限和动作范围有限的问题。其次,当前的操作策略在面对开放世界环境中多样的物体配置时表现出不足的泛化能力。第三,尽管在实际部署中至关重要,但在非结构化环境中保持高平台机动性与精确末端执行器控制的双重要求仍未得到充分研究。 在这项工作中,我们提出了ODYSSEY,一个为配备操作器的敏捷四足机器人设计的统一移动操作框架,该框架无缝集成了高层次任务规划与低层次全身控制。为了解决语言条件任务中的自我中心感知挑战,我们引入了一个由视觉语言模型驱动的分层规划器,实现了长时程指令分解和精确动作执行。在控制层面,我们新颖的全身策略在复杂地形中实现了稳健的协调。我们进一步提出了第一个长时程移动操作的基准,评估了多样的室内和室外场景。通过成功的模拟到现实转移,我们展示了系统在真实世界部署中的泛化性和稳健性,强调了腿式操作器在非结构化环境中的实用性。我们的工作推进了能够执行复杂动态任务的通用机器人助手的可行性。我们的项目页面:this https URL

[60] 超越模仿:通过引导扩散从动作追踪到多功能人形控制
标题: BeyondMimic: From Motion Tracking to Versatile Humanoid Control via Guided Diffusion
作者: Takara E. Truong / Qiayuan Liao / Xiaoyu Huang / Guy Tevet / C. Karen Liu / Koushil Sreenath
原文:   [英文]   [中文]  
备注: 9 pages, 1 figure
摘要:
从人类动作中学习技能为全身类人控制的通用策略提供了一条有前途的路径,但缺少两个关键基石:(1)一个高质量的运动跟踪框架,能够将大规模的运动学参考忠实地转化为真实硬件上的稳健且极具动态性的动作;(2)一种蒸馏方法,能够有效地学习这些运动原语并将其组合以解决下游任务。我们通过BeyondMimic解决了这些问题,这是第一个通过引导扩散从人类动作中学习以实现多功能和自然类人控制的真实世界框架。我们的框架提供了一个运动跟踪管道,能够以最先进的运动质量实现跳跃旋转、冲刺和侧手翻等具有挑战性的技能。BeyondMimic不仅仅是模仿现有动作,还能合成新的动作,我们进一步引入了一个统一的扩散策略,使其在测试时能够使用简单的成本函数实现零样本任务特定控制。在硬件上部署时,BeyondMimic在测试时执行多样化的任务,包括航点导航、操纵杆遥控和避障,架起了从模拟到真实的运动跟踪和全身控制的人类运动原语灵活合成的桥梁。