![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.RO方向,2025年5月14日更新论文38篇
|
[1] PierGuard:用于海岸码头水下机器人检查的规划框架 标题: PierGuard: A Planning Framework for Underwater Robotic Inspection of Coastal Piers 作者: Pengyu Wang / Hin Wang Lin / Jialu Li / Jiankun Wang / Ling Shi / Max Q.-H. Meng 原文: [英文] [中文] 备注: None 摘要: 使用水下机器人代替人类进行海岸码头的检查可以提高效率,同时降低风险。执行这些任务的一个关键挑战在于如何在复杂环境中实现高效和快速的路径规划。基于采样的路径规划方法,如快速探索随机树*(RRT*),在高维空间中表现出显著的性能。近年来,研究人员开始设计各种几何启发式和神经网络驱动的启发式方法,以进一步提高RRT*的有效性。然而,当应用于高度拥挤的水下环境时,这些通用路径规划方法的性能仍需改进。在本文中,我们提出了PierGuard,它结合了双向搜索和神经网络驱动的启发式区域的优势。我们设计了一个专门的神经网络,以在拥挤的地图中生成高质量的启发式区域,从而提高路径规划的性能。通过广泛的模拟和真实海洋现场实验,我们证明了我们提出的方法在与先前研究相比时的有效性和效率。我们的方法实现了大约是最先进的几何基采样方法性能的2.6倍,几乎是最先进的学习基采样方法性能的4.9倍。我们的结果为码头检查的自动化和海事安全的提升提供了宝贵的见解。更新的实验视频可在补充材料中查看。 |
[2] 一种面向自动驾驶车辆运动规划的物理信息端到端占用框架 标题: A Physics-informed End-to-End Occupancy Framework for Motion Planning of Autonomous Vehicles 作者: Shuqi Shen / Junjie Yang / Hongliang Lu / Hui Zhong / Qiming Zhang / Xinhu Zheng 原文: [英文] [中文] 备注: None 摘要: 准确且可解释的运动规划对于在复杂和不确定环境中导航的自动驾驶车辆至关重要。尽管最近的端到端占用预测方法提高了对环境的理解,但它们通常缺乏明确的物理约束,限制了安全性和泛化能力。在本文中,我们提出了一个统一的端到端框架,将可验证的物理规则整合到占用学习过程中。具体而言,我们在网络训练期间嵌入了人工势场(APF)作为物理信息指导,以确保预测的占用图既数据高效又符合物理规律。我们的架构结合了卷积神经网络和递归神经网络,以捕捉空间和时间依赖性,同时保持模型的灵活性。实验结果表明,我们的方法在各种驾驶场景中提高了任务完成率、安全边界和规划效率,证实了其在真实世界自动驾驶系统中可靠部署的潜力。 |
[3] VISTA:用于视觉与语言导航的生成式视觉想象 标题: VISTA: Generative Visual Imagination for Vision-and-Language Navigation 作者: Yanjia Huang / Mingyang Wu / Renjie Li / Zhengzhong Tu 原文: [英文] [中文] 备注: 13 pages, 5 figures, CoRL 2025 摘要: 视觉与语言导航(VLN)任务要求智能体在未见过的环境中使用自然语言指令和视觉线索定位特定对象。许多现有的VLN方法通常遵循“观察与推理”模式,即智能体观察环境并根据其周围的视觉观察决定下一步行动。在长时间跨度的场景中,它们常常面临即时观察和视觉-语言模态差距的挑战。为了解决这个问题,我们提出了VISTA,一个采用“想象与对齐”导航策略的新框架。具体来说,我们利用预训练扩散模型的生成先验,在局部观察和高层次语言指令的条件下进行动态视觉想象。一个感知对齐过滤模块随后将这些目标想象与当前观察进行对比,指导一个可解释且结构化的推理过程以进行动作选择。实验表明,VISTA在Room-to-Room(R2R)和RoboTHOR基准测试中设定了新的最先进成果,例如在R2R上成功率提高了3.6%。广泛的消融分析强调了整合前瞻性想象、感知对齐和结构化推理对于在长时间跨度环境中实现稳健导航的价值。 |
[4] 运动规划中的虚拟完整约束:可行性与局限性的再探讨 标题: Virtual Holonomic Constraints in Motion Planning: Revisiting Feasibility and Limitations 作者: Maksim Surov 原文: [英文] [中文] 备注: 6 pages, 1 figure 摘要: 本文探讨了在具有单一欠驱动自由度的欠驱动机械系统的运动规划中,虚拟完整约束(VHCs)的可行性。尽管现有文献已经确立了一个被广泛接受的VHC定义,我们认为这个定义过于严格,排除了大量可接受的轨迹。为了说明这一点,我们分析了平面垂直起降(PVTOL)飞机的周期性运动。相应的相位轨迹和参考控制输入是解析函数。我们通过构建一个反馈控制器来证明该解的可稳定性,该控制器确保渐近轨道稳定性。然而,对于该解以及一大类类似的解,不存在符合传统定义的VHC。这一观察促使我们重新考虑VHC的定义方式,从而有可能显著扩展VHC在运动规划中的实际应用。 |
[5] PRISM:使用运动约束进行快速信息共享的完整在线去中心化多智能体路径规划 标题: PRISM: Complete Online Decentralized Multi-Agent Pathfinding with Rapid Information Sharing using Motion Constraints 作者: Hannah Lee / Zachary Serlin / James Motes / Brendan Long / Marco Morales / Nancy M. Amato 原文: [英文] [中文] 备注: 38 pages, 8 figures 摘要: 我们介绍了PRISM(使用运动约束的快速信息共享路径查找),这是一种去中心化算法,旨在解决多任务多智能体路径查找(MT-MAPF)问题。PRISM使大型智能体团队能够同时为多个任务规划安全高效的路径,同时避免碰撞。它采用了一种快速通信策略,使用信息包交换运动约束信息,增强了协作路径查找和情境感知,即使在没有直接通信的情况下也是如此。我们证明了PRISM在可能的情况下解决并避免了所有死锁场景,这是去中心化路径查找中的一个关键挑战。通过实证研究,我们在五个环境和25个随机场景中评估了PRISM,并将其与中心化的冲突基搜索(CBS)和去中心化的任务交换令牌传递(TPTS)算法进行了基准测试。PRISM展示了可扩展性和解决方案质量,支持的智能体数量是CBS的3.4倍,并且在狭窄通道环境中处理的任务数量是TPTS的2.5倍。此外,PRISM在解决方案质量上与CBS相当,同时在计算时间上更快,即使在低连接条件下也是如此。其去中心化设计减少了对单个智能体的计算负担,使其在大型环境中具有可扩展性。这些结果证实了PRISM在复杂和动态路径查找场景中的稳健性、可扩展性和有效性。 |
[6] 面向搜索和救援场景的多无人机群地表覆盖感知路径规划 标题: Land-Coverage Aware Path-Planning for Multi-UAV Swarms in Search and Rescue Scenarios 作者: Pedro Antonio Alarcon Granadeno / Jane Cleland-Huang 原文: [英文] [中文] 备注: 8 pages, 4 figures, 摘要: 无人机(UAV)在搜救(SAR)任务中变得至关重要,自动化任务规划提高了响应时间和覆盖效率。早期的方法主要使用路径规划技术,如A*算法、势场法或Dijkstra算法,而最近的方法则结合了遗传算法和粒子群优化等元启发式框架,以平衡网络连接性、能效和充电站战略布局等竞争目标。然而,尽管地形感知路径规划在优化无人机SAR部署中起着关键作用,但仍未得到充分探索。为了解决这一空白,我们提出了一种基于计算机视觉的地形感知任务规划器,该规划器能够自主提取和分析地形拓扑,以增强SAR的飞行前规划。我们的框架使用在我们自己的地表覆盖数据集上微调的深度分割网络,将卫星图像转换为操作区域的结构化网格表示。这种分类使得特定地形的无人机任务分配成为可能,从而改善复杂环境中的部署策略。我们通过引入一个两阶段分区方案来解决不规则地形分区的挑战,该方案首先沿坐标轴评估地形单调性,然后应用基于成本的递归分区过程,最大限度地减少不必要的分割并优化路径效率。在高保真模拟环境中的实验证明,我们的方法在搜索和调度时间上优于多种元启发式技术和一种竞争的最新方法。这些结果突显了其在大规模SAR行动中的潜力,在这些行动中,快速响应和高效的无人机协调至关重要。 |
[7] 在机器人领域,批量在线强化学习的关键因素是什么? 标题: What Matters for Batch Online Reinforcement Learning in Robotics? 作者: Perry Dong / Suvir Mirchandani / Dorsa Sadigh / Chelsea Finn 原文: [英文] [中文] 备注: None 摘要: 从大批量自主收集的数据中学习以改进策略的能力——我们称之为批量在线强化学习的范式——有望通过显著减少人类在数据收集上的努力,同时从自我改进中获益,从而实现真正可扩展的机器人学习。然而,尽管这一范式充满希望,由于算法无法有效地从自主数据中学习,实现这一目标仍然具有挑战性。例如,先前的工作已将模仿学习和过滤模仿学习方法应用于批量在线强化学习问题,但这些算法往往无法有效地从自主收集的数据中改进,或快速收敛到次优点。这引发了一个问题:在机器人领域中,什么对于有效的批量在线强化学习至关重要。基于这个问题,我们对三个方面进行了系统的实证研究——(i) 算法类别,(ii) 策略提取方法,以及 (iii) 策略表达能力——并分析这些方面如何影响性能以及与自主数据量的扩展性。通过我们的分析,我们得出了一些观察结果。首先,我们观察到使用 Q 函数来指导批量在线强化学习比基于模仿的方法显著提高了性能。在此基础上,我们展示了一种隐式的策略提取方法——通过在策略的分布中选择最佳动作——相较于传统的离线强化学习策略提取方法是必要的。接下来,我们展示了一个具有表现力的策略类别优于表现力较低的策略类别。基于这一分析,我们提出了一个有效的批量在线强化学习的一般性方案。然后,我们展示了在方案中简单地添加时间相关噪声以获得更多多样性,进一步提高了性能。我们的方案在性能和扩展性方面显著优于先前的方法。 |
[8] 一种紧密耦合的基于IMU的运动捕捉方法,用于估计多体运动学和动力学 标题: A Tightly Coupled IMU-Based Motion Capture Approach for Estimating Multibody Kinematics and Kinetics 作者: Hassan Osman / Daan de Kanter / Jelle Boelens / Manon Kok / Ajay Seth 原文: [英文] [中文] 备注: None 摘要: 惯性测量单元(IMU)使得在实验室之外的多种环境中进行便携式多体运动捕捉(MoCap)成为可能,这使得它们成为诊断运动障碍和支持临床或家庭环境中康复的实用选择。然而,与IMU测量相关的挑战,包括磁性失真和漂移误差,使得它们在MoCap中的广泛使用变得复杂。在这项工作中,我们提出了一种紧密耦合的运动捕捉方法,该方法通过迭代扩展卡尔曼滤波器(IEKF)直接将IMU测量与多体动力学模型集成,以同时估计系统的运动学和动力学。通过强制执行运动学和动力学特性并仅使用加速度计和陀螺仪数据,我们的方法提高了基于IMU的状态估计精度。我们的方法设计允许结合额外的传感器数据,如光学MoCap测量和关节扭矩读数,以进一步提高估计精度。我们使用来自3自由度(DoF)摆和6自由度Kuka机器人的高精度真实数据验证了我们的方法。我们展示了摆的计算关节角度与光学MoCap逆运动学(IK)相比的最大均方根差(RMSD)为3.75度,在没有内部编码器的情况下,光学MoCap IK被视为金标准。对于Kuka机器人,我们观察到与Kuka的内部编码器相比,最大关节角度RMSD为3.24度,而光学MoCap IK与编码器相比的最大关节角度RMSD为1.16度。此外,我们报告了摆的关节扭矩与光学MoCap逆动力学(ID)相比的最大RMSD为2 Nm,而Kuka机器人相对于其内部扭矩传感器的最大RMSD为3.73 Nm。 |
[9] CLTP:用于3D接触几何理解的对比语言-触觉预训练 标题: CLTP: Contrastive Language-Tactile Pre-training for 3D Contact Geometry Understanding 作者: Wenxuan Ma / Xiaoge Cao / Yixiang Zhang / Chaofan Zhang / Shaobo Yang / Peng Hao / Bin Fang / Yinghao Cai / Shaowei Cui / Shuo Wang 原文: [英文] [中文] 备注: 16 pages 摘要: 最近在将触觉感知与视觉语言模型(VLMs)相结合方面的进展显示出机器人多模态感知的巨大潜力。然而,现有的触觉描述仍然局限于诸如纹理等表面属性,忽视了对机器人操作至关重要的关键接触状态。为弥补这一差距,我们提出了CLTP,这是一种直观且有效的语言触觉预训练框架,它在各种接触场景中将触觉3D点云与自然语言对齐,从而实现对接触状态敏感的触觉语言理解,以应对接触丰富的操作任务。我们首先收集了一个包含超过5万对触觉3D点云-语言对的新颖数据集,其中的描述从触觉传感器的角度明确捕捉多维接触状态(例如,接触位置、形状和力)。CLTP利用预先对齐并冻结的视觉语言特征空间来桥接整体文本和触觉模态。实验验证了其在三个下游任务中的优越性:零样本3D分类、接触状态分类和触觉3D大语言模型(LLM)交互。据我们所知,这是首次从接触状态的角度对齐触觉和语言表示以用于操作任务的研究,为触觉-语言-动作模型学习提供了巨大的潜力。代码和数据集已在此https URL上开源。 |
[10] HandCept:一种用于灵巧手精确本体感知的视觉-惯性融合框架 标题: HandCept: A Visual-Inertial Fusion Framework for Accurate Proprioception in Dexterous Hands 作者: Junda Huang / Jianshu Zhou / Honghao Guo / Yunhui Liu 原文: [英文] [中文] 备注: 8 pages, 7 figures, journal 摘要: 随着机器人技术向通用操作方向发展,灵巧的手变得越来越重要。然而,由于体积和通用性的限制,灵巧手的本体感受仍然是一个瓶颈。在这项工作中,我们提出了HandCept,这是一种新颖的视觉-惯性本体感受框架,旨在克服传统关节角度估计方法的挑战。HandCept解决了在动态环境中实现准确和稳健的关节角度估计的困难,在这些环境中,视觉和惯性测量都容易受到噪声和漂移的影响。它利用了一种零样本学习方法,使用腕部安装的RGB-D相机和9轴IMU,通过无延迟的扩展卡尔曼滤波器(EKF)实时融合。我们的结果表明,HandCept实现了$2^{\circ}$到$4^{\circ}$之间的关节角度估计误差,没有可观察到的漂移,优于仅视觉和仅惯性的方法。此外,我们验证了IMU系统的稳定性和一致性,证明跨IMU的通用基准框架简化了系统校准。为了支持从模拟到现实的转移,我们还开源了我们的高保真渲染管道,这对于在没有真实世界基准的情况下进行训练至关重要。这项工作为灵巧手的本体感受提供了一种稳健、可推广的解决方案,对机器人操作和人机交互具有重要意义。 |
[11] 用统计查询重新思考机器人性能的可重复测量 标题: Rethink Repeatable Measures of Robot Performance with Statistical Query 作者: Bowen Weng / Linda Capito / Guillermo A. Castillo / Dylan Khor 原文: [英文] [中文] 备注: None 摘要: 对于一种旨在评估机器人性能特定方面的通用标准化测试算法,通常会施加几个关键期望。除了准确性(即与通常未知的真实参考值的接近程度)和效率(即在可接受的测试成本和设备限制内的可行性)之外,重复性是一个特别重要的属性。重复性是指在不同利益相关者、不同时间或地点对同一机器人执行类似测试算法时,能够始终获得相同测试结果的能力。然而,随着所涉及的组件变得更加复杂、智能、多样化,最重要的是具有随机性,实现可重复的测试变得越来越具有挑战性。尽管相关工作已在伦理、硬件和程序层面解决了重复性问题,本研究专注于算法层面的可重复测试。具体而言,我们针对标准化评估中广泛采用的测试算法类别:统计查询(SQ)算法(即使用采样数据估计分布上有界函数的期望值的算法)。我们提出了一种轻量化、参数化和自适应的修改,适用于任何基于蒙特卡罗采样、重要性采样或自适应重要性采样的SQ程序,使其在准确性和效率上具有可证明的重复性保证。我们在三个代表性场景中展示了所提方法的有效性:(i)已建立并广泛采用的操纵器标准化测试,(ii)用于自动驾驶车辆操作风险评估的新兴智能测试算法,以及(iii)涉及人形机器人在运动任务中指令跟踪性能评估的发展中用例。 |
[12] 通过自主车辆扩展多智能体强化学习用于水下声学跟踪 标题: Scaling Multi Agent Reinforcement Learning for Underwater Acoustic Tracking via Autonomous Vehicles 作者: Matteo Gallici / Ivan Masmitja / Mario Martín 原文: [英文] [中文] 备注: None 摘要: 自动驾驶车辆(AV)为水下跟踪等科学任务提供了一种具有成本效益的解决方案。最近,强化学习(RL)作为一种强大的方法在复杂的海洋环境中控制自动驾驶车辆方面崭露头角。然而,将这些技术扩展到车队——这对于多目标跟踪或快速且不可预测运动的目标是必需的——带来了显著的计算挑战。多智能体强化学习(MARL)以样本效率低下而闻名,尽管像Gazebo的LRAUV这样的高保真模拟器提供了比实时快100倍的单机器人模拟,但它们在多车辆场景中并没有显著的加速效果,使得MARL训练变得不切实际。为了解决这些限制,我们提出了一种迭代蒸馏方法,将高保真模拟转移到一个简化的、GPU加速的环境中,同时保留高层次的动态特性。通过并行化,这种方法实现了比Gazebo快达30,000倍的加速,从而通过端到端的GPU加速实现高效训练。此外,我们引入了一种新颖的基于Transformer的架构(TransfMAPPO),它学习对智能体和目标数量不变的多智能体策略,显著提高了样本效率。在完全基于GPU的大规模课程学习之后,我们在Gazebo中进行了广泛的评估,证明我们的方法在多个快速移动目标的情况下,能够在长时间内将跟踪误差保持在5米以下。这项工作弥合了大规模MARL训练与高保真部署之间的差距,为现实世界海洋任务中的自动化车队控制提供了一个可扩展的框架。 |
[13] 基于强化学习的四旋翼无人机容错控制及在线变换器自适应 标题: Reinforcement Learning-based Fault-Tolerant Control for Quadrotor with Online Transformer Adaptation 作者: Dohyun Kim / Jayden Dongwoo Lee / Hyochoong Bang / Jungho Bae 原文: [英文] [中文] 备注: Accpted at the 2025 IEEE International Conference on Robotics & Automation (ICRA) Workshop: Robots in the Wild 摘要: 多旋翼无人机在多种领域的机器人应用中扮演着重要角色,但它们对执行器故障极为敏感,容易导致快速失稳和任务可靠性下降。尽管使用强化学习(RL)的各种容错控制(FTC)策略已被广泛探索,但大多数现有方法需要多旋翼模型的先验知识,或难以适应新配置。为了解决这些限制,我们提出了一种新颖的基于混合RL的FTC框架,并集成了基于Transformer的在线适应模块。我们的框架利用Transformer架构实时推断潜在表示,从而无需重新训练即可适应以前未见过的系统模型。我们在PyBullet仿真中评估了我们的方法,在执行器失效的情况下实现了95%的成功率和0.129米的位置均方根误差(RMSE),优于现有的适应方法,其成功率为86%,RMSE为0.153米。对不同配置的四旋翼无人机的进一步评估证实了我们框架在未经训练的动态环境中的鲁棒性。这些结果表明,我们的框架有潜力提高多旋翼无人机的适应性和可靠性,从而在动态和不确定环境中实现高效的故障管理。网站可通过此URL访问。 |
[14] 用于鲁棒网络行人惯性导航的约束因子图优化 标题: Constrained Factor Graph Optimization for Robust Networked Pedestrian Inertial Navigation 作者: Yingjie Hu / Wang Hu 原文: [英文] 备注: 6 pages, 5 figures. Accepted by 2025 IEEE/ION Position, Location and Navigation Symposium (PLANS) 摘要: 本文提出了一种新颖的基于约束因子图优化(FGO)的网络惯性导航方法,用于行人定位。为了有效减轻惯性导航解决方案中固有的漂移,我们将运动学约束直接纳入非线性优化框架中。具体而言,我们利用等式约束,如零速度更新(ZUPTs),以及基于人体解剖学限制的身体安装惯性测量单元(IMUs)之间的最大允许距离的不等式约束。虽然等式约束可以直接作为误差因子集成,但不等式约束无法在标准FGO公式中明确表示。为了解决这个问题,我们在FGO成本函数中引入了一个可微的基于softmax的惩罚项,以平滑且稳健地执行不等式约束。所提出的约束FGO方法利用多个历元之间的时间相关性,产生最优的状态轨迹估计,同时始终保持约束的满足。实验结果证实,我们的方法优于传统的卡尔曼滤波方法,展示了其在行人导航中的有效性和稳健性。 |
[15] SKiD-SLAM:在资源受限的现场环境中实现稳健、轻量且分布式的多机器人激光雷达SLAM 标题: SKiD-SLAM: Robust, Lightweight, and Distributed Multi-Robot LiDAR SLAM in Resource-Constrained Field Environments 作者: Hogyun Kim / Jiwon Choi / Juwon Kim / Geonmo Yang / Dongjin Cho / Hyungtae Lim / Younggun Cho 原文: [英文] [中文] 备注: 8 pages, 10 figures 摘要: 分布式激光雷达SLAM对于实现高效的机器人自主性和提高地图构建的可扩展性至关重要。然而,在野外环境中应用时需要考虑两个问题:一个是资源限制,另一个是机器人间/内关联。资源限制问题在数据大小超过网络或内存的处理能力时出现,特别是在野外使用通信系统或车载计算机时。机器人间/内关联问题由于ICP在大视角差异下的收敛区域狭窄而发生,导致许多误报的闭环,最终导致多机器人系统的全局地图不一致。为了解决这些问题,我们提出了一种为多功能野外应用设计的分布式激光雷达SLAM框架,称为SKiD-SLAM。扩展我们之前仅专注于轻量级地点识别和快速且稳健的全局配准的工作,我们提出了一个多机器人映射框架,专注于分布式激光雷达SLAM中稳健且轻量级的机器人间闭环。通过各种环境实验,我们证明了我们的方法比其他最先进的分布式SLAM方法更稳健和轻量化,克服了资源限制和机器人间/内关联问题。此外,我们通过在真实世界的行星模拟地形和洞穴环境中的制图实验验证了我们方法的野外适用性,这些是内部数据集。我们的代码将在此https URL上提供。 |
[16] 基于层次模型规划的高维肌肉骨骼系统运动控制 标题: Motion Control of High-Dimensional Musculoskeletal Systems with Hierarchical Model-Based Planning 作者: Yunyue Wei / Shanning Zhuang / Vincent Zhuang / Yanan Sui 原文: [英文] [中文] 备注: Accepted by ICLR 2025 摘要: 控制高维非线性系统(如生物和机器人应用中发现的系统)具有挑战性,因为这些系统具有大的状态和动作空间。尽管深度强化学习在这些领域取得了一些成功,但其计算密集且耗时,因此不适合解决需要大量手动调整的大量任务。在这项工作中,我们引入了具有形态感知比例控制的模型预测控制(MPC^2),这是一种用于高维复杂动态系统的零样本和近实时控制的分层基于模型的学习算法。MPC^2 使用基于采样的模型预测控制器进行目标姿态规划,并通过结合形态感知比例控制器进行执行器协调,实现对高维任务的稳健控制。该算法能够在各种运动任务中实现对高维人体肌肉骨骼模型的运动控制,例如站立、在不同地形上行走以及模仿体育活动。MPC^2 的奖励函数可以通过黑箱优化进行调整,从而大大减少了对人力密集型奖励设计的需求。 |
[17] 高效具身推理的训练策略 标题: Training Strategies for Efficient Embodied Reasoning 作者: William Chen / Suneel Belkhale / Suvir Mirchandani / Oier Mees / Danny Driess / Karl Pertsch / Sergey Levine 原文: [英文] [中文] 备注: None 摘要: 机器人链式思维推理(CoT)——即模型在选择动作之前预测有用的中间表示——提供了一种有效的方法来提高机器人策略的泛化能力和性能,特别是视觉-语言-动作模型(VLAs)。虽然这种方法已被证明可以提高性能和泛化能力,但它们存在核心限制,如需要专门的机器人推理数据和推理速度慢。为了设计新的机器人推理方法来解决这些问题,更全面地描述推理为何有助于策略性能至关重要。我们假设机器人推理通过几种机制改善策略——(1)更好的表示学习,(2)改进的学习课程化,以及(3)增加的表达能力——然后设计简单的机器人CoT推理变体来隔离和测试每一种机制。我们发现,学习生成推理确实能导致更好的VLA表示,而关注推理有助于实际利用这些特征以改进动作预测。我们的结果使我们更好地理解了为什么CoT推理有助于VLAs,并据此提出了两种简单且轻量级的机器人推理替代方案。我们提出的方法在非推理策略上实现了显著的性能提升,在LIBERO-90基准上达到了最先进的结果,并且与标准机器人推理相比,推理速度提高了3倍。 |
[18] 自动课程学习用于驾驶场景:迈向稳健且高效的强化学习 标题: Automatic Curriculum Learning for Driving Scenarios: Towards Robust and Efficient Reinforcement Learning 作者: Ahmed Abouelazm / Tim Weinstein / Tim Joseph / Philip Schörner / J. Marius Zöllner 原文: [英文] [中文] 备注: Accepted in the 36th IEEE Intelligent Vehicles Symposium (IV 2025) 摘要: 本文探讨了使用强化学习(RL)训练端到端自动驾驶代理所面临的挑战。RL代理通常在一组固定的场景和模拟中周围道路使用者的正常行为下进行训练,这限制了它们的泛化能力和实际部署。虽然领域随机化通过随机采样驾驶场景提供了一种潜在的解决方案,但由于训练场景之间的高方差,它经常导致低效的训练和次优的策略。为了解决这些限制,我们提出了一种自动课程学习框架,该框架根据代理不断发展的能力动态生成具有自适应复杂性的驾驶场景。与引入专家偏见且缺乏可扩展性的手动设计课程不同,我们的框架包含一个“教师”,该教师根据学习潜力——一种从代理当前策略中得出的以代理为中心的度量——自动生成和变异驾驶场景,从而消除了专家设计的需要。该框架通过排除代理已经掌握或过于具有挑战性的场景来提高训练效率。我们在一个强化学习环境中评估了我们的框架,在该环境中,代理从摄像机图像中学习驾驶策略。与基线方法(包括固定场景训练和领域随机化)的比较结果表明,我们的方法提高了泛化能力,实现了更高的成功率:在低交通密度下提高了9%,在高交通密度下提高了21%,并且以更少的训练步骤实现了更快的收敛。我们的研究结果突显了自动课程学习在提高基于RL的自动驾驶代理的鲁棒性和效率方面的潜力。 |
[19] 通过融合关节和惯性传感器实现人机协作中并联机器人快速接触检测 标题: Fast Contact Detection via Fusion of Joint and Inertial Sensors for Parallel Robots in Human-Robot Collaboration 作者: Aran Mohammad / Jan Piosik / Dustin Lehmann / Thomas Seel / Moritz Schappler 原文: [英文] [中文] 备注: Preprint of a publication accepted for IEEE Robotics and Automation Letters 摘要: 快速接触检测对于安全的人机协作至关重要。基于本体感知信息的观测器可以用于接触检测,但其具有一阶误差动态,导致延迟。基于惯性测量单元(IMU)的传感器融合,由加速度计和陀螺仪组成,有助于减少延迟。加速度估计可以直接计算外部力。对于串联机器人,需要安装多个加速度计和陀螺仪进行动力学建模,因为关节坐标是最小坐标。或者,平行机器人(PRs)有可能仅在末端执行器平台上使用一个IMU,因为它已经呈现了PR的最小坐标。本文介绍了一种传感器融合方法,用于接触检测,使用编码器和仅一个低成本、消费级IMU用于PR。末端执行器的加速度通过扩展卡尔曼滤波器估计,并结合到动力学中以计算外部力。在一个平面PR的实际实验中,我们证明了这种方法将检测时间减少了多达50%,并能够在3-39毫秒内实现碰撞和夹紧检测。 |
[20] MA-ROESL:面向运动感知的快速奖励优化,用于从单个视频中高效学习机器人技能 标题: MA-ROESL: Motion-aware Rapid Reward Optimization for Efficient Robot Skill Learning from Single Videos 作者: Xianghui Wang / Xinming Zhang / Yanjun Chen / Xiaoyu Shen / Wei Zhang 原文: [英文] [中文] 备注: None 摘要: 视觉-语言模型(VLMs)在高层次规划能力方面表现出色,使得从视频演示中学习运动技能成为可能,而无需精细的人类级奖励设计。然而,目前方法中不当的帧采样方法和低训练效率仍然是一个关键瓶颈,导致大量的计算开销和时间成本。为了解决这一限制,我们提出了用于从单个视频中高效学习机器人技能的运动感知快速奖励优化方法(MA-ROESL)。MA-ROESL整合了一种运动感知帧选择方法,以隐式提高VLM生成的奖励函数的质量。它还采用了一个混合的三阶段训练流程,通过快速奖励优化提高训练效率,并通过在线微调得出最终策略。实验结果表明,MA-ROESL在忠实再现模拟和现实环境中的运动技能的同时,显著提高了训练效率,从而突显了其作为一个稳健且可扩展的框架的潜力,用于从视频演示中高效学习机器人运动技能。 |
[21] 自适应扩散策略优化用于机器人操作 标题: Adaptive Diffusion Policy Optimization for Robotic Manipulation 作者: Huiyun Jiang / Zhuang Yang 原文: [英文] [中文] 备注: None 摘要: 最近的研究表明,扩散模型在通过建模复杂策略、表现出高度多模态性以及高效处理高维连续控制任务方面具有极大的潜力,从而改进强化学习(RL)。然而,目前关于如何快速且稳定地优化基于扩散的策略(例如,扩散策略)的研究仍然有限。在本文中,我们提出了一种基于Adam的扩散策略优化(ADPO),这是一种快速算法框架,包含了使用自适应梯度下降方法在RL中微调机器人控制任务中的扩散策略的最佳实践。自适应梯度方法在训练RL中研究较少,更不用说基于扩散的策略了。我们确认ADPO在标准机器人任务的微调方面的整体效果优于其他基于扩散的RL方法。具体而言,我们在标准机器人控制任务上进行了广泛的实验来测试ADPO,其中特别提供了六种流行的基于扩散的RL方法作为基准方法。实验结果表明,ADPO获得了比基线方法更好或相当的性能。最后,我们系统地分析了标准机器人任务中多个超参数的敏感性,为后续的实际应用提供了指导。我们的视频演示已在此https URL中发布。 |
[22] 使用深度强化学习的固定翼无人机连续世界覆盖路径规划 标题: Continuous World Coverage Path Planning for Fixed-Wing UAVs using Deep Reinforcement Learning 作者: Mirco Theile / Andres R. Zapata Rodriguez / Marco Caccamo / Alberto L. Sangiovanni-Vincentelli 原文: [英文] [中文] 备注: Submitted to IROS 2025 摘要: 无人机(UAV)覆盖路径规划(CPP)对于精细农业和搜索救援等应用至关重要。虽然传统方法依赖于离散的基于网格的表示,但现实世界的无人机操作需要节能的连续运动规划。我们在连续环境中制定了无人机CPP问题,旨在最小化能耗同时确保完全覆盖。我们的方法使用可变大小的轴对齐矩形来建模环境,并使用曲率约束的贝塞尔曲线来描述无人机运动。我们通过使用自适应课程的动作映射基础软演员评论家(AM-SAC)算法训练强化学习代理。在程序生成和手工制作的场景上的实验表明,我们的方法在学习节能覆盖策略方面的有效性。 |
[23] MDF:基于卷积神经网络的物体检测的多模态数据融合,用于利用LiDAR-SLAM增强室内定位 标题: MDF: Multi-Modal Data Fusion with CNN-Based Object Detection for Enhanced Indoor Localization Using LiDAR-SLAM 作者: Saqi Hussain Kalan / Boon Giin Lee / Wan-Young Chung 原文: [英文] [中文] 备注: None 摘要: 室内定位在实现高精度方面面临持续挑战,特别是在缺乏GPS的环境中。本研究推出了一种尖端的手持式室内定位系统,该系统集成了2D LiDAR和IMU传感器,提供了增强的高速精度映射、计算效率和实时适应性。与3D LiDAR系统不同,它在快速处理、低成本可扩展性和强大性能方面表现出色,为应急响应、自动导航和工业自动化设定了新标准。通过CNN驱动的目标检测框架增强,并通过ROS中的Cartographer SLAM(同时定位与地图构建)进行优化,该系统将绝对轨迹误差(ATE)显著降低了21.03%,与最先进的方法如SC-ALOAM相比,达到了卓越的精度,平均x位置误差为-0.884米(1.976米)。基于CNN的目标检测的集成确保了在杂乱或动态环境中的映射和定位的鲁棒性,性能比现有方法提高了26.09%。这些进步确立了该系统作为在具有挑战性的室内场景中实现高精度定位的可靠且可扩展的解决方案。 |
[24] ORACLE-Grasp:使用大型多模态模型进行零样本任务导向的机器人抓取 标题: ORACLE-Grasp: Zero-Shot Task-Oriented Robotic Grasping using Large Multimodal Models 作者: Avihai Giuili / Rotem Atari / Avishai Sintov 原文: [英文] 备注: None 摘要: 在非结构化环境中抓取未知物体仍然是机器人领域的一个基本挑战,需要语义理解和空间推理。现有的方法通常依赖于密集的训练数据集或显式的几何建模,限制了它们在现实任务中的可扩展性。最近在大型多模态模型(LMMs)方面的进展为整合视觉和语言理解提供了新的可能性,但它们在自主机器人抓取中的应用仍然基本未被探索。我们提出了ORACLE-Grasp,一个零样本框架,利用LMMs作为语义预言机来指导抓取选择,而无需额外的训练或人工输入。该系统将抓取预测构建为一个结构化的、迭代的决策过程,使用双提示工具调用首先提取高层次的物体上下文,然后选择与任务相关的抓取区域。通过离散化图像空间并对候选区域进行推理,ORACLE-Grasp减轻了LMMs中常见的空间不精确性,并产生类似人类的、任务驱动的抓取建议。早停和基于深度的优化步骤进一步提高了效率和物理抓取的可靠性。实验表明,预测的抓取在位置和方向误差方面相对于人工标注的真实值较低,并在现实世界的拾取任务中取得了高成功率。这些结果突显了结合语言驱动的推理与轻量级视觉技术的潜力,以实现稳健的自主抓取,而无需任务特定的数据集或重新训练。 |
[25] HMR-ODTA:异构移动机器人团队的在线多样化任务分配 标题: HMR-ODTA: Online Diverse Task Allocation for a Team of Heterogeneous Mobile Robots 作者: Ashish Verma / Avinash Gautam / Tanishq Duhan / V. S. Shekhawat / Sudeept Mohan 原文: [英文] [中文] 备注: None 摘要: 在医院等环境中协调时间敏感的配送任务是一个复杂的挑战,特别是在严格的时间窗口内使用一组异构机器人管理多个在线取送请求时。传统方法未能解决动态重新调度或多样化的服务需求,通常限制机器人只能执行单一任务类型。本文解决了具有时间窗口的多取送问题(MPDPTW),其中自主移动机器人能够处理各种服务请求。目标是最大限度地减少延迟交付的惩罚,同时最大化任务完成率。为此,我们提出了一个新颖的框架,利用异构机器人团队和高效的动态调度算法来支持动态任务重新调度。用户提交具有特定时间限制的请求,我们的去中心化算法——异构移动机器人在线多样任务分配(HMR-ODTA)优化任务分配,以确保及时服务,同时应对延误或任务拒绝。大量模拟验证了该算法的有效性。对于较小的任务集(40-160个任务),惩罚减少了近63%,而对于较大的任务集(160-280个任务),惩罚减少了约50%。这些结果突显了该算法在改善多机器人系统中的任务调度和协调方面的有效性,为提高结构化、时间关键环境中的配送性能提供了强有力的解决方案。 |
[26] 从未整理的视频数据中进行符号引导的视觉计划推断 标题: Symbolically-Guided Visual Plan Inference from Uncurated Video Data 作者: Wenyan Yang / Ahmet Tikna / Yi Zhao / Yuying Zhang / Luigi Palopoli / Marco Roveri / Joni Pajarinen 原文: [英文] [中文] 备注: None 摘要: 视觉规划通过为目标条件的低级策略提供一系列中间视觉子目标,在长时间跨度的操作任务中取得了令人鼓舞的表现。为了获得这些子目标,现有方法通常依赖于视频生成模型,但却面临模型幻觉和计算成本的问题。我们提出了Vis2Plan,这是一种由符号指导驱动的高效、可解释和白盒的视觉规划框架。Vis2Plan从原始的、未标记的游戏数据中利用视觉基础模型自动提取一组紧凑的任务符号,从而构建一个用于多目标、多阶段规划的高级符号转换图。在测试时,给定一个期望的任务目标,我们的规划器在符号层面进行规划,并组装一系列由底层符号表示支持的物理一致的中间子目标图像。我们的Vis2Plan在真实机器人环境中比基于扩散视频生成的强视觉规划器表现出色,提供了53%更高的综合成功率,同时生成视觉计划的速度快了35倍。结果表明,Vis2Plan能够生成物理一致的图像目标,同时提供完全可检查的推理步骤。 |
[27] 使用强化学习因果好奇心进行参数估计:限制与挑战 标题: Parameter Estimation using Reinforcement Learning Causal Curiosity: Limits and Challenges 作者: Miguel Arana-Catania / Weisi Guo 原文: [英文] [中文] 备注: 24 pages, 10 figures, 9 tables 摘要: 因果理解在科学和工程的许多学科中都很重要,我们寻求了解系统中不同因素如何因果地影响实验或情境,并为创建有效或优化现有模型铺平道路。使用案例的例子包括自主探索和建模未知环境,或评估优化大型复杂系统的关键变量。在本文中,我们分析了一种称为因果好奇的强化学习方法,该方法旨在尽可能准确和高效地估计因果决定系统动态的因素的价值,而无需直接测量它们。尽管这一想法为未来的发展提供了一条途径,但测量精度是方法有效性的基础。我们首次针对当前因果好奇的机器人操控器,提出了对该技术未来潜力和当前局限性的测量精度分析,以及对其敏感性和混杂因素解缠能力的分析——这对于因果分析至关重要。通过我们的工作,我们提出了改进和高效设计因果好奇方法的建议,以应用于现实世界的复杂场景。 |
[28] 零样本模拟到现实的水果采摘强化学习 标题: Zero-Shot Sim-to-Real Reinforcement Learning for Fruit Harvesting 作者: Emlyn Williams / Athanasios Polydoros 原文: [英文] [中文] 备注: None 摘要: 本文提出了一种全面的模拟到现实的流程,用于使用Franka Panda机器人从密集的草莓簇中进行自主采摘。我们的方法利用了一个定制的Mujoco模拟环境,该环境集成了领域随机化技术。在这个环境中,使用休眠比最小化算法训练了一个深度强化学习代理。所提出的流程将低级控制与高级感知和决策相结合,在模拟和真实实验室环境中均表现出良好的性能,为成功转移到现实世界的自主水果采摘奠定了基础。 |
[29] FOCI:基于高斯斑点的轨迹优化 标题: FOCI: Trajectory Optimization on Gaussian Splats 作者: Mario Gomez Andreu / Maximum Wilder-Smith / Victor Klemm / Vaishakh Patil / Jesus Tordesillas / Marco Hutter 原文: [英文] [中文] 备注: 7 pages, 8 figures, Mario Gomez Andreu and Maximum Wilder-Smith contributed equally 摘要: 3D 高斯散点(3DGS)最近因其在 3D 重建和视图合成方法中作为神经辐射场(NeRFs)的更快替代方案而受到欢迎。利用 3DGS 中编码的空间信息,本文提出了 FOCI(场重叠碰撞积分),这是一种能够直接在高斯本身上优化轨迹的算法。FOCI 利用了一种新颖且可解释的 3DGS 碰撞公式,使用高斯之间重叠积分的概念。与其他使用保守边界框来表示机器人并低估环境可通行性的做法相反,我们建议将环境和机器人表示为高斯散点。这不仅具有理想的计算特性,还允许进行方向感知的规划,使机器人能够通过非常狭窄的空间。我们在合成和真实的高斯散点中广泛测试了我们的算法,展示了即使在由数十万个高斯构成的环境中,也能在几秒钟内为 ANYmal 四足机器人计算出无碰撞的轨迹。项目页面和代码可在此 https URL 获取。 |
[30] 从观察到行动:为机器人操作搭建推理与决策的桥梁 标题: From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation 作者: Yifu Yuan / Haiqin Cui / Yibin Chen / Zibin Dong / Fei Ni / Longxin Kou / Jinyi Liu / Pengyi Li / Yan Zheng / Jianye Hao 原文: [英文] [中文] 备注: Early version 摘要: 在机器人操作中实现泛化仍然是一个关键挑战,特别是在未见过的场景和新任务中。当前的视觉-语言-动作(VLA)模型虽然基于通用的视觉-语言模型(VLMs),但由于具身数据集的稀缺性和异质性,仍未能实现稳健的零样本性能。为了解决这些限制,我们提出了FSD(从观察到执行),这是一种新颖的视觉-语言模型,通过空间关系推理生成中间表示,为机器人操作提供细粒度的指导。我们的方法结合了用于训练的分层数据管道和将空间坐标与视觉信号对齐的自一致性机制。通过广泛的实验,我们全面验证了FSD在“观察”和“执行”方面的能力,在8个基准测试中实现了卓越的性能,这些基准测试涉及一般空间推理和具身参考能力,以及我们提出的更具挑战性的基准测试VABench。我们还验证了机器人操作中的零样本能力,在SimplerEnv和真实机器人环境中相较于基线方法表现出显著的性能提升。实验结果显示,FSD在SimplerEnv中实现了54.1%的成功率,并在8个现实世界任务中实现了72%的成功率,比最强的基线高出30%。 |
[31] 从非线性模型预测控制到四足机器人运动的端到端多任务策略学习 标题: End-to-End Multi-Task Policy Learning from NMPC for Quadruped Locomotion 作者: Anudeep Sajja / Shahram Khorshidi / Sebastian Houben / Maren Bennewitz 原文: [英文] [中文] 备注: None 摘要: 四足机器人在穿越复杂、非结构化环境方面表现出色,而轮式机器人常常在这些环境中失败。然而,由于四足机器人的非线性动力学、高自由度以及实时控制的计算需求,实现高效且适应性强的运动仍然具有挑战性。基于优化的控制器,如非线性模型预测控制(NMPC),已显示出强大的性能,但其对精确状态估计的依赖和高计算开销使得在现实环境中的部署具有挑战性。在这项工作中,我们提出了一个多任务学习(MTL)框架,其中使用专家级的NMPC演示来训练一个单一的神经网络,从原始本体传感器输入直接预测多种运动行为的动作。我们在四足机器人Go1上广泛评估了我们的方法,包括在仿真和真实硬件上,证明它能够准确再现专家行为,允许平滑的步态切换,并简化了实时部署的控制流程。我们的MTL架构能够在统一的策略中学习多样的步态,在所有任务中对预测的关节目标实现了高$R^{2}$得分。 |
[32] MC-Swarm:四旋翼无人机群的最小通信多智能体轨迹规划与死锁解决 标题: MC-Swarm: Minimal-Communication Multi-Agent Trajectory Planning and Deadlock Resolution for Quadrotor Swarm 作者: Yunwoo Lee / Jungwon Park 原文: [英文] [中文] 备注: 13 pages, 11 figures 摘要: 为了实现有效的多智能体轨迹规划,考虑轻量级通信及其潜在的异步性是很重要的。本文提出了一种分布式轨迹规划算法,适用于四旋翼无人机群,该算法异步运行,除了初始规划阶段外不需要通信。此外,我们的算法在异步更新和飞行期间无通信的情况下保证无死锁。为了有效确保这些点,我们构建了两个主要模块:协调状态更新器和轨迹优化器。协调状态更新器为每个智能体计算朝向其目标的航点,并在考虑死锁以及相对于邻近智能体和障碍物的安全约束的情况下执行子目标优化。然后,轨迹优化器生成一条轨迹,即使在邻近智能体异步规划更新的情况下也能确保避免碰撞。我们提供了碰撞避免和死锁解决的理论保证,并在复杂的模拟环境中评估了我们方法的有效性,包括随机森林和狭窄缝隙迷宫。此外,为了减少总任务时间,我们设计了一种使用轻量级通信的更快的协调状态更新。最后,我们的方法通过在复杂环境场景中的广泛模拟和真实世界实验得到了验证。 |
[33] 超越预定义动作:结合行为树和动态运动基元进行机器人示范学习 标题: Beyond Predefined Actions: Integrating Behavior Trees and Dynamic Movement Primitives for Robot Learning from Demonstration 作者: David Cáceres Domínguez / Erik Schaffernicht / Todor Stoyanov 原文: [英文] [中文] 备注: 14 pages, 6 figures, accepted (not yet published) at IAS19 2025 conference 摘要: 可解释的策略表示形式,如行为树(BTs)和动态运动基元(DMPs),使机器人能够从人类演示中转移技能,但各自存在局限性:BTs需要专家设计的低级动作,而DMPs缺乏高级任务逻辑。我们通过将DMP控制器集成到BT框架中来解决这些局限性,从单次演示中联合学习BT结构和DMP动作,从而消除了对预定义动作的需求。此外,通过结合BT决策逻辑和DMP运动生成,我们的方法增强了自主系统的策略可解释性、模块化和适应性。我们的方法不仅能够学习复制低级动作,还能将部分演示结合成一个连贯且易于修改的整体策略。 |
[34] 增强现实机器人 (ARRO):指向视觉鲁棒性的指向视觉运动策略 标题: Augmented Reality for RObots (ARRO): Pointing Visuomotor Policies Towards Visual Robustness 作者: Reihaneh Mirjalili / Tobias Jülg / Florian Walter / Wolfram Burgard 原文: [英文] [中文] 备注: None 摘要: 最近,基于人类专家示范训练的视觉运动策略在各种机器人操作任务中表现出色。然而,这些策略对由于背景或机器人体现变化引起的领域转变仍然非常敏感,这限制了它们的泛化能力。在本文中,我们提出了ARRO,这是一种新颖的无需校准的视觉表示方法,它利用零样本开放词汇分割和目标检测模型来有效地屏蔽场景中与任务无关的区域,而无需额外的训练。通过在训练和推理过程中过滤视觉干扰并叠加虚拟引导,ARRO提高了对场景变化的鲁棒性,并减少了额外数据收集的需求。我们在多个桌面操作任务中广泛评估了ARRO与扩散策略的结合,涵盖了模拟和现实环境,并进一步展示了其与通用机器人策略(如Octo和OpenVLA)的兼容性和有效性。在我们评估的所有设置中,ARRO都带来了持续的性能提升,允许选择性地屏蔽以选择不同的对象,并在具有挑战性的分割条件下表现出鲁棒性。展示我们结果的视频可在此网址查看:this http URL |
[35] 人类活动识别的比较研究:运动、触觉和多模态方法 标题: A Comparative Study of Human Activity Recognition: Motion, Tactile, and multi-modal Approaches 作者: Valerio Belcamino / Nhat Minh Dinh Le / Quan Khanh Luu / Alessandro Carfì / Van Anh Ho / Fulvio Mastrogiovanni 原文: [英文] [中文] 备注: None 摘要: 人类活动识别(HAR)对于有效的人机协作(HRC)至关重要,使机器人能够解释和响应人类的动作。本研究评估了一种基于视觉的触觉传感器对15种活动的分类能力,并将其性能与基于IMU的数据手套进行了比较。此外,我们提出了一种结合触觉和运动数据的多模态框架,以利用它们的互补优势。我们研究了三种方法:使用IMU数据的基于运动的分类(MBC)、使用单个或双视频流的基于触觉的分类(TBC),以及整合两者的多模态分类(MMC)。在分段数据集上的离线验证评估了每种配置在受控条件下的准确性,而在连续动作序列上的在线验证测试了在线性能。结果表明,多模态方法始终优于单一模态方法,突显了整合触觉和运动传感以增强协作机器人HAR系统的潜力。 |
[36] 具有内在语音的饮食指导社交机器人 标题: A Social Robot with Inner Speech for Dietary Guidance 作者: Valerio Belcamino / Alessandro Carfì / Valeria Seidita / Fulvio Mastrogiovanni / Antonio Chella 原文: [英文] [中文] 备注: None 摘要: 我们探讨了使用内在言语作为一种机制,以增强社交机器人在提供饮食建议时的透明度和信任度。在人类中,内在言语结构化思维过程和决策;在机器人领域,它通过使推理显性化来提高可解释性。这在医疗场景中至关重要,因为对机器人助手的信任依赖于准确的建议和类人对话,这使得互动更加自然和吸引人。在此基础上,我们开发了一种提供饮食建议的社交机器人,并为其架构提供了内在言语功能,以验证用户输入、优化推理并生成清晰的理由。该系统集成了用于自然语言理解的大型语言模型和用于结构化饮食信息的知识图谱。通过使决策更加透明,我们的方法增强了信任并改善了医疗领域的人机互动。我们通过测量架构的计算效率和进行小型用户研究来验证这一点,该研究评估了内在言语在解释机器人行为方面的可靠性。 |
[37] NavDP:利用特权信息指导学习模拟到现实导航扩散策略 标题: NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance 作者: Wenzhe Cai / Jiaqi Peng / Yuqiang Yang / Yujian Zhang / Meng Wei / Hanqing Wang / Yilun Chen / Tai Wang / Jiangmiao Pang 原文: [英文] [中文] 备注: 14 pages, 6 figures 摘要: 在动态开放世界环境中学习导航是机器人面临的一项重要而具有挑战性的技能。大多数以往的方法依赖于精确的定位和建图,或是从昂贵的真实世界示范中学习。在本文中,我们提出了导航扩散策略(NavDP),这是一种完全在模拟中训练的端到端框架,能够零样本迁移到不同的实体并适应多样的真实世界环境。NavDP网络的关键成分是基于扩散的轨迹生成与轨迹选择的评价函数的结合,这些都仅依赖于从共享策略变压器编码的局部观测标记。在模拟中利用全局环境的特权信息,我们扩大了高质量示范的规模以训练扩散策略,并通过对比负样本来制定评价值函数目标。我们的方法每天每个GPU可以生成约2500条轨迹,比真实世界的数据收集效率高出20倍,最终形成了一个包含1244个场景、总长363.2公里轨迹的大规模导航数据集。使用该模拟数据集进行训练,NavDP在四足、轮式和人形机器人在多样的室内外环境中实现了最先进的性能和始终如一的出色泛化能力。此外,我们初步尝试使用高斯点云进行域内真实到模拟的微调,以进一步缩小模拟到真实的差距。实验表明,添加这样的真实到模拟数据可以在不损害其泛化能力的情况下将成功率提高30%。 |
[38] UniSkill:通过跨载体技能表示模仿人类视频 标题: UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations 作者: Hanjung Kim / Jaehyun Kang / Hyolim Kang / Meedeum Cho / Seon Joo Kim / Youngwoon Lee 原文: [英文] [中文] 备注: Project Page: this https URL 摘要: 模仿是人类的一种基本学习机制,使个体能够通过观察和模仿专家来学习新任务。然而,由于人类和机器人在视觉外观和物理能力上的固有差异,将这种能力应用于机器人面临重大挑战。尽管先前的方法通过具有共享场景和任务的跨化身数据集来弥合这一差距,但大规模收集人类和机器人之间的此类对齐数据并非易事。在本文中,我们提出了UniSkill,这是一种新颖的框架,可以从大规模的跨化身视频数据中学习与化身无关的技能表示,而无需任何标签,从而使从人类视频提示中提取的技能能够有效地转移到仅在机器人数据上训练的机器人策略中。我们在模拟和现实环境中的实验表明,我们的跨化身技能成功地指导机器人选择适当的动作,即使在面对未见过的视频提示时也是如此。项目网站可以在此URL找到:this https URL。 |