scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.RO方向,2025年8月1日更新论文25
[1] 学习在现代果树园中修剪树枝
标题: Learning to Prune Branches in Modern Tree-Fruit Orchards
作者: Abhinav Jain / Cindy Grimm / Stefan Lee
原文:   [英文]   [中文]  
备注: None
摘要:
休眠期树木修剪是劳动密集型的工作,但对于维持现代高产果园至关重要。在这项工作中,我们提出了一种用于机器人修剪的闭环视觉运动控制器。该控制器引导切割器穿过杂乱的树木环境以到达指定的切割点,并确保切割器与树枝垂直。我们使用一种新颖的果园模拟来训练控制器,该模拟捕捉了目标苹果果园配置中树枝的几何分布。与传统方法需要完整的3D重建不同,我们的控制器仅使用来自腕部安装摄像头的光流图像。我们在模拟和现实世界中部署了我们学习的策略,并在一个V形棚架的树木上进行零样本迁移,成功率达到30%——大约是一个理想规划器性能的一半。

[2] 一种用于广义机器人-世界和手-眼标定的可证明正确的算法
标题: A Certifably Correct Algorithm for Generalized Robot-World and Hand-Eye Calibration
作者: Emmett Wise / Pushyami Kaveti / Qilong Chen / Wenhao Wang / Hanumant Singh / Jonathan Kelly / David M. Rosen / Matthew Giamou
原文:   [英文]   [中文]  
备注: 25 pages, 10 figures, submitted to the International Journal of Robotics Research
摘要:
自动外部传感器校准是多传感器平台的一个基础问题。可靠且通用的解决方案应具备计算效率高、对感知环境结构的假设少,并且对人工操作的需求低。由于获取准确校准参数所需的工程努力会随着部署传感器数量的增加而增加,机器人研究人员一直在探索对感知环境假设少且对人工操作需求低的方法。在这项工作中,我们引入了一种快速且可证明全局最优的算法,用于解决广义的“机器人-世界与手-眼校准”(RWHEC)问题。所提出的RWHEC的广义公式支持同时估计多个传感器和目标的姿态,并允许使用单目相机,即使单独使用时无法测量其环境的尺度。除了展示我们的方法在现有解决方案上的优越性能外,我们还推导了新的可识别性标准,并为具有有界测量误差的问题实例建立了全局最优性的先验保证。我们还引入了一种互补的李代数局部求解器用于RWHEC,并将其性能与我们的全局方法和现有技术进行比较。最后,我们提供了我们的算法和实验的免费开源实现。

[3] 基于中间运动生成的多风格四足机器人运动
标题: In-between Motion Generation Based Multi-Style Quadruped Robot Locomotion
作者: Yuanhao Chen / Liu Zhao / Ji Ma / Peng Lu
原文:   [英文]   [中文]  
备注: None
摘要:
四足机器人在实现多样化运动方面面临持续挑战,主要由于参考运动数据的多样性有限。为了解决这些挑战,本研究提出了一种基于中间运动生成的多风格四足机器人运动框架,结合了运动生成和模仿学习的协同进展。我们的方法建立了一个统一的流程,解决两个基本方面:首先,我们提出了一种基于条件变分自编码器(CVAE)的运动生成器,能够在任意起始和结束状态之间合成多风格的动态可行运动序列。通过嵌入物理约束并利用基于关节姿态的相位流形连续性,该组件生成跨越多种步态模式的物理上合理的运动,同时确保与机器人形态的运动学兼容性。其次,我们采用对抗性运动先验算法。我们验证了生成的运动数据在增强控制器稳定性和提高速度跟踪性能方面的有效性。所提出的框架在速度跟踪和部署稳定性方面表现出显著的改进。我们成功地在真实世界的四足机器人上部署了该框架,实验验证证实了该框架生成和执行复杂运动模式的能力,包括疾驰、三足步态、小跑和侧步。

[4] 超越僵化的人工智能:迈向自然的人机共生以实现手术协作辅助
标题: Beyond Rigid AI: Towards Natural Human-Machine Symbiosis for Interoperative Surgical Assistance
作者: Lalithkumar Seenivasan / Jiru Xu / Roger D. Soberanis Mukul / Hao Ding / Grayson Byrd / Yu-Chun Ku / Jose L. Porras / Masaru Ishii / Mathias Unberath
原文:   [英文]   [中文]  
备注: None
摘要:
新兴的手术数据科学和机器人解决方案,尤其是那些旨在提供现场辅助的解决方案,需要自然的人机界面来充分释放其在提供自适应和直观帮助方面的潜力。当代的人工智能驱动解决方案本质上仍然僵化,提供的灵活性有限,并限制了在动态手术环境中的自然人机交互。这些解决方案严重依赖于广泛的特定任务预训练、固定的对象类别和明确的手动提示。本文介绍了一种新颖的感知代理,它利用语音集成的提示工程大型语言模型(LLMs)、任意物体分割模型(SAM)和任意点跟踪基础模型,以实现实时术中手术辅助中的更自然的人机交互。通过结合一个记忆库和两种新颖的分割未知元素的机制,感知代理提供了通过直观交互分割手术场景中已知和未知元素的灵活性。通过具备记忆新元素以用于未来手术的能力,这项工作在手术过程中朝着人机共生迈出了显著的一步。通过对公共数据集的定量分析,我们表明我们的代理的性能与相当费力的手动提示策略相当。定性分析中,我们展示了我们的代理在自定义策划的数据集中分割新元素(器械、仿制移植物和纱布)的灵活性。通过提供自然的人机交互并克服僵化,我们的感知代理有可能将基于人工智能的实时辅助在动态手术环境中更接近现实。

[5] 大规模并行化多任务强化学习在机器人任务中的基准测试
标题: Benchmarking Massively Parallelized Multi-Task Reinforcement Learning for Robotics Tasks
作者: Vira Joshi / Zifan Xu / Bo Liu / Peter Stone / Amy Zhang
原文:   [英文]   [中文]  
备注: RLC 2025
摘要:
多任务强化学习(MTRL)已成为将强化学习(RL)应用于一组复杂的现实世界机器人任务的关键训练范式,这需要一种具有普遍性和鲁棒性的策略。同时,\emph{大规模并行化训练}因其不仅通过GPU加速模拟显著加快数据收集速度,还通过并行模拟异构场景实现跨多个任务的多样化数据收集而受到欢迎。然而,现有的MTRL研究在低并行化环境中主要局限于像SAC这样的离线策略方法。MTRL可以利用在线策略算法的更高渐近性能,这些算法的批次需要来自当前策略的数据,因此可以利用GPU加速模拟提供的大规模并行化。为弥补这一差距,我们引入了一个大规模并行化的机器人多任务基准(MTBench),这是一个开源基准,包含50个操作任务和20个运动任务的广泛分布,使用GPU加速模拟器IsaacGym实现。MTBench还包括四个基础RL算法与七个最先进的MTRL算法和架构相结合,提供了一个统一的框架来评估其性能。我们的大量实验突出了使用MTBench评估MTRL方法的优越速度,同时也揭示了将大规模并行性与MTRL结合带来的独特挑战。代码可在$\href{this https URL}{ this https URL}$获取。

[6] 基于二次规划的姿态操控和推力矢量控制用于在狭窄路径上灵活动态行走
标题: Quadratic Programming-Based Posture Manipulation and Thrust-vectoring for Agile Dynamic Walking on Narrow Pathways
作者: Chenghao Wang / Eric Sihite / Kaushik Venkatesh Krishnamurthy / Shreyansh Pitroda / Adarsh Salagame / Alireza Ramezani / Morteza Gharib
原文:   [英文]   [中文]  
备注: None
摘要:
在腿式机器人的敏捷性方面取得了显著进展,它们能够展示令人印象深刻的杂技动作,例如跑酷。这些动作在很大程度上依赖于姿态操控。为了扩展稳定性和运动的可塑性,我们在我们的腿式-空中平台Husky Beta上使用多模态能力来进行助推器辅助行走。该机器人在每个矢状膝关节上都配备了助推器,可以在行走时用于稳定其前方动态。在这项工作中,我们进行了Husky β的四足窄路径行走的模拟研究,机器人将利用其助推器在窄路径上稳定行走。控制器是基于一个重心动力学模型设计的,以助推器和足部地面接触力作为输入。这些输入通过QP求解器进行调节,以用于模型预测控制框架。除了窄路径行走,我们还进行了侧向推力恢复模拟,以研究如何使用助推器来稳定前方动态。

[7] 基于仿真的运动序列规划用于多机器人装配单元中的自动化程序优化
标题: Simulation-based planning of Motion Sequences for Automated Procedure Optimization in Multi-Robot Assembly Cells
作者: Loris Schneider / Marc Ungen / Elias Huber / Jan-Felix Klein
原文:   [英文]   [中文]  
备注: None
摘要:
可重构多机器人单元为应对波动的装配需求提供了一种有前景的方法。然而,其配置的反复规划带来了新的挑战,特别是在生成优化的、协调的多机器人运动序列以最小化装配时间方面。本文提出了一种基于仿真的方法来生成这种优化的序列。该方法将装配步骤分为与任务相关的核心操作和连接的遍历操作。核心操作是受限且预先确定的,而遍历操作则提供了大量的优化潜力。核心操作的调度被表述为一个优化问题,需要通过基于分解的运动规划策略来整合可行的遍历操作。我们探索了几种解决技术,包括采样启发式、基于树的搜索和无梯度优化。对于运动规划,提出了一种分解方法,该方法识别出计划中的特定区域,这些区域可以通过修改后的集中路径规划算法独立解决。所提出的方法生成了高效且无碰撞的多机器人装配程序,其性能优于依赖于去中心化、机器人个体运动规划的基线。其有效性通过仿真实验得到了验证。

[8] GSFusion:用于高斯散射的全局优化激光雷达-惯性-视觉映射
标题: GSFusion:Globally Optimized LiDAR-Inertial-Visual Mapping for Gaussian Splatting
作者: Jaeseok Park / Chanoh Park / Minsu Kim / Soohwan Kim
原文:   [英文]   [中文]  
备注: None
摘要:
虽然三维高斯散点(3DGS)技术在真实感映射方面取得了革命性进展,但基于相机传感器的传统方法,即使是RGB-D,也存在一些基本限制,如高计算负载、在纹理或光照较差的环境中失效以及操作范围短。激光雷达(LiDAR)作为一种稳健的替代方案出现,但其与3DGS的结合带来了新的挑战,例如需要卓越的全局对齐以实现真实感质量,以及由于数据稀疏导致的优化时间延长。为了解决这些挑战,我们提出了GSFusion,这是一种在线的激光雷达-惯性-视觉映射系统,通过全局位姿图优化中的面元到面元约束,确保高精度的地图一致性。为了处理稀疏数据,我们的系统采用了一种像素感知的高斯初始化策略以实现高效表示,并使用有界的S型约束来防止高斯的无控制增长。我们在公共数据集和自有数据集上的实验表明,我们的系统在渲染质量和地图构建效率方面优于现有的3DGS SLAM系统。

[9] 基于触须的主动触觉感知用于轮廓重建
标题: Whisker-based Active Tactile Perception for Contour Reconstruction
作者: Yixuan Dang / Qinyang Xu / Yu Zhang / Xiangtong Yao / Liding Zhang / Zhenshan Bing / Florian Roehrbein / Alois Knoll
原文:   [英文]   [中文]  
备注: None
摘要:
目前,使用仿须触觉传感器进行感知面临一个主要挑战:缺乏基于须直接接触信息的机器人主动控制。为了准确重建物体轮廓,须传感器必须持续跟随并在表面上保持适当的相对接触姿态。这对于基于尖端接触的定位尤为重要,因为其对尖锐表面的容忍度低,必须避免滑入切向接触。在本文中,我们首先构建了一种磁感应须传感器,其特征是由三个柔性螺旋臂组成的紧凑且稳健的悬挂系统。我们开发了一种方法,利用须的特征偏转轮廓,通过梯度下降直接提取尖端接触位置,并应用贝叶斯滤波器以减少波动。然后,我们提出了一种主动运动控制策略,以保持须传感器相对于物体表面的最佳相对姿态。采用B样条曲线来预测局部表面曲率并确定传感器的方向。结果表明,我们的算法能够有效跟踪物体并以亚毫米精度重建轮廓。最后,我们在模拟和现实实验中验证了该方法,其中机器人手臂驱动须传感器跟随三个不同物体的表面。

[10] 评估自动驾驶车辆决策与人类理由的一致性
标题: Assessing the Alignment of Automated Vehicle Decisions with Human Reasons
作者: Lucas Elbert Suryana / Saeed Rahmani / Simeon Craig Calvert / Arkady Zgonnikov / Bart van Arem
原文:   [英文]   [中文]  
备注: This version incorporates revisions based on peer-review feedback from a prior submission. The work has not yet been accepted and is being prepared for resubmission
摘要:
在部署自动驾驶车辆(AVs)时,一个关键挑战是确保它们在具有伦理挑战的日常驾驶情境中做出适当的决策。尽管人们对罕见的、高风险的两难困境(如电车难题)给予了很多关注,但在常规情境中也会出现类似的紧张局势,例如在空旷的十字路口行驶时,其中多种人类考量因素(包括合法性和舒适性)常常相互冲突。目前的AV规划系统通常依赖于僵化的规则,这些规则难以平衡这些相互竞争的考量因素,并可能导致行为与人类期望不一致。本文提出了一种新颖的基于理由的轨迹评估框架,该框架实现了有意义的人类控制(MHC)的跟踪条件。该框架将人类代理的理由(如遵守法规)建模为可量化的函数,并评估候选AV轨迹与这些理由的对齐程度。通过为代理优先级分配可调节的权重并整合一个平衡函数以防止任何代理被排除,该框架支持可解释的决策评估。通过一个受现实启发的超车情境,我们展示了这种方法如何揭示紧张局势,例如在法规遵从、效率和舒适性之间的紧张关系。该框架作为现有规划算法的模块化评估层运作。它提供了一个透明的工具,用于评估日常情境中的伦理对齐,并为在现实世界中实现MHC的AV部署提供了一个实用的步骤。

[11] 学习单轮驱动漂移:在操控极限下驾驶自动驾驶车辆
标题: Learning to Drift with Individual Wheel Drive: Maneuvering Autonomous Vehicle at the Handling Limits
作者: Yihan Zhou / Yiwen Lu / Bo Yang / Jiayun Li / Yilin Mo
原文:   [英文]  
备注: None
摘要:
漂移是一种以高侧滑角控制车辆运动的技术,对于在摩擦极限下安全处理紧急情况至关重要。尽管最近的强化学习方法在漂移控制方面显示出前景,但它们在模拟到现实的转换中面临巨大挑战,因为在模拟中表现良好的策略在转移到物理系统时往往会失败。在本文中,我们提出了一种强化学习框架,结合了GPU加速的并行模拟和系统的域随机化,有效地弥合了这一差距。该方法在模拟环境和一个定制设计并开源的1/10比例独立轮驱动(IWD)遥控车平台上进行了验证,该平台具有独立的车轮速度控制。通过从稳态圆形漂移到方向转换和可变曲率路径跟随的各种场景实验表明,我们的方法在模拟和现实环境中进行复杂机动时,能够实现精确的轨迹跟踪,同时保持受控的侧滑角。

[12] 用于农业应用的非完整移动机器人的多航点路径规划与运动控制
标题: Multi-Waypoint Path Planning and Motion Control for Non-holonomic Mobile Robots in Agricultural Applications
作者: Mahmoud Ghorab / Matthias Lorenzen
原文:   [英文]   [中文]  
备注: 6 pages
摘要:
对自主移动机器人在非结构化农业环境中导航的需求日益增长。诸如草地除草等任务需要通过一组无序坐标进行高效路径规划,同时最小化行驶距离并遵循曲率约束,以防止土壤损坏和保护植被。本文提出了一种集成导航框架,将基于Dubins旅行商问题(DTSP)的全局路径规划器与用于局部路径规划和控制的非线性模型预测控制(NMPC)策略相结合。DTSP生成了一条最小长度且曲率受限的路径,能够高效地访问所有目标,而NMPC利用该路径计算控制信号,以准确到达每个航点。通过对真实世界田地数据集的比较模拟分析验证了系统的性能,结果表明,与解耦方法相比,耦合的基于DTSP的规划器生成了更平滑和更短的路径,在所提供的场景中减少了约16%。基于此,NMPC控制器有效地将机器人引导至期望的航点,同时在局部优化轨迹并确保遵循约束。这些研究结果表明了所提出框架在农业环境中实现高效自主导航的潜力。

[13] 量化和可视化模拟到现实的差距:基于物理引导的正则化以提高可重复性
标题: Quantifying and Visualizing Sim-to-Real Gaps: Physics-Guided Regularization for Reproducibility
作者: Yuta Kawachi
原文:   [英文]   [中文]  
备注: None
摘要:
使用域随机化进行机器人控制的模拟到现实转移通常依赖于低齿轮比、可回驱动的执行器,但当模拟到现实的差距扩大时,这些方法就会失效。受传统PID控制器的启发,我们将其增益重新解释为复杂、未建模的植物动态的替代。然后,我们引入了一种物理引导的增益正则化方案,通过简单的现实世界实验来测量机器人的有效比例增益。接着,在训练过程中,我们对神经控制器的局部输入输出敏感性偏离这些值的情况进行惩罚。为了避免简单域随机化的过于保守的偏差,我们还根据当前的植物参数来调整控制器。在一个现成的110:1齿轮箱的双轮平衡机器人上,我们的增益正则化、参数调整的RNN在硬件上实现了与模拟紧密匹配的角度稳定时间。同时,纯粹的域随机化策略表现出持续的振荡和显著的模拟到现实差距。这些结果展示了一种轻量级、可复制的框架,用于在经济实惠的机器人硬件上缩小模拟到现实的差距。

[14] H-RDT:人类操作增强的双手机器人操作
标题: H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation
作者: Hongzhe Bi / Lingxuan Wu / Tianwei Lin / Hengkai Tan / Zhizhong Su / Hang Su / Jun Zhu
原文:   [英文]   [中文]  
备注: None
摘要:
模仿学习在机器人操作中面临一个根本挑战:缺乏大规模、高质量的机器人示范数据。最近的机器人基础模型通常在跨形态的机器人数据集上进行预训练以增加数据规模,但由于不同机器人形态之间多样的形态和动作空间,使得统一训练具有显著的局限性。在本文中,我们提出了H-RDT(Human to Robotics Diffusion Transformer),这是一种利用人类操作数据来增强机器人操作能力的新方法。我们的关键见解是,大规模的自我中心人类操作视频与配对的3D手部姿态注释提供了丰富的行为先验,捕捉了自然的操作策略,可以有益于机器人策略学习。我们引入了一个两阶段的训练范式:(1)在大规模自我中心人类操作数据上进行预训练,(2)在具有模块化动作编码器和解码器的机器人特定数据上进行跨形态微调。基于具有20亿参数的扩散变压器架构,H-RDT使用流匹配来建模复杂的动作分布。广泛的评估涵盖了模拟和现实世界实验、单任务和多任务场景,以及少样本学习和鲁棒性评估,结果表明H-RDT优于从头开始训练和现有的最先进方法,包括Pi0和RDT,在模拟和现实世界实验中分别实现了13.9%和40.5%的显著改进。结果验证了我们的核心假设,即人类操作数据可以作为学习双手机器人操作策略的强大基础。

[15] 用于自适应自动驾驶的统一感知-语言-行动框架
标题: A Unified Perception-Language-Action Framework for Adaptive Autonomous Driving
作者: Yi Zhang / Erik Leo Haß / Kuo-Yi Chao / Nenad Petrovic / Yinglei Song / Chengdong Wu / Alois Knoll
原文:   [英文]   [中文]  
备注: None
摘要:
自动驾驶系统在实现类似人类的适应性、鲁棒性和可解释性方面,在复杂的开放世界环境中面临重大挑战。这些挑战源于架构的碎片化、对新场景的泛化能力有限以及感知中语义提取不足。为了解决这些限制,我们提出了一个统一的感知-语言-行动(PLA)框架,该框架将多传感器融合(摄像头、LiDAR、雷达)与大型语言模型(LLM)增强的视觉-语言-行动(VLA)架构相结合,特别是一个由GPT-4.1驱动的推理核心。该框架将低级传感器处理与高级上下文推理统一起来,紧密结合感知与基于自然语言的语义理解和决策,以实现具有上下文感知、可解释性和安全边界的自动驾驶。在一个带有施工区域的城市交叉路口场景中的评估显示,在轨迹跟踪、速度预测和自适应规划方面表现优越。结果突显了语言增强认知框架在提升自动驾驶系统的安全性、可解释性和可扩展性方面的潜力。

[16] 通过多实例学习多模态社交信号在人机交互中估计用户体验
标题: User Experience Estimation in Human-Robot Interaction Via Multi-Instance Learning of Multimodal Social Signals
作者: Ryo Miyoshi / Yuki Okafuji / Takuya Iwamoto / Junya Nakanishi / Jun Baba
原文:   [英文]   [中文]  
备注: This paper has been accepted for presentation at IEEE/RSJ International Conference on Intelligent Robots and Systems 2025 (IROS 2025)
摘要:
近年来,社交机器人的需求不断增长,这要求它们能够根据用户的状态调整其行为。准确评估人机交互(HRI)中的用户体验(UX)对于实现这种适应性至关重要。用户体验是一个多方面的衡量标准,涵盖情感和参与度等方面,但现有方法往往单独关注这些方面。本研究提出了一种通过多模态社交信号进行HRI用户体验估计的方法。我们构建了一个用户体验数据集,并开发了一种基于Transformer的模型,该模型利用面部表情和语音进行估计。与依赖于瞬时观察的传统模型不同,我们的方法使用多实例学习框架捕捉短期和长期的交互模式。这使得模型能够捕捉用户体验的时间动态,提供更全面的表示。实验结果表明,我们的方法在用户体验估计方面优于第三方人类评估者。

[17] 大语言模型推理能否取代经典规划?一项基准研究
标题: Can LLM-Reasoning Models Replace Classical Planning? A Benchmark Study
作者: Kai Goebel / Patrik Zips
原文:   [英文]   [中文]  
备注: None
摘要:
最近在大型语言模型方面的进展引发了人们对其在机器人任务规划中潜力的兴趣。尽管这些模型展示了强大的生成能力,但它们在生成结构化和可执行计划方面的有效性仍不确定。本文系统地评估了当前一系列最先进的语言模型,每个模型都直接使用规划域定义语言的域和问题文件进行提示,并将其规划性能与Fast Downward规划器在各种基准测试中的表现进行比较。除了测量成功率外,我们还评估了生成的计划如何忠实地转化为实际可执行的动作序列,识别出在这种环境中使用这些模型的优点和局限性。我们的研究结果表明,尽管这些模型在较简单的规划任务中表现良好,但在需要精确资源管理、一致状态跟踪和严格约束遵循的更复杂场景中仍然存在困难。这些结果强调了在真实世界环境中将语言模型应用于机器人规划的基本挑战。通过概述执行过程中出现的差距,我们旨在指导未来的研究朝着结合语言模型与经典规划器的方法发展,以增强自主机器人规划的可靠性和可扩展性。

[18] 人-外骨骼运动学校准以改善灵巧远程操作中的手部追踪
标题: Human-Exoskeleton Kinematic Calibration to Improve Hand Tracking for Dexterous Teleoperation
作者: Haiyun Zhang / Stefano Dalla Gasperina / Saad N. Yousaf / Toshimitsu Tsuboi / Tetsuya Narita / Ashish D. Deshpande
原文:   [英文]   [中文]  
备注: 8 pages, 10 figures, submitted to RA-L
摘要:
手部外骨骼是灵巧远程操作和沉浸式操控界面的关键工具,但由于用户特定的解剖差异和穿戴不一致,实现精确的手部追踪仍然是一个挑战。这些问题导致运动学不对齐,从而降低了追踪性能,并限制了在精密任务中的适用性。我们提出了一种基于外骨骼的手部追踪的个体特定校准框架,该框架利用冗余关节传感和残差加权优化策略来估计虚拟连杆参数。该方法在Maestro外骨骼上实现,提高了不同手部几何形状用户的关节角度和指尖位置估计。我们引入了一种数据驱动的方法,使用动作捕捉的真实数据来经验性地调整代价函数的权重,从而在参与者之间实现更准确和一致的校准。来自七名受试者的定量结果显示,与未经校准和均匀加权模型相比,关节和指尖追踪误差显著减少。使用基于Unity的虚拟手进行的定性可视化进一步证实了运动保真度的改善。所提出的框架可以推广到具有闭环运动学和最小传感的外骨骼设计,并为高保真远程操作和示范学习应用奠定了基础。

[19] DRACo-SLAM2:用于配备成像声纳的水下机器人团队的分布式鲁棒声学通信高效SLAM,结合对象图匹配
标题: DRACo-SLAM2: Distributed Robust Acoustic Communication-efficient SLAM for Imaging Sonar EquippedUnderwater Robot Teams with Object Graph Matching
作者: Yewei Huang / John McConnell / Xi Lin / Brendan Englot
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了DRACo-SLAM2,这是一种用于配备多波束成像声纳的水下机器人团队的分布式SLAM框架。该框架通过引入一种新的声纳地图表示为对象图,并利用对象图匹配来实现时间高效的机器人间回环检测,而无需依赖先前的几何信息,从而改进了原始的DRACo-SLAM。为了更好地适应水下扫描匹配的需求和特点,我们提出了增量式组内一致测量集最大化(GCM),这是对成对一致测量集最大化(PCM)的修改,能够有效处理附近机器人间回环共享相似注册误差的场景。通过对模拟和真实世界数据集的广泛比较分析验证了所提出的方法。

[20] DuLoc:在变化和动态扩展场景中的终身双层定位
标题: DuLoc: Life-Long Dual-Layer Localization in Changing and Dynamic Expansive Scenarios
作者: Haoxuan Jiang / Peicong Qian / Yusen Xie / Xiaocong Li / Ming Liu / Jun Ma
原文:   [英文]   [中文]  
备注: None
摘要:
基于LiDAR的定位是自动化系统中的关键组件,但现有方法在平衡重复性、准确性和环境适应性方面面临持续挑战。传统的点云配准方法仅依赖离线地图,通常在应对长期环境变化时表现出有限的鲁棒性,导致在动态真实场景中出现定位漂移和可靠性下降。为了解决这些挑战,本文提出了DuLoc,这是一种稳健且准确的定位方法,它将LiDAR惯性里程计与基于离线地图的定位紧密结合,并结合恒速运动模型以减轻真实场景中的异常噪声。具体而言,我们开发了一种基于LiDAR的定位框架,该框架无缝集成了先验全局地图与动态实时局部地图,从而在无限且变化的环境中实现稳健定位。本文进行了广泛的真实世界实验,涉及32辆智能导引车(IGV)在超大范围港口环境中累计2,856小时的操作数据。实验结果表明,我们的系统在大规模变化的室外环境中优于其他最先进的LiDAR定位系统。

[21] 用于户外城市场景的立体3D高斯点云SLAM
标题: Stereo 3D Gaussian Splatting SLAM for Outdoor Urban Scenes
作者: Xiaohan Li / Ziren Gong / Fabio Tosi / Matteo Poggi / Stefano Mattoccia / Dong Liu / Jun Wu
原文:   [英文]   [中文]  
备注: None
摘要:
3D 高斯散点(3DGS)由于其快速渲染和高保真度表示,最近在 SLAM 应用中获得了广泛关注。然而,现有的 3DGS-SLAM 系统主要集中在室内环境,并依赖于主动深度传感器,这在大规模户外应用中留下了空白。我们提出了 BGS-SLAM,这是第一个为户外场景设计的双目 3D 高斯散点 SLAM 系统。我们的方法仅使用 RGB 立体图像对,而不需要 LiDAR 或主动传感器。BGS-SLAM 利用预训练的深度立体网络的深度估计,通过多重损失策略来引导 3D 高斯优化,从而增强几何一致性和视觉质量。在多个数据集上的实验表明,BGS-SLAM 在复杂的户外环境中相比其他基于 3DGS 的解决方案,具有更优越的跟踪精度和建图性能。

[22] villa-X:增强视觉-语言-动作模型中的潜在动作建模
标题: villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models
作者: Xiaoyu Chen / Hangxing Wei / Pushi Zhang / Chuheng Zhang / Kaixin Wang / Yanjiang Guo / Rushuai Yang / Yucen Wang / Xinquan Xiao / Li Zhao / Jianyu Chen / Jiang Bian
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
视觉-语言-动作(VLA)模型已经成为学习机器人操作策略的一种流行范式,这些策略可以遵循语言指令并推广到新的场景。最近的工作开始探索将潜在动作(一种表示两个帧之间视觉变化的抽象表示)融入到VLA预训练中。在本文中,我们介绍了villa-X,这是一种新颖的视觉-语言-潜在动作(ViLLA)框架,推进了潜在动作建模以学习可推广的机器人操作策略。我们的方法改进了潜在动作的学习方式以及它们在VLA预训练中的整合方式。综合这些贡献,villa-X在包括SIMPLER和LIBERO的模拟环境中,以及在包括夹持器和灵巧手操作的两个现实世界的机器人设置中,均实现了卓越的性能。我们相信ViLLA范式具有显著的前景,而我们的villa-X为未来的研究提供了坚实的基础。

[23] 可扩展的多任务强化学习用于视觉运动智能体的可推广空间智能
标题: Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents
作者: Shaofei Cai / Zhancun Mu / Haiwen Xia / Bowei Zhang / Anji Liu / Yitao Liang
原文:   [英文]   [中文]  
备注: None
摘要:
尽管强化学习(RL)在语言建模方面取得了显著成功,但其在视觉运动体代理中的成功尚未完全实现。RL模型的一个主要挑战是它们倾向于对特定任务或环境过拟合,从而阻碍了在不同环境中获得可推广行为的能力。本文通过展示在Minecraft中经过RL微调的视觉运动体代理能够对未见过的世界实现零样本泛化,为这一挑战提供了初步答案。具体而言,我们探索了RL在增强3D世界中可推广的空间推理和交互能力方面的潜力。为了解决多任务RL表示中的挑战,我们分析并确立了跨视图目标规范作为视觉运动策略的统一多任务目标空间。此外,为了克服手动任务设计的重大瓶颈,我们在高度可定制的Minecraft环境中提出了自动化任务合成,用于大规模多任务RL训练,并构建了一个高效的分布式RL框架以支持这一点。实验结果表明,RL显著提高了交互成功率达4倍,并实现了空间推理在包括现实环境在内的多样环境中的零样本泛化。我们的研究结果强调了RL训练在3D模拟环境中的巨大潜力,特别是在那些适合大规模任务生成的环境中,能够显著提升视觉运动体代理的空间推理能力。

[24] 一种仿生物物理天线的设计,用于昆虫尺度的触觉感知和导航
标题: Design of a bioinspired robophysical antenna for insect-scale tactile perception and navigation
作者: Parker McDonnell / Lingsheng Meng / Hari Krishna Hariprasad / Alexander Hedrick / Eduardo Miscles / Samuel Gilinsky / Jean-Michel Mongeau / Kaushik Jayaram
原文:   [英文]   [中文]  
备注: None
摘要:
美洲蟑螂(Periplaneta americana)利用其柔软的触角,通过从数万个分布式机械传感器中提取丰富的触觉信息来指导决策。尽管触觉传感器在自然系统中能够实现稳健的自主感知和导航,但由于现有传感技术在尺寸、重量和功耗方面的严格限制,在昆虫规模的机器人中复制这些能力仍然具有挑战性。为克服这些限制,我们引入了CITRAS(蟑螂启发的触觉机器人触角传感器),这是一种仿生的、多段的、柔顺的层压传感器,内嵌电容角度传感器。CITRAS结构紧凑(73.7x15.6x2.1毫米)、重量轻(491毫克)、功耗低(32毫瓦),能够无缝集成到微型机器人平台中。分段的柔顺结构在响应环境刺激时被动弯曲,实现了高精度的铰链角度测量,最大误差仅为0.79度(准静态弯曲)和3.58度(动态弯曲)。实验评估展示了CITRAS的多功能触觉感知能力:以7.75%的误差预测从基部到尖端的距离,以6.73%的误差估计环境间隙宽度,并通过差异化传感器响应区分表面纹理。未来将这种仿生触觉触角集成到昆虫规模的机器人中,可以解决关键的感知空白,有望在复杂、狭窄的环境中增强自主探索、避障和环境映射能力。

[25] 用于认知水下机器人自主性的分布式人工智能代理
标题: Distributed AI Agents for Cognitive Underwater Robot Autonomy
作者: Markus Buchholz / Ignacio Carlucho / Michele Grimaldi / Yvan R. Petillot
原文:   [英文]   [中文]  
备注: None
摘要:
在复杂且不可预测的环境中实现机器人稳健的认知自主性仍然是机器人学的一个基本挑战。本文介绍了水下机器人自组织自主系统(UROSA),这是一种突破性的架构,利用分布式大型语言模型AI代理集成在机器人操作系统2(ROS 2)框架中,以实现自主水下航行器的高级认知能力。UROSA将认知去中心化为专门的AI代理,负责多模态感知、自适应推理、动态任务规划和实时决策。其核心创新包括灵活的代理动态适应其角色,利用向量数据库进行高效知识管理的检索增强生成,基于强化学习的行为优化,以及自主即时生成ROS 2节点以实现运行时功能扩展。广泛的实证验证表明,UROSA在模拟和现实世界部署的真实水下任务中展示了其有前途的适应性和可靠性,与传统的基于规则的架构相比,在处理不可预见的情境、环境不确定性和新颖的任务目标方面具有显著优势。这项工作不仅推进了水下自主性的发展,还建立了一个可扩展、安全且多功能的认知机器人框架,能够推广到各种现实世界的应用中。