scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.RO方向,2025年7月25日更新论文16
[1] PinchBot:使用引导扩散策略进行长时间可变形操控
标题: PinchBot: Long-Horizon Deformable Manipulation with Guided Diffusion Policy
作者: Alison Bartsch / Arvind Car / Amir Barati Farimani
原文:   [英文]   [中文]  
备注: None
摘要:
陶艺创作是一种复杂的艺术形式,需要灵巧、精确和细致的动作,将一块泥慢慢变形成一个有意义且通常有用的三维目标形状。在这项工作中,我们旨在创建一个机器人系统,该系统仅通过捏合动作即可实现简单的陶艺目标。这个捏合陶艺任务使我们能够探索一个高度多模态和长时间跨度的可变形操控任务的挑战。为此,我们提出了PinchBot,这是一种目标条件扩散策略模型,当与预训练的三维点云嵌入、任务进度预测和碰撞约束动作投影结合时,能够成功创建各种简单的陶艺目标。有关实验视频和演示数据集的访问,请访问我们的项目网站:this https URL。

[2] 非线性模型预测控制在安全移动机器人导航中的逐步指南
标题: A Step-by-step Guide on Nonlinear Model Predictive Control for Safe Mobile Robot Navigation
作者: Dennis Benders / Laura Ferranti / Johannes Köhler
原文:   [英文]   [中文]  
备注: 51 pages, 3 figures
摘要:
设计一种模型预测控制(MPC)方案,使移动机器人能够安全地穿越充满障碍物的环境,是机器人技术中一个复杂但至关重要的任务。在这份技术报告中,安全性指的是确保机器人在存在干扰和测量噪声的情况下,遵守状态和输入约束,同时避免与障碍物碰撞。该报告提供了一种逐步实施非线性模型预测控制(NMPC)方案的方法,以满足这些安全要求。许多书籍和综述论文对线性MPC(LMPC)\cite{bemporad2007robust,kouvaritakis2016model}、NMPC \cite{rawlings2017model,allgower2004nonlinear,mayne2014model,grune2017nonlinear,saltik2018outlook}及其在包括机器人技术在内的各个领域的应用进行了全面概述\cite{nascimento2018nonholonomic,nguyen2021model,shi2021advanced,wei2022mpc}。本报告并不旨在复制这些详尽的综述,而是专注于将NMPC作为安全移动机器人导航的基础。目标是提供从理论概念到数学证明和实施的实用且易于理解的路径,强调安全性和性能保证。它旨在为研究人员、机器人工程师和实践者提供桥接理论NMPC公式与现实世界机器人应用之间的差距的途径。本报告不一定会随着时间的推移而保持不变。如果有人发现所提出理论中的错误,请通过提供的电子邮件地址联系我们。如有必要,我们很乐意更新文档。

[3] OpenNav:使用多模态大型语言模型进行开放世界导航
标题: OpenNav: Open-World Navigation with Multimodal Large Language Models
作者: Mingfeng Yuan / Letian Wang / Steven L. Waslander
原文:   [英文]   [中文]  
备注: None
摘要:
预训练的大型语言模型(LLMs)在常识推理能力上表现出色,使其在机器人导航和规划任务中展现出潜力。然而,尽管最近取得了一些进展,在开放世界中将语言描述与实际机器人动作相结合,超越仅仅调用有限的预定义运动原语,仍然是一个未解决的挑战。在这项工作中,我们旨在使机器人能够解释和分解复杂的语言指令,最终合成一系列轨迹点,以完成在开放指令集和开放对象集下的多样化导航任务。我们观察到,多模态大型语言模型(MLLMs)在处理自由形式的语言指令时表现出强大的跨模态理解能力,展示了稳健的场景理解能力。更重要的是,利用其代码生成能力,MLLMs可以与视觉语言感知模型交互,生成组合的二维鸟瞰视图价值图,有效地将MLLMs的语义知识与地图中的空间信息相结合,以增强机器人的空间理解。为了进一步验证我们的方法,我们有效地利用大规模自动驾驶车辆数据集(AVDs)来验证我们提出的零样本视觉语言导航框架在户外导航任务中的有效性,展示了其在执行多样化的自由形式自然语言导航指令时的能力,同时保持对物体检测错误和语言歧义的鲁棒性。此外,我们在Husky机器人上验证了我们的系统在室内和室外场景中的表现,展示了其在现实世界中的鲁棒性和适用性。补充视频可在此https URL查看。

[4] 使用相对方位测量进行模块化机器人和地标定位
标题: Modular Robot and Landmark Localisation Using Relative Bearing Measurements
作者: Behzad Zamani / Jochen Trumpf / Chris Manzie
原文:   [英文]   [中文]  
备注: Submitted to RA-L
摘要:
在本文中,我们提出了一种模块化的非线性最小二乘滤波方法,用于由独立子系统组成的系统。即使在相对测量同时依赖于多个子系统的状态时,每个子系统的状态和误差协方差估计也能独立更新。我们将协方差交集(CI)算法集成到我们的解决方案中,以防止在子系统相互共享估计时出现信息重复计算。基于最小二乘估计的CI算法的另一种推导使这种集成成为可能。我们将所提出的方法具体应用于机器人-地标定位问题。在这个问题中,相对于移动机器人的SE(2)位姿测量的固定地标位置的方位角的噪声测量将机器人位姿和地标位置的估计问题耦合在一起。在随机模拟研究中,我们将所提出的模块化方法与单一的联合状态滤波器进行基准测试,以阐明它们各自的权衡。在这项研究中,我们还包括了所提出方法的变体,这些变体在减少通信和带宽需求的情况下实现了性能的优雅退化。

[5] 一种模块化残差学习框架以增强基于模型的方法实现稳健运动
标题: A Modular Residual Learning Framework to Enhance Model-Based Approach for Robust Locomotion
作者: Min-Gyu Kim / Dongyun Kang / Hajun Kim / Hae-Won Park
原文:   [英文]   [中文]  
备注: 8 pages, IEEE RA-L accepted (July 2025)
摘要:
本文提出了一种新颖的方法,将基于模型和基于学习的框架的优点结合起来,以实现稳健的运动。残差模块与基于模型的框架的每个相应部分集成,包括使用启发式设计的步态规划器和动态模型,以补充因模型不匹配导致的性能下降。通过利用模块化结构并为每个残差模块选择适当的基于学习的方法,我们的框架在高不确定性环境中表现出改进的控制性能,同时与基线方法相比实现了更高的学习效率。此外,我们观察到我们提出的方法不仅增强了控制性能,还提供了额外的好处,例如使名义控制器对参数调整更具鲁棒性。为了研究我们框架的可行性,我们在真实的四足机器人中展示了与模型预测控制结合的残差模块。尽管存在超出模拟的不确定性,机器人仍成功保持平衡并跟踪指令速度。

[6] 使用计算机视觉和卷积神经网络的自主无人机导航用于搜索和救援任务
标题: Autonomous UAV Navigation for Search and Rescue Missions Using Computer Vision and Convolutional Neural Networks
作者: Luka Šiktar / Branimir Ćaran / Bojan Šekoranja / Marko Švaco
原文:   [英文]  
备注: The paper is accepted and presented on the 34th International Conference on Robotics in Alpe-Adria-Danube Region, RAAD 2025, Belgrade Serbia
摘要:
在本文中,我们提出了一个使用无人机(UAV)的子系统,用于搜索和救援任务,重点在于人员检测、人脸识别和已识别个体的跟踪。所提出的解决方案将无人机与ROS2框架集成,利用多个卷积神经网络(CNN)进行搜索任务。系统识别和PD控制器的部署用于无人机的自主导航。ROS2环境利用YOLOv11和YOLOv11-pose CNN进行跟踪,并使用dlib库的CNN进行人脸识别。系统检测到特定个体后,执行人脸识别并开始跟踪。如果该个体尚未被识别,无人机操作员可以手动定位该人,保存其面部图像并立即启动跟踪过程。跟踪过程依赖于使用YOLOv11-pose CNN模型识别的人体特定关键点。这些关键点用于跟踪特定个体并保持安全距离。为了增强跟踪的准确性,基于无人机IMU的测量数据进行系统识别。识别出的系统参数用于设计PD控制器,该控制器利用YOLOv11-pose估计无人机摄像头与识别个体之间的距离。初步实验在14名已知个体上进行,结果表明所提出的子系统可以成功地实时使用。下一步涉及在大型实验无人机上实施该系统以用于实地,并将自主导航与GPS引导控制集成以进行救援行动规划。

[7] MoRPI-PINN:一种用于移动机器人纯惯性导航的物理信息框架
标题: MoRPI-PINN: A Physics-Informed Framework for Mobile Robot Pure Inertial Navigation
作者: Arup Kumar Sahoo / Itzik Klein
原文:   [英文]   [中文]  
备注: 9 pages, 5 figures
摘要:
在移动机器人实现完全自主的过程中,一个基本要求是在卫星导航或摄像头不可用的情况下仍能进行精确导航。在这种实际情况下,仅依赖惯性传感器会由于传感器固有的噪声和误差项导致导航解漂移。为减轻漂移问题,新兴的解决方案之一是让机器人以蛇形滑行的方式运动,以提高惯性信号的信噪比,从而回归移动机器人的位置。在这项工作中,我们提出了MoRPI-PINN,这是一种基于物理信息的神经网络框架,用于精确的基于惯性的移动机器人导航。通过在训练过程中嵌入物理定律和约束,MoRPI-PINN能够提供精确且稳健的导航解决方案。通过真实世界的实验,我们展示了与其他方法相比,精度提高了85%以上。MoRPI-PINN是一种轻量级的方法,即使在边缘设备上也可以实现,并可用于任何典型的移动机器人应用。

[8] 在手术环境中面部标志定位性能的评估
标题: Evaluation of facial landmark localization performance in a surgical setting
作者: Ines Frajtag / Marko Švaco / Filip Šuligoj
原文:   [英文]   [中文]  
备注: None
摘要:
机器人、计算机视觉及其应用在包括医学在内的各个领域的使用变得越来越普遍。许多面部检测算法已经在神经外科、眼科和整形外科中找到了应用。在使用这些算法时,一个常见的挑战是可变的光照条件和检测位置的灵活性,以识别和精确定位患者。所提出的实验在一个受控环境中测试了MediaPipe算法用于检测面部标志,使用一个机器人手臂在手术灯和模型保持固定位置的同时自动调整位置。研究结果表明,在手术灯光下,面部标志检测的精度提高显著增强了在较大偏航和俯仰角度下的检测性能。标准差/离散度的增加是由于选定面部标志检测不精确造成的。这一分析使得可以讨论将MediaPipe算法整合到医疗程序中的潜力。

[9] ReSem3D:通过细粒度语义基础实现可精炼的三维空间约束,以实现可推广的机器人操作
标题: ReSem3D: Refinable 3D Spatial Constraints via Fine-Grained Semantic Grounding for Generalizable Robotic Manipulation
作者: Chenyu Su / Weiwei Shang / Chen Qian / Fei Zhang / Shuang Cong
原文:   [英文]   [中文]  
备注: 12 pages,9 figures
摘要:
语义驱动的三维空间约束将高级语义表示与低级动作空间对齐,促进了机器人操作中任务理解与执行的统一。多模态大型语言模型(MLLMs)和视觉基础模型(VFMs)的协同推理使跨模态三维空间约束的构建成为可能。然而,现有方法存在三个主要局限性:(1)约束建模中的语义粒度较粗,(2)缺乏实时闭环规划,(3)在语义多样化环境中的鲁棒性受损。为了解决这些挑战,我们提出了ReSem3D,一个用于语义多样化环境的统一操作框架,利用VFMs和MLLMs之间的协同作用,实现细粒度的视觉定位,并动态构建分层的三维空间约束以进行实时操作。具体而言,该框架由MLLMs中的分层递归推理驱动,与VFMs交互,从自然语言指令和RGB-D观测中自动构建三维空间约束,分为两个阶段:部件级提取和区域级细化。随后,这些约束被编码为关节空间中的实时优化目标,使其能够对动态干扰做出反应。在语义丰富的家庭环境和稀疏的化学实验室环境中进行了广泛的模拟和实际实验。结果表明,ReSem3D在零样本条件下执行多样化的操作任务,表现出强大的适应性和泛化能力。代码和视频可在此https URL获取。

[10] 基于基础模型推理和部件定位的自适应关节物体即时操控
标题: Adaptive Articulated Object Manipulation On The Fly with Foundation Model Reasoning and Part Grounding
作者: Xiaojie Zhang / Yuanfei Wang / Ruihai Wu / Kunqi Xu / Yu Li / Liuyu Xiang / Hao Dong / Zhaofeng He
原文:   [英文]  
备注: ICCV 2025
摘要:
关节物体为机器人带来了多样的操作挑战。由于其内部结构不可直接观察,机器人必须自适应地探索和优化动作,以生成成功的操作轨迹。尽管现有工作尝试在自适应关节物体操作中实现跨类别泛化,但仍存在两个主要挑战:(1)现实世界中关节物体的几何多样性使视觉感知和理解变得复杂;(2)物体功能和机制的变化阻碍了统一自适应操作策略的发展。为了解决这些挑战,我们提出了AdaRPG,这是一种新颖的框架,利用基础模型提取物体部件,这些部件在局部几何上比整个物体更相似,从而增强了功能原语技能的视觉可供性泛化。为此,我们构建了一个部件级可供性标注数据集来训练可供性模型。此外,AdaRPG利用嵌入在基础模型中的常识来推理复杂机制,并基于部件可供性推断生成调用原语技能函数的高级控制代码。模拟和现实世界的实验表明,AdaRPG在新颖的关节物体类别中具有很强的泛化能力。

[11] AF-RLIO:雷达-激光雷达-惯性信息的自适应融合用于在挑战性环境中实现稳健的里程计
标题: AF-RLIO: Adaptive Fusion of Radar-LiDAR-Inertial Information for Robust Odometry in Challenging Environments
作者: Chenglong Qian / Yang Xu / Xiufang Shi / Jiming Chen / Liang Li
原文:   [英文]   [中文]  
备注: None
摘要:
在机器人导航中,保持精确的姿态估计和在复杂动态环境中的导航是至关重要的。然而,环境挑战如烟雾、隧道和恶劣天气会显著降低单一传感器系统(如LiDAR或GPS)的性能,从而影响自主机器人的整体稳定性和安全性。为了解决这些挑战,我们提出了AF-RLIO:一种自适应融合方法,该方法集成了4D毫米波雷达、LiDAR、惯性测量单元(IMU)和GPS,以利用这些传感器的互补优势,在复杂环境中实现稳健的里程计估计。我们的方法由三个关键模块组成。首先,预处理模块利用雷达数据协助LiDAR去除动态点,并确定LiDAR环境条件何时恶化。其次,动态感知多模态里程计选择合适的点云数据进行扫描到地图的匹配,并使用迭代误差状态卡尔曼滤波器与IMU紧密耦合。最后,因子图优化模块在里程计和GPS数据之间平衡权重,构建姿态图进行优化。该方法已在数据集上进行了评估,并在真实世界的机器人环境中进行了测试,展示了其在烟雾和隧道等挑战性条件下相较于现有方法的有效性和优势。

[12] G2S-ICP SLAM:几何感知的高斯喷溅ICP SLAM
标题: G2S-ICP SLAM: Geometry-aware Gaussian Splatting ICP SLAM
作者: Gyuhyeon Pak / Hae Min Cho / Euntai Kim
原文:   [英文]   [中文]  
备注: 8 pages, 6 figures
摘要:
在本文中,我们提出了一种新颖的几何感知RGB-D高斯喷溅SLAM系统,名为G2S-ICP SLAM。该方法通过使用约束在局部切平面上的高斯分布来表示每个场景元素,实现了高保真度的3D重建和实时的相机位姿跟踪。这种方法有效地将局部表面建模为与基础几何对齐的二维高斯圆盘,与传统的基于各向同性不确定性的三维椭球表示相比,在多个视点之间提供了更一致的深度解释。为了将这种表示集成到SLAM流程中,我们通过引入各向异性协方差先验,将表面对齐的高斯圆盘嵌入到广义ICP框架中,而不改变基础的配准公式。此外,我们提出了一种几何感知损失,用于监督光度、一致性深度和法线一致性。我们的系统在保持视觉和几何保真度的同时,实现了实时操作。在Replica和TUM-RGBD数据集上的大量实验表明,G2S-ICP SLAM在定位精度和重建完整性方面优于现有的SLAM系统,同时保持了渲染质量。

[13] 基于残差库普曼模型预测控制的小量轨道数据输入下的车辆动态增强
标题: Residual Koopman Model Predictive Control for Enhanced Vehicle Dynamics with Small On-Track Data Input
作者: Yonghao Fu / Cheng Hu / Haokun Xiong / Zhangpeng Bao / Wenyuan Du / Edoardo Ghignone / Michele Magno / Lei Xie / Hongye Su
原文:   [英文]   [中文]  
备注: None
摘要:
在车辆轨迹跟踪任务中,最简单的方法是纯追踪(PP)控制。然而,这种单点预瞄跟踪策略未能考虑车辆模型约束,从而影响驾驶安全。模型预测控制(MPC)作为一种广泛采用的控制方法,通过结合机械模型和物理约束来优化控制动作。然而,其控制性能在很大程度上依赖于车辆建模的准确性。传统的车辆建模方法在捕捉非线性动态和保持计算效率之间存在固有的权衡,往往导致控制性能下降。为了解决这些挑战,本文提出了残差库普曼模型预测控制(RKMPC)框架。该方法使用两个线性MPC架构来计算控制输入:线性模型预测控制(LMPC)基于车辆运动学模型计算基线控制输入,而基于神经网络的RKMPC计算补偿输入。最终的控制命令通过将这两个部分相加获得。该设计在保留传统机械模型的可靠性和可解释性的同时,通过残差建模实现性能优化。该方法已在Carsim-Matlab联合仿真平台和一个物理1:10比例的F1TENTH赛车上进行了验证。实验结果表明,RKMPC仅需传统库普曼模型预测控制(KMPC)所需训练数据的20%,同时提供了更优的跟踪性能。与传统LMPC相比,RKMPC将横向误差减少了11.7%-22.1%,将航向误差减少了8.9%-15.8%,并将前轮转向稳定性提高了多达27.6%。实现代码可在此https URL Koopman获取。

[14] 评估预穿戴步骤:通过模仿学习展开医用服装
标题: Evaluating the Pre-Dressing Step: Unfolding Medical Garments Via Imitation Learning
作者: David Blanco-Mulero / Júlia Borràs / Carme Torras
原文:   [英文]   [中文]  
备注: 6 pages, 4 figures, 2 tables. Accepted to IEEE/RSJ IROS 2025. Project website: this https URL
摘要:
机器人辅助穿衣在帮助患者和医护人员方面具有显著潜力,可以减少工作负担并提高临床环境中的效率。尽管在机器人穿衣辅助方面已经取得了实质性进展,但先前的工作通常假设衣物已经展开并可以使用。然而,在医疗应用中,长袍和围裙通常以折叠状态存放,需要额外的展开步骤。在本文中,我们引入了穿衣前步骤,即在辅助穿衣之前展开衣物的过程。我们利用模仿学习来学习三种操作原语,包括高加速度和低加速度的运动。此外,我们使用视觉分类器将衣物状态分类为闭合、部分打开和完全打开。我们对学习到的操作原语及其组合进行了实证评估。我们的结果表明,高动态运动对于展开新拆封的衣物并不有效,而运动的组合可以有效地增强打开配置。

[15] 一种用于高效路径规划的遥感机器人新型蒙特卡罗压缩感知与字典学习方法
标题: A Novel Monte-Carlo Compressed Sensing and Dictionary Learning Method for the Efficient Path Planning of Remote Sensing Robots
作者: Alghalya Al-Hajri / Ejmen Al-Ubejdij / Aiman Erbad / Ali Safa
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,压缩感知(Compressed Sensing, CS)作为一种利用比传统奈奎斯特采样所需更少的测量来获取高分辨率传感数据的技术,受到了广泛关注。同时,无人机和探测车等自主机器人平台已成为遥感和环境监测任务(包括温度、湿度和空气质量测量)的日益流行的工具。在此背景下,据我们所知,本文首次研究了如何利用CS测量矩阵的结构来设计优化的采样轨迹,以进行机器人环境数据采集。我们提出了一种新颖的蒙特卡罗优化框架,该框架生成的测量矩阵旨在最小化机器人行进路径长度和CS框架内的信号重建误差。我们的方法的核心是应用字典学习(Dictionary Learning, DL)来获得数据驱动的稀疏变换,从而提高重建精度,同时进一步减少机器人需要收集的样本数量。我们通过在海湾地区重建$NO_2$污染地图的实验展示了我们方法的有效性。结果表明,与基于DCT和多项式字典的传统CS方法相比,我们的方法可以将机器人行程距离减少到全覆盖路径的不到10%,同时将重建精度提高五倍以上,并且与先前提出的信息路径规划(Informative Path Planning, IPP)方法相比,精度提高了两倍。

[16] 类人机器人在任务加速度和任务力空间中的全身控制公式的实验比较
标题: Experimental Comparison of Whole-Body Control Formulations for Humanoid Robots in Task Acceleration and Task Force Spaces
作者: Sait Sovukluk / Grazia Zambella / Tobias Egle / Christian Ott
原文:   [英文]   [中文]  
备注: This paper has been accepted for publication in 2025 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2025). - Link to video: this https URL
摘要:
本文研究了两种不同的全身控制方法在类人机器人上的实验比较:逆动力学全身控制(ID-WBC)和基于耗散的全身控制(PB-WBC)。这两种控制器在根本上有所不同,前者是在任务加速度空间中进行的,而后者是在任务力空间中进行,并考虑了耗散性。尽管在理想条件下闭环动态中两种控制方法都预测了稳定性,但它们在关节摩擦、传感器噪声、未建模的外部干扰和不完美接触条件下的鲁棒性并不明显。因此,我们通过摆动脚位置和方向控制、负重深蹲(包括未建模的额外重量)以及跳跃,在类人机器人平台上分析并实验比较了这两种控制器。我们还将观察到的性能和特征差异与控制器的构造联系起来,并强调每种控制器的优缺点。