![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.RO方向,2025年7月15日更新论文45篇
|
[1] OTAS:用于户外分割的开放词汇标记对齐 标题: OTAS: Open-vocabulary Token Alignment for Outdoor Segmentation 作者: Simon Schwaiger / Stefan Thalhammer / Wilfried Wöber / Gerald Steinbauer-Wagner 原文: [英文] [中文] 备注: None 摘要: 理解开放世界语义对于机器人规划和控制至关重要,特别是在非结构化的户外环境中。当前的视觉-语言映射方法依赖于以物体为中心的分割先验,这在户外环境中由于语义模糊和不清晰的语义类别边界常常失效。我们提出了OTAS——一种用于户外分割的开放词汇标记对齐方法。OTAS通过直接从预训练视觉模型的输出标记中提取语义结构,克服了开放词汇分割模型的局限性。通过在单视图和多视图中聚类语义相似的结构并将其与语言结合,OTAS重建了一个几何一致的特征场,支持开放词汇分割查询。我们的方法无需场景特定的微调即可零样本运行,速度可达约17帧每秒。在Off-Road Freespace Detection数据集上,OTAS在细调和开放词汇2D分割方法上提供了轻微的IoU提升。我们的模型在TartanAir的3D分割中,相较于开放词汇映射方法,IoU提升高达151%。真实世界的重建展示了OTAS在机器人应用中的适用性。代码和ROS节点将在论文接受后公开。 |
[2] AirScape:一种具有运动可控性的空中生成世界模型 标题: AirScape: An Aerial Generative World Model with Motion Controllability 作者: Baining Zhao / Rongze Tang / Mingyuan Jia / Ziyou Wang / Fanghang Man / Xin Zhang / Yu Shang / Weichen Zhang / Chen Gao / Wei Wu / Xin Wang / Xinlei Chen / Yong Li 原文: [英文] [中文] 备注: None 摘要: 如何使机器人能够预测其自身运动意图在三维空间中的结果一直是具身智能中的一个基本问题。为了探索更通用的空间想象能力,我们在此提出了AirScape,这是第一个为六自由度空中代理设计的世界模型。AirScape基于当前的视觉输入和运动意图预测未来的观察序列。具体来说,我们构建了一个用于空中世界模型训练和测试的数据集,该数据集由11,000个视频-意图对组成。这个数据集包括第一人称视角的视频,捕捉了无人机在各种场景下的多样化动作,花费了超过1,000小时来标注相应的运动意图。然后,我们开发了一个两阶段的训练计划,将一个最初缺乏具身空间知识的基础模型训练成一个可以通过运动意图控制并遵循物理时空约束的世界模型。 |
[3] 通过众包车辆实现城市规模矢量化地图的端到端生成 标题: End-to-End Generation of City-Scale Vectorized Maps by Crowdsourced Vehicles 作者: Zebang Feng / Miao Fan / Bao Liu / Shengtong Xu / Haoyi Xiong 原文: [英文] [中文] 备注: Accepted by ITSC'25 摘要: 高精度矢量化地图对于自动驾驶至关重要,但传统的基于激光雷达的创建方法成本高且速度慢,而单车感知方法在精度和鲁棒性上不足,尤其是在不利条件下。本文介绍了EGC-VMAP,这是一种端到端的框架,通过聚合众包车辆的数据生成精确的城市级矢量化地图,从而克服了这些限制。与以往的方法不同,EGC-VMAP在统一的学习过程中,使用一种新颖的旅行感知Transformer架构,直接融合了车载车辆感知的多车、多时间的地图元素。结合分层匹配以实现高效训练和多目标损失,我们的方法在地图精度和结构鲁棒性方面显著优于单车基线。在一个大规模、多城市的真实数据集上验证,EGC-VMAP展示了卓越的性能,实现了城市范围内制图的可扩展、成本效益高的解决方案,并报告了人工标注成本减少90%。 |
[4] 智能路侧单元的多模态高清交叉路口地图构建 标题: Multimodal HD Mapping for Intersections by Intelligent Roadside Units 作者: Zhongzhang Chen / Miao Fan / Shengtong Xu / Mengmeng Yang / Kun Jiang / Xiangzeng Liu / Haoyi Xiong 原文: [英文] [中文] 备注: Accepted by ITSC'25 摘要: 高精度(HD)语义映射在复杂交叉路口中对传统的基于车辆的方法提出了重大挑战,原因在于遮挡和视角限制。本文介绍了一种新颖的摄像头-激光雷达融合框架,该框架利用了高架智能路侧单元(IRUs)。此外,我们提出了RS-seq,这是通过系统增强和注释V2X-Seq数据集而开发的综合数据集。RS-seq包括从路边设备收集的精确标记的摄像头图像和激光雷达点云,以及为七个交叉路口注释的详细特征(如车道分隔线、人行横道和停车线)的矢量化地图。该数据集有助于系统研究使用IRU数据进行高精度地图生成的跨模态互补性。所提出的融合框架采用两阶段过程,整合了模态特定的特征提取和跨模态语义集成,利用了摄像头的高分辨率纹理和激光雷达的精确几何数据。使用RS-seq数据集的定量评估表明,我们的多模态方法始终优于单模态方法。具体而言,与在RS-seq数据集上评估的单模态基线相比,多模态方法在语义分割的平均交并比(mIoU)上比仅图像结果提高了4%,比仅点云结果提高了18%。本研究为基于IRU的高精度语义映射建立了基线方法,并为未来在基础设施辅助自动驾驶系统中的研究提供了有价值的数据集。 |
[5] 通过机器人学习实现人类水平的灵巧性 标题: Towards Human-level Dexterity via Robot Learning 作者: Gagan Khandate 原文: [英文] [中文] 备注: PhD thesis 摘要: 灵巧智能——即使用多指手进行复杂交互的能力——是人类物理智能和高级认知技能的顶峰。然而,与莫拉维克悖论相反,人类的灵巧智能仅在表面上看似简单。人类的大脑和手,包括丰富的触觉感知,经过了数百万年的共同进化。实现具有机器人手的人类水平的灵巧性一直是机器人学的一个基本目标,并且代表了通用具身智能的一个关键里程碑。在这一追求中,计算传感运动学习取得了显著进展,使得诸如任意手内物体重新定向等壮举成为可能。然而,我们观察到,实现更高水平的灵巧性需要克服计算传感运动学习的非常基本的限制。 我开发了用于高度灵巧的多指操控的机器人学习方法,通过直接解决这些限制的根本原因。主要地,通过关键研究,本论文逐步建立了一个有效的框架,用于灵巧多指操控技能的强化学习。这些方法采用结构化探索,有效克服了强化学习中随机探索的局限性。获得的见解最终形成了一种高度有效的强化学习方法,该方法结合了基于采样的规划以进行直接探索。此外,本论文探索了一种使用视觉-触觉人类示范的新范式以实现灵巧性,并引入了相应的模仿学习技术。 |
[6] 在线三维装箱问题的快速稳定性验证与稳定重排规划 标题: Online 3D Bin Packing with Fast Stability Validation and Stable Rearrangement Planning 作者: Ziyan Gao / Lijun Wang / Yuntao Kong / Nak Young Chong 原文: [英文] [中文] 备注: None 摘要: 在线装箱问题(Online Bin Packing Problem, OBPP)是一种顺序决策任务,其中每个物品在到达时必须立即放置,并且对未来的到达情况一无所知。尽管最近的深度强化学习方法在体积利用率方面优于经典启发式方法,但学习到的策略无法确保箱子的结构稳定性,并且缺乏在新物品无法直接放置时安全重新配置箱子的机制。在这项工作中,我们提出了一个新颖的框架,将装箱策略与结构稳定性验证和启发式规划相结合,以克服这些限制。具体来说,我们引入了承载凸多边形(Load Bearable Convex Polygon, LBCP)的概念,这提供了一种计算效率高的方法来识别稳定的装载位置,确保箱子不会坍塌。此外,我们提出了稳定重排规划(Stable Rearrangement Planning, SRP)模块,该模块在保持整体稳定性的同时,重新排列现有物品以容纳新物品。在标准OBPP基准上的大量实验表明,我们基于LBCP的稳定性验证的效率和普适性,以及SRP在找到省力重排计划方面的优越性。我们的方法为现实世界工业和物流应用中的自动化装箱提供了一种稳健且实用的解决方案。 |
[7] 触觉-VLA:解锁视觉-语言-动作模型的物理知识以实现触觉泛化 标题: Tactile-VLA: Unlocking Vision-Language-Action Model's Physical Knowledge for Tactile Generalization 作者: Jialei Huang / Shuo Wang / Fanqi Lin / Yihang Hu / Chuan Wen / Yang Gao 原文: [英文] 备注: None 摘要: 视觉-语言-动作(VLA)模型在其视觉-语言组件的丰富隐性知识驱动下,已经取得了显著的成就。然而,实现通用的机器人代理需要在物理交互中进行精确的定位,特别是在接触丰富的场景中,细粒度的力控制至关重要。我们将VLA的隐性知识从识别“做什么”推进到指导“如何与现实世界进行物理交互”。本文介绍了一种新颖的框架——触觉-VLA,它深度融合了视觉、语言、动作和触觉感知。该框架结合了混合位置-力控制器,以将模型的意图转化为精确的物理动作,并包含一个推理模块,使机器人能够根据触觉反馈调整其策略。实验表明,触觉-VLA在三个关键方面的有效性和普遍性:(1)实现触觉感知的指令跟随,(2)利用与触觉相关的常识,(3)促进自适应的触觉参与推理。一个关键发现是,VLM的先验知识已经包含了对物理交互的语义理解;通过仅少量演示将其与机器人的触觉传感器连接,我们可以激活这种先验知识,以在接触丰富的任务中实现零样本泛化。 |
[8] PRAG:程序化动作生成器 标题: PRAG: Procedural Action Generator 作者: Michal Vavrecka / Radoslav Skoviera / Gabriela Sejnova / Karla Stepanova 原文: [英文] [中文] 备注: None 摘要: 我们提出了一种新颖的方法,用于在机器人领域中程序化构建多步骤的接触丰富的操作任务。我们的生成器以用户定义的原子动作、对象和空间谓词集合作为输入,并输出在选定的机器人环境中可解的特定长度的任务。生成器通过符号和物理验证来约束所有可能的(不可解的)组合,从而生成可解的任务。符号验证检查每个生成的序列的逻辑和操作一致性,以及对象-谓词关系的适用性。物理验证则检查任务是否可以在选定的机器人环境中解决。只有通过这两种验证的任务才会被保留。生成器的输出可以直接与任何现有的机器人操作任务训练框架对接,或者可以存储为一个经过精心策划的机器人任务数据集,其中包含关于每个任务的详细信息。这对于强化学习训练是有益的,因为每个子目标都有密集的奖励函数以及初始和目标状态。这使得用户可以测量所有生成任务的语义相似性。我们在多达15个动作的序列上测试了我们的生成器,结果产生了数百万个独特的可解多步骤任务。 |
[9] DLBAcalib:基于双LBA的非重叠LiDAR的鲁棒外参标定 标题: DLBAcalib: Robust Extrinsic Calibration for Non-Overlapping LiDARs Based on Dual LBA 作者: Han Ye / Yuqiang Jin / Jinyuan Liu / Tao Li / Wen-An Zhang / Minglei Fu 原文: [英文] [中文] 备注: 9 pages,14 figures 摘要: 多激光雷达系统的精确外参标定对于提高三维(3D)地图重建系统的基础性能至关重要。本文提出了一种新颖的无靶标多激光雷达系统外参标定框架,该框架不依赖于视场重叠或精确的初始参数估计。与传统的需要手动标注或特定参考图案的标定方法不同,我们的方法通过将激光雷达束调整(LBA)优化与稳健的迭代细化相结合,引入了一个统一的优化框架。所提出的方法通过目标激光雷达的连续扫描和滑动窗口激光雷达束调整构建了一个精确的参考点云地图,同时将外参标定表述为一个联合LBA优化问题。该方法通过自适应加权机制有效地减轻了累积映射误差,并实现了对异常值具有抵抗力的参数估计。在CARLA仿真环境和现实场景中的广泛评估表明,我们的方法在精度和鲁棒性方面优于最先进的标定技术。实验结果显示,对于非重叠的传感器配置,我们的框架实现了平均平移误差5毫米和旋转误差0.2°,初始误差容限可达0.4米/30°。此外,标定过程无需专门的基础设施或手动参数调整。代码是开源的,并可在GitHub上获取(\underline{this https URL})。 |
[10] 基于知情混合区域体的运动规划算法 标题: Informed Hybrid Zonotope-based Motion Planning Algorithm 作者: Peng Xie / Johannes Betz / Amr Alanwar 原文: [英文] [中文] 备注: None 摘要: 在非凸自由空间中进行最优路径规划是一个众所周知的挑战,因为将此类问题表述为混合整数线性规划(MILP)是NP难的。我们提出了一种名为HZ-MP的混合Zonotope运动规划器作为替代方法,该方法通过分解无障碍空间并进行低维面采样,由椭圆体启发式引导,从而在有希望的过渡区域进行重点探索。这种结构化探索消除了过度的、不可达的采样,这种采样在狭窄间隙或封闭目标场景中会降低现有的启发式规划器如AIT*和EIT*的性能。我们证明了HZ-MP在概率上是完备的,并且渐近最优。它能够在有限时间内收敛到近似最优轨迹,并且可以扩展到高维复杂场景。 |
[11] 统一线性参数化地图建模与感知感知的移动机器人轨迹规划 标题: Unified Linear Parametric Map Modeling and Perception-aware Trajectory Planning for Mobile Robotics 作者: Hongyu Nie / Xingyu Li / Xu Liu / Zhaotong Tan / Sen Mei / Wenbo Su 原文: [英文] [中文] 备注: Submitted to IEEE Transactions on Robotics (TRO) in July 2025 摘要: 在移动机器人自主导航中,依赖于感知和规划的过程在大规模、复杂环境中面临重大挑战。这些挑战包括映射的高计算负担、无人机的传感器遮挡失效,以及地面无人车在不规则地形上的行进困难,这些问题都因缺乏感知感知策略而加剧。为了解决这些挑战,我们引入了随机映射和随机投影(RMRP)方法。该方法通过首先将数据映射到高维空间,然后进行稀疏随机投影以实现降维,从而构建一个轻量级的线性参数化地图。我们新提出的残差能量保留定理为这一过程提供了理论保证,确保关键的几何特性得以保留。基于此地图,我们提出了RPATR(鲁棒感知感知轨迹规划器)框架。对于无人机,我们的方法统一了网格和欧几里得符号距离场(ESDF)地图。前端使用解析占用梯度来优化初始路径的安全性和平滑性,而后端则使用闭式ESDF进行轨迹优化。利用训练好的RMRP模型的泛化能力,规划器可以预测未观测区域以进行主动导航。对于地面无人车,该模型表征地形并提供闭式梯度,使得在线规划能够绕过大洞。在各种场景中验证,我们的框架在时间、内存和准确性方面展示了卓越的映射性能,并实现了高效、安全的高速无人机和地面无人车导航。代码将被发布以促进社区合作。 |
[12] C-ZUPT:静止辅助的空中悬停 标题: C-ZUPT: Stationarity-Aided Aerial Hovering 作者: Daniel Engelsman / Itzik Klein 原文: [英文] [中文] 备注: 14 Pages, 16 Figures, 9 Tables 摘要: 各个领域的自主系统强调了抗漂移状态估计的必要性。尽管基于卫星的定位和摄像头被广泛使用,但在许多环境中它们的可用性往往有限。因此,定位必须完全依赖惯性传感器,这会由于传感器偏差和噪声导致精度迅速下降。为了解决这个问题,替代的更新来源——称为信息辅助——作为确定性的锚点。其中,零速度更新(ZUPT)在静止间隔期间提供准确校正方面特别有效,尽管它仅限于地面平台。本文介绍了一种用于空中导航和控制的受控ZUPT(C-ZUPT)方法,该方法不依赖于地面接触。通过定义不确定性阈值,C-ZUPT识别准静态平衡状态,以向估计滤波器提供精确的速度更新。广泛的验证证实,这些机会性、高质量的更新显著减少了惯性漂移和控制努力。因此,C-ZUPT减轻了滤波器发散并增强了导航稳定性,使得悬停更加节能,并大大延长了持续飞行时间——这是资源受限的空中系统的关键优势。 |
[13] 在任务最优性下从不完美示范中进行约束风格学习 标题: Constrained Style Learning from Imperfect Demonstrations under Task Optimality 作者: Kehan Wen / Chenhao Li / Junzhe He / Marco Hutter 原文: [英文] [中文] 备注: This paper is under review 摘要: 从示范中学习已被证明在机器人领域中有效地获取自然行为,例如风格化动作和逼真的敏捷性,特别是在明确定义风格导向的奖励函数具有挑战性时。为现实世界任务合成风格化动作通常需要在任务表现和模仿质量之间取得平衡。现有方法通常依赖于与任务目标紧密对齐的专家示范。然而,实际示范往往不完整或不现实,导致当前方法在提升风格的同时牺牲任务表现。为了解决这个问题,我们提出将问题表述为一个约束马尔可夫决策过程(CMDP)。具体来说,我们在保持接近最优任务表现的约束下优化风格模仿目标。我们引入了一种自适应可调的拉格朗日乘数,引导代理选择性地模仿示范,捕捉风格细微差别而不影响任务表现。我们在多个机器人平台和任务上验证了我们的方法,展示了稳健的任务表现和高保真的风格学习。在ANYmal-D硬件上,我们展示了机械能耗降低14.5%和更敏捷的步态模式,展现了现实世界的优势。 |
[14] 通过点云引导的基于能量扩散和势场的实时自适应运动规划 标题: Real-Time Adaptive Motion Planning via Point Cloud-Guided, Energy-Based Diffusion and Potential Fields 作者: Wondmgezahu Teshome / Kian Behzad / Octavia Camps / Michael Everett / Milad Siami / Mario Sznaier 原文: [英文] [中文] 备注: Accepted to IEEE RA-L 2025 摘要: 受追逃问题的启发,我们提出了一种运动规划框架,该框架结合了基于能量的扩散模型和人工势场,以在复杂环境中实现稳健的实时轨迹生成。我们的方法直接从点云中处理障碍信息,从而实现高效规划,而无需完整的几何表示。该框架采用无分类器指导训练,并在采样过程中整合局部势场以增强障碍规避能力。在动态场景中,系统使用扩散模型生成初始轨迹,并通过基于势场的适应性不断优化轨迹,展示了在追逃场景中具有部分追踪者可观测性的有效性能。 |
[15] 静态和动态下洗相互作用对多旋翼系统的影响 标题: Influence of Static and Dynamic Downwash Interactions on Multi-Quadrotor Systems 作者: Anoop Kiran / Nora Ayanian / Kenneth Breuer 原文: [英文] 备注: Accepted for publication in Robotics: Science and Systems (RSS) 2025, 12 pages, 16 figures 摘要: 在近距离飞行多架四旋翼无人机是一项重大挑战,因为复杂的空气动力学相互作用,特别是下洗效应,已知会导致飞行器不稳定并降低性能。传统上,多四旋翼系统依赖保守策略,例如在机器人体积周围设置避碰区,以规避这种效应。这种方法限制了它们的能力,因为需要较大的空间来操作多四旋翼系统,从而限制了它们在密集环境中的适用性。本文提供了对下洗效应的全面数据驱动分析,重点在于表征、分析和理解单个和多个四旋翼配置中的力、力矩和速度。我们通过测量力和力矩来表征飞行器的相互作用,并使用粒子图像测速(PIV)来量化单个四旋翼和相互作用的四旋翼对的下洗尾流的空间特征。这些数据可用于为协调提供基于物理的策略信息,利用下洗效应优化编队,扩大操作范围,并提高多四旋翼控制的鲁棒性。 |
[16] 无人机(UAV)数据驱动建模软件:集成9轴IMU/GPS传感器融合与数据滤波算法 标题: Unmanned Aerial Vehicle (UAV) Data-Driven Modeling Software with Integrated 9-Axis IMUGPS Sensor Fusion and Data Filtering Algorithm 作者: Azfar Azdi Arfakhsyad / Aufa Nasywa Rahman / Larasati Kinanti / Ahmad Ataka Awwalur Rizqi / Hannan Nur Muhammad 原文: [英文] 备注: 7 pages, 13 figures. Accepted to IEEE ICITEE 2023 摘要: 无人机(UAV)作为多功能平台已经出现,推动了对准确建模的需求以支持开发测试。本文提出了一种用于无人机的数据驱动建模软件。强调利用成本效益高的传感器获取方向和位置数据,随后通过应用数据过滤算法和传感器融合技术处理这些数据,以提高数据质量,从而在软件上实现精确的模型可视化。无人机的方向是通过处理后的惯性测量单元(IMU)数据获得的,并使用四元数表示来避免万向节锁定问题。无人机的位置是通过结合全球定位系统(GPS)数据和加速度计数据来确定的,GPS提供稳定的地理坐标但数据更新频率较慢,而加速度计具有较高的数据更新频率,但由于累积误差,将其积分以获得位置数据是不稳定的。通过结合这两个传感器的数据,软件能够在无人机飞行操作期间计算并持续更新其实时位置。结果表明,该软件能够以高精度和流畅度有效呈现无人机的方向和位置。 |
[17] mmE-Loc:利用超高频定位促进无人机精准降落 标题: mmE-Loc: Facilitating Accurate Drone Landing with Ultra-High-Frequency Localization 作者: Haoyang Wang / Jingao Xu / Xinyu Luo / Ting Zhang / Xuecheng Chen / Ruiyang Duan / Jialong Chen / Yunhao Liu / Jianfeng Zheng / Weijie Hong / Xinlei Chen 原文: [英文] [中文] 备注: 17 pages, 34 figures. arXiv admin note: substantial text overlap with arXiv:2502.14992 摘要: 为了实现精确、高效和安全的无人机降落,地面平台应实时、准确地定位下降的无人机并引导其到达指定位置。虽然毫米波传感与摄像头结合可以提高定位精度,但传统帧摄像头的采样频率低于毫米波雷达,导致系统吞吐量的瓶颈。在这项工作中,我们将传统帧摄像头升级为事件摄像头,这是一种新型传感器,其采样频率与地面平台设置中的毫米波雷达相协调,并引入了mmE-Loc,这是一种为精确无人机降落而设计的高精度、低延迟地面定位系统。为了充分利用这两种模式之间的\textit{时间一致性}和\textit{空间互补性},我们提出了两个创新模块:\textit{(i)} 一致性指导的协同跟踪模块,该模块进一步利用无人机的周期性微运动和结构的物理知识来提取准确的测量值,以及\textit{(ii)} 图信息自适应联合优化模块,该模块整合无人机运动信息以实现高效的传感器融合和无人机定位。在与一家无人机配送公司合作的降落场景中进行的真实实验表明,mmE-Loc在精度和延迟方面显著优于最先进的方法。 |
[18] TruckV2X:以卡车为中心的感知数据集 标题: TruckV2X: A Truck-Centered Perception Dataset 作者: Tenghui Xie / Zhiying Song / Fuxi Wen / Jun Li / Guangzhao Liu / Zijian Zhao 原文: [英文] [中文] 备注: None 摘要: 自动驾驶卡车提供了显著的优势,例如提高安全性和降低成本,但由于卡车体积庞大和拖车动态运动,面临着独特的感知挑战。这些挑战包括广泛的盲区和遮挡,妨碍卡车的感知能力以及其他道路使用者的能力。为了解决这些限制,协同感知成为一种有前景的解决方案。然而,现有的数据集主要以轻型车辆交互为主,或缺乏重型车辆场景的多主体配置。为弥补这一差距,我们引入了TruckV2X,这是第一个以卡车为中心的大规模协同感知数据集,具有多模态传感(LiDAR和摄像头)和多主体合作(牵引车、拖车、联网自动驾驶车辆和路侧单元)。我们进一步研究了卡车如何影响协同感知需求,建立了性能基准,并为重型车辆感知研究提出了优先事项。该数据集为开发具有增强遮挡处理能力的协同感知系统奠定了基础,并加速了多主体自动驾驶卡车系统的部署。TruckV2X数据集可在此HTTPS URL获取。 |
[19] 自动驾驶车辆的集成预测与规划的自监督预训练 标题: Self-supervised Pretraining for Integrated Prediction and Planning of Automated Vehicles 作者: Yangang Ren / Guojian Zhan / Chen Lv / Jun Li / Fenghua Liang / Keqiang Li 原文: [英文] [中文] 备注: None 摘要: 预测周围代理的未来并据此规划安全、目标导向的轨迹对于自动驾驶车辆至关重要。目前的方法通常依赖模仿学习来优化针对真实数据的指标,往往忽视了场景理解如何能够实现更全面的轨迹。在本文中,我们提出了Plan-MAE,一种利用掩码自动编码器的统一预训练框架,用于预测和规划。Plan-MAE通过三个专门任务融合关键的上下文理解:重建被掩盖的道路网络以学习空间关联,代理轨迹以模拟社会互动,以及导航路线以捕捉目的地意图。为了进一步协调车辆动态和安全约束,我们引入了一个局部子规划任务,预测自车在早期轨迹段条件下的近期轨迹段。这个预训练模型随后在下游任务中进行微调,以联合生成预测和规划轨迹。大规模数据集上的实验表明,Plan-MAE在规划指标上大幅优于当前方法,并可以作为基于学习的运动规划器的重要预训练步骤。 |
[20] 关于神经膜电位泄漏在基于LIDAR的机器人障碍物规避中使用脉冲神经网络的重要性 标题: On the Importance of Neural Membrane Potential Leakage for LIDAR-based Robot Obstacle Avoidance using Spiking Neural Networks 作者: Zainab Ali / Lujayn Al-Amir / Ali Safa 原文: [英文] [中文] 备注: None 摘要: 近年来,由于脉冲神经网络(SNNs)在神经形态硬件中实现时具有高精度且低内存和计算复杂度的推理能力,神经形态计算在机器人应用中受到了广泛关注。这种能力使得SNNs非常适合用于自主机器人应用(如无人机和探测车),因为这些应用通常受到电池资源和载荷的限制。在此背景下,本文研究了使用SNNs直接从LIDAR数据进行机器人导航和障碍物规避。我们设置了一个配备LIDAR的定制机器人平台,用于收集LIDAR传感数据的标记数据集,以及用于障碍物规避的人类操作机器人控制命令。重要的是,本文提供了据我们所知的首次关于神经膜泄漏对SNN在处理LIDAR数据进行障碍物规避时精度的重要性进行的集中研究。研究表明,通过仔细调整我们SNN中使用的脉冲泄漏积分-发火(LIF)神经元的膜电位泄漏常数,可以实现与使用非脉冲卷积神经网络(CNN)相当的机器人控制精度。最后,我们在此工作中收集的LIDAR数据集作为开源发布,希望能为未来的研究带来益处。 |
[21] IteraOptiRacing:一种用于实时自动驾驶赛车的统一规划控制框架,以实现迭代的最佳性能 标题: IteraOptiRacing: A Unified Planning-Control Framework for Real-time Autonomous Racing for Iterative Optimal Performance 作者: Yifan Zeng / Yihan Li / Suiyi He / Koushil Sreenath / Jun Zeng 原文: [英文] [中文] 备注: None 摘要: 本文提出了一种在自动驾驶赛车环境中与其他赛车竞争的统一规划控制策略,称为IteraOptiRacing。该统一策略基于迭代任务的迭代线性二次调节器(i2LQR),可以在周围赛车障碍物存在的情况下提高圈速表现。通过迭代使用自车的历史数据,该统一策略同时考虑了多个移动车辆的障碍物规避和时间成本优化,从而生成无碰撞且时间最优的轨迹。该算法的恒定低计算负担和对并行计算的适用性使其能够在竞争激烈的赛车场景中实现实时操作。为了验证其性能,在高保真模拟器中进行了多辆随机生成的动态代理车辆的模拟。结果表明,该策略在所有随机生成的自动驾驶赛车场景中均优于现有方法,使自赛车能够实现更好的操控。 |
[22] 使用蘑菇体电路和学习行走进行户外机器人视觉归巢 标题: Visual Homing in Outdoor Robots Using Mushroom Body Circuits and Learning Walks 作者: Gabriel G. Gattaux / Julien R. Serres / Franck Ruffier / Antoine Wystrach 原文: [英文] [中文] 备注: Published by Springer Nature with the 14th bioinspired and biohybrid systems conference in Sheffield, and presented at the conference in July 2025 摘要: 蚂蚁通过极少的感官输入和仅仅几次学习行走实现了稳健的视觉归巢,这为自主导航的仿生解决方案提供了灵感。尽管蘑菇体(MB)模型已被用于机器人路径跟随,但尚未应用于视觉归巢。我们首次在一个紧凑的类汽车自主机器人上实现了用于视觉归巢的侧化蘑菇体架构。我们测试了角度路径积分(PI)信号的符号是否可以将全景视图(在学习行走中获取并编码在MB中)分类为“目标在左”和“目标在右”的记忆库,从而在自然户外环境中实现稳健的归巢。我们通过四个渐进的实验验证了这一方法:(1)模拟显示吸引子样的巢穴动态;(2)在解耦的学习行走后进行真实世界的归巢,产生巢穴搜索行为;(3)在使用GPS-RTK模拟的噪声PI进行随机行走后的归巢;以及(4)通过第五个MB输出神经元(MBON)编码目标视图以控制速度,实现精确的目标停止行为。这模仿了蚂蚁的精确归巢行为,并在功能上类似于机器人中的基于航点的位置控制,尽管仅依赖于视觉输入。我们的系统在Raspberry Pi 4上以8 Hz的频率运行,使用32x32像素的视图,内存占用不到9 kB,提供了一种生物学基础的、资源高效的自主视觉归巢解决方案。 |
[23] 用于运动规划的多模态预测主动探测 标题: Active Probing with Multimodal Predictions for Motion Planning 作者: Darshan Gadginmath / Farhad Nawaz / Minjun Sung / Faizan M Tariq / Sangjae Bae / David Isele / Fabio Pasqualetti / Jovin Dsa 原文: [英文] [中文] 备注: To appear at IROS '25. 8 pages. 3 tables. 6 figures 摘要: 在动态环境中进行导航需要自主系统对其他代理的行为不确定性进行推理。在本文中,我们介绍了一个统一的框架,该框架将轨迹规划与多模态预测和主动探测相结合,以增强在不确定性下的决策能力。我们开发了一种新颖的风险度量,该度量通过混合模型无缝集成多模态预测的不确定性。当这些不确定性遵循高斯混合分布时,我们证明了我们的风险度量具有闭式解,并且始终是有限的,从而确保了分析的可处理性。为了减少预测的模糊性,我们引入了一种主动探测机制,该机制战略性地选择行动以改善对其他代理行为参数的估计,同时处理多模态不确定性。我们在使用MetaDrive模拟环境的自主导航场景中对我们的框架进行了广泛评估。结果表明,我们的主动探测方法成功地在预测不确定的复杂交通场景中进行导航。此外,我们的框架在各种交通代理行为模型中表现出强大的性能,表明其在现实世界自主导航挑战中的广泛适用性。代码和视频可在此https URL获取。 |
[24] 多残差专家混合学习在多车辆系统中的协同控制 标题: Multi-residual Mixture of Experts Learning for Cooperative Control in Multi-vehicle Systems 作者: Vindula Jayawardana / Sirui Li / Yashar Farid / Cathy Wu 原文: [英文] [中文] 备注: None 摘要: 自动驾驶车辆(AVs)正变得越来越普及,其应用范围不仅仅局限于交通工具,还扩展为交通流的移动执行器,以控制流动动态。这与传统的固定位置执行器(如交通信号灯)形成对比,被称为拉格朗日交通控制。然而,为自动驾驶车辆设计能够在各种交通场景中通用的有效拉格朗日交通控制策略是一个重大挑战。现实世界的交通环境高度多样化,开发能够在如此多样化的交通场景中稳健表现的策略具有挑战性。这一问题因交通系统的多智能体性质、参与者之间的混合动机以及在严格的物理和外部约束下的冲突优化目标的共同复杂性而更加复杂。为了解决这些挑战,我们引入了多残差专家混合学习(MRMEL),这是一种用于拉格朗日交通控制的新框架,通过学习残差来增强给定的次优名义策略,同时明确考虑交通场景空间的结构。特别地,MRMEL从残差强化学习中汲取灵感,通过学习残差修正来增强次优名义自动驾驶车辆控制策略,同时根据交通场景动态选择最合适的名义策略,该策略从一组名义策略中选择,并被建模为专家混合。我们使用亚特兰大、达拉斯-沃斯堡和盐湖城的信号交叉口合作生态驾驶的案例研究验证了MRMEL,使用基于真实世界数据的交通场景。结果表明,MRMEL始终表现出优越的性能——在每种设置中相对于最强基线实现了额外的4%-9%的车辆总排放量减少。 |
[25] AdvGrasp:从物理角度对机器人抓取的对抗性攻击 标题: AdvGrasp: Adversarial Attacks on Robotic Grasping from a Physical Perspective 作者: Xiaofei Wang / Mingliang Han / Tianyu Hao / Cegang Li / Yunbo Zhao / Keke Tang 原文: [英文] [中文] 备注: IJCAI'2025 摘要: 对机器人抓取的对抗性攻击为评估和提高这些系统的鲁棒性提供了宝贵的见解。与仅关注神经网络预测而忽视抓取物理原理的研究不同,本文介绍了AdvGrasp,这是一种从物理角度对机器人抓取进行对抗性攻击的框架。具体来说,AdvGrasp针对两个核心方面:提升能力,即评估对抗重力提升物体的能力,以及抓取稳定性,即评估对外部干扰的抵抗能力。通过改变物体的形状以增加重力矩并减少在扳手空间中的稳定性裕度,我们的方法系统性地降低了这两个关键的抓取指标,生成了损害抓取性能的对抗性物体。跨多种场景的大量实验验证了AdvGrasp的有效性,而现实世界的验证则展示了其鲁棒性和实际适用性。 |
[26] 通过同伦路径的混合优化定制谐波势场 标题: Customize Harmonic Potential Fields via Hybrid Optimization over Homotopic Paths 作者: Shuaikang Wang / Tiecheng Guo / Meng Guo 原文: [英文] [中文] 备注: accepted to IEEE RA-L 摘要: 在工作空间内安全导航是自主机器人完成更复杂任务的一项基本技能。谐波势是人工势场,具有解析性、全局收敛性,并且可以证明没有局部极小值。因此,它被广泛用于生成安全可靠的机器人导航控制策略。然而,大多数现有方法不允许定制谐波势场或生成路径,特别是在其拓扑性质方面。在本文中,我们提出了一种新方法,该方法能够自动找到可以由有效谐波势场生成的路径的同伦类。所考虑的复杂工作空间可以像由众多重叠星形障碍物组成的森林世界一样广泛。该方法基于一种混合优化算法,该算法在同伦类上进行搜索,选择森林中每个星形树的结构,并通过投影梯度下降优化每个净化树的连续权重参数。关键的见解是通过适当的微分同胚变换将森林世界转化为无界点世界。这不仅有助于更简单地设计非同伦路径之间的多方向D签名,还保留了安全性和收敛性。在非平凡场景中进行了广泛的模拟和硬件实验,其中导航势根据所需的同伦性质进行了定制。项目页面:this https URL。 |
[27] 展示Octopi-1.5视觉-触觉-语言模型 标题: Demonstrating the Octopi-1.5 Visual-Tactile-Language Model 作者: Samson Yu / Kelvin Lin / Harold Soh 原文: [英文] [中文] 备注: Published at R:SS 2025 摘要: 触觉被认为是人类的重要感官,对于机器人来说同样重要,尤其是在灵巧操作、材料识别以及涉及视觉遮挡的场景中。基于最近在触觉基础模型方面的工作,这次演示将展示我们的最新视觉-触觉-语言模型Octopi-1.5。与其前身相比,Octopi-1.5引入了处理来自多个物体部位的触觉信号的能力,并采用了一个简单的检索增强生成(RAG)模块,以提高任务性能,并有可能即时学习新物体。用户可以通过一个新的手持触觉接口TMI现场体验该系统,该接口配备了GelSight和TAC-02触觉传感器。这种方便易用的设置允许用户在不需要机器人的情况下与Octopi-1.5互动。在演示过程中,我们将展示Octopi-1.5如何通过利用触觉输入和常识知识解决触觉推理任务。例如,在一个猜谜游戏中,Octopi-1.5将识别被抓住的物体,并对如何处理它的后续问题作出回应(例如,建议对软水果小心处理)。我们还计划通过教授新物品来展示Octopi-1.5的RAG能力。通过现场互动,此次演示旨在突出像Octopi-1.5这样的视觉-触觉-语言模型的进展和局限性,并激发对这一令人兴奋领域的进一步兴趣。Octopi-1.5的代码和TMI夹持器的设计文件可在此https URL获取。 |
[28] 阿里尔探索:基于视觉的水下探测与检查,通过通用无人机级自主性 标题: Ariel Explores: Vision-based underwater exploration and inspection via generalist drone-level autonomy 作者: Mohit Singh / Mihir Dharmadhikari / Kostas Alexis 原文: [英文] [中文] 备注: Presented at the 2025 IEEE ICRA Workshop on Field Robotics 摘要: 本文提出了一种基于视觉的水下探索和检查自主解决方案,并将其集成到定制的视觉驱动水下机器人Ariel中。Ariel配备了一个由5个摄像头和IMU组成的传感套件,支持一种考虑折射的多摄像头视觉惯性状态估计方法,并辅以基于学习的本体感知机器人速度预测方法,以增强在视觉退化情况下的鲁棒性。此外,我们之前开发并经过广泛实地验证的自主探索和通用视觉检查解决方案也集成到了Ariel中,实现了水下的空中无人机级别的自主性。该系统在特隆赫姆的一个潜艇干船坞中进行了实地测试,面对具有挑战性的视觉条件。实地演示显示了状态估计解决方案的鲁棒性以及路径规划技术在不同机器人实现中的普适性。 |
[29] 使用进化策略微调深度强化学习策略以控制欠驱动机器人 标题: Finetuning Deep Reinforcement Learning Policies with Evolutionary Strategies for Control of Underactuated Robots 作者: Marco Calì / Alberto Sinigaglia / Niccolò Turcato / Ruggero Carli / Gian Antonio Susto 原文: [英文] 备注: None 摘要: 深度强化学习(RL)已成为解决复杂控制问题的强大方法,特别是那些涉及欠驱动机器人系统的问题。然而,在某些情况下,策略可能需要进行优化,以实现与特定任务目标一致的最佳性能和鲁棒性。在本文中,我们提出了一种使用进化策略(ES)微调深度RL策略的方法,以增强欠驱动机器人的控制性能。我们的方法首先使用软演员评论家(SAC)通过一个代理奖励函数训练RL代理,该函数旨在近似复杂的特定评分指标。随后,我们通过使用可分自然进化策略(SNES)的零阶优化步骤来优化这个学习到的策略,直接针对原始评分进行优化。在IROS 2024的第二届AI奥林匹克与RealAIGym的背景下进行的实验评估表明,我们的进化微调显著提高了代理的性能,同时保持了高鲁棒性。最终的控制器优于既定的基线,在竞赛任务中取得了具有竞争力的分数。 |
[30] MP-RBFN:基于径向基函数网络的车辆运动基元学习 标题: MP-RBFN: Learning-based Vehicle Motion Primitives using Radial Basis Function Networks 作者: Marc Kaufeld / Mattia Piccinini / Johannes Betz 原文: [英文] [中文] 备注: 8 pages, Submitted to the IEEE International Conference on Intelligent Transportation Systems (ITSC 2025), Australia 摘要: 本研究介绍了MP-RBFN,这是一种新颖的公式化方法,利用径向基函数网络(RBFN)高效学习从自动驾驶的最优控制问题中导出的运动基元。传统的基于优化的运动规划方法虽然精确,但计算成本往往过高。相比之下,基于采样的方法表现出高性能,但对轨迹的几何形状施加了限制。MP-RBFN通过结合基于采样的方法的高保真轨迹生成与车辆动力学的精确描述,结合了两者的优势。实验证明,与以往方法相比,MP-RBFN在低推理时间内实现了对运动基元的精确描述,表现出令人信服的性能。与现有的半解析方法相比,MP-RBFN在生成优化运动基元方面的准确性提高了七倍。我们通过将该方法集成到基于采样的轨迹规划器中,展示了MP-RBFN在运动规划中的实际应用。MP-RBFN作为开源软件在此https URL上可用。 |
[31] 使用轻量级深度学习在实时机器人系统中进行协作机器人手势识别 标题: Hand Gesture Recognition for Collaborative Robots Using Lightweight Deep Learning in Real-Time Robotic Systems 作者: Muhtadin / I Wayan Agus Darmawan / Muhammad Hilmi Rusydiansyah / I Ketut Eddy Purnama / Chastine Fatichah / Mauridhi Hery Purnomo 原文: [英文] 备注: None 摘要: 直接和自然的互动对于直观的人机协作至关重要,这样可以消除对操纵杆、平板电脑或可穿戴传感器等额外设备的需求。在本文中,我们提出了一种基于深度学习的轻量级手势识别系统,使人类能够自然高效地控制协作机器人。该模型仅用1,103个参数和22 KB的紧凑体积识别出八种不同的手势,准确率达到93.5%。为了进一步优化模型以便在边缘设备上进行实际部署,我们使用TensorFlow Lite进行了量化和剪枝,将最终模型大小减少到仅7 KB。该系统已成功在基于ROS2的实时机器人框架中实现并测试于Universal Robot UR5协作机器人。结果表明,即使是极其轻量级的模型也能为协作机器人提供准确且响应迅速的基于手势的控制,为在受限环境中的自然人机互动开辟了新的可能性。 |
[32] TGLD:一种面向异构交通中自动驾驶车辆的信任感知博弈论换道决策框架 标题: TGLD: A Trust-Aware Game-Theoretic Lane-Changing Decision Framework for Automated Vehicles in Heterogeneous Traffic 作者: Jie Pan / Tianyi Wang / Yangyang Wang / Junfeng Jiao / Christian Claudel 原文: [英文] 备注: 6 pages, 7 figures, accepted for IEEE International Conference on Intelligent Transportation Systems (ITSC) 2025 摘要: 自动驾驶车辆(AVs)在异质交通环境中面临着采用社会兼容行为并与人类驾驶车辆(HVs)有效合作的关键需求。然而,大多数现有的换道框架忽视了HVs的动态信任水平,限制了它们准确预测人类驾驶员行为的能力。为了解决这一问题,本研究提出了一种信任感知的博弈论换道决策(TGLD)框架。首先,我们构建了一个多车辆联盟博弈,结合了AVs之间的完全合作互动和基于实时信任评估的HVs的部分合作行为。其次,我们开发了一种在线信任评估方法,以动态估计HVs在换道互动中的信任水平,引导AVs选择适合情境的合作动作。最后,通过最小化对周围车辆的干扰和增强AV行为的可预测性来考虑社会兼容性目标,从而确保人性化和情境自适应的换道策略。在高速公路匝道合并场景中进行的人机交互实验验证了我们的TGLD方法。结果表明,AVs可以根据不同HVs的信任水平和驾驶风格有效调整策略。此外,结合信任机制显著提高了换道效率,保持了安全性,并有助于透明和自适应的AV-HV互动。 |
[33] 用于导航应用的具有非线性传播模型的无迹卡尔曼滤波器 标题: Unscented Kalman Filter with a Nonlinear Propagation Model for Navigation Applications 作者: Amit Levy / Itzik Klein 原文: [英文] [中文] 备注: 5 pages, 2 figures 摘要: 无迹卡尔曼滤波器是一种常用于导航应用的非线性估计算法。均值和协方差矩阵的预测对于滤波器的稳定性至关重要。这一预测是通过根据当前的动态模型传播sigma点来完成的。在本文中,我们介绍了一种创新的方法,根据导航误差状态向量的非线性动态模型来传播sigma点。这提高了滤波器的精度和导航性能。我们使用自主水下航行器在多个场景中记录的真实传感器数据展示了我们所提方法的优势。 |
[34] 基础模型驱动的机器人技术:综合综述 标题: Foundation Model Driven Robotics: A Comprehensive Review 作者: Muhammad Tayyab Khan / Ammar Waheed 原文: [英文] [中文] 备注: None 摘要: 基础模型的快速出现,特别是大型语言模型(LLMs)和视觉语言模型(VLMs),在机器人领域引入了一种变革性的范式。这些模型在语义理解、高级推理和跨模态泛化方面提供了强大的能力,从而在感知、规划、控制和人机交互方面实现了显著进步。这篇重要的综述提供了对近期发展的结构化综合,按模拟驱动设计、开放世界执行、模拟到现实转移和可适应机器人等应用进行分类。与现有的强调孤立能力的调查不同,这项工作突出了集成的系统级策略,并评估了其在现实环境中的实际可行性。关键的推动趋势如程序化场景生成、策略泛化和多模态推理与核心瓶颈一起被讨论,包括有限的体现、多模态数据的缺乏、安全风险和计算限制。通过这一视角,本文识别了基于基础模型的机器人技术的架构优势和关键限制,强调了实时操作、基础、弹性和信任方面的开放挑战。综述最后提出了一条未来研究的路线图,旨在通过更稳健、可解释和具体现的模型来弥合语义推理和物理智能之间的差距。 |
[35] 结合无迹卡尔曼滤波器的物理信息神经网络用于类人机器人无传感器关节力矩估计 标题: Physics-Informed Neural Networks with Unscented Kalman Filter for Sensorless Joint Torque Estimation in Humanoid Robots 作者: Ines Sorrentino / Giulio Romualdi / Lorenzo Moretti / Silvio Traversaro / Daniele Pucci 原文: [英文] [中文] 备注: None 摘要: 本文提出了一种新颖的全身力矩控制框架,适用于没有关节力矩传感器的人形机器人,专为配备电动机和高比率谐波驱动的系统设计。该方法在实时力矩控制架构中集成了物理信息神经网络(PINNs)用于摩擦建模,以及无迹卡尔曼滤波(UKF)用于关节力矩估计。PINNs通过关节和电机速度读数估计非线性静态和动态摩擦,捕捉电机驱动而关节不动的效应。UKF利用基于PINN的摩擦估计作为直接测量输入,提高了力矩估计的鲁棒性。在ergoCub人形机器人上的实验验证表明,与最先进的递归牛顿-欧拉算法(RNEA)相比,该方法在动态平衡实验中表现出更好的力矩跟踪精度、能量效率和抗干扰能力。该框架的可扩展性通过在具有相似硬件但摩擦特性不同的机器人上表现出一致的性能而得以证明,无需重新识别。此外,与位置控制的比较分析突出了所提出的力矩控制方法的优势。结果确立了该方法作为一种可扩展且实用的无传感器力矩控制解决方案,确保在人形机器人的动态环境中实现力矩跟踪、适应性和稳定性。 |
[36] 纤维增强软体驱动器组件的模拟与实验 标题: Simulations and experiments with assemblies of fiber-reinforced soft actuators 作者: Seung Hyun Kim / Jiamiao Guo / Arman Tekinalp / Heng-Sheng Chang / Ugur Akcal / Tixian Wang / Darren Biskup / Benjamin Walt / Girish Chowdhary / Girish Krishnan / Prashant G. Mehta / Mattia Gazzola 原文: [英文] [中文] 备注: 8 pages, 4 figures This work has been submitted to the IEEE for possible publication 摘要: 软连续臂(SCAs)通过机械柔顺性提供多功能的操作能力,适用于辅助设备、农业、搜索应用或手术。然而,SCAs在实际应用中面临挑战,部分原因是其难以控制的非线性行为。在此,我们开发了一种用于SCAs的模拟框架,该框架由纤维增强弹性体外壳(FREEs)模块化组装而成,并与视频跟踪系统集成,用于实验测试和控制设计。 |
[37] 用于移动操作的概率性人类意图预测:基于人类启发约束的评估 标题: Probabilistic Human Intent Prediction for Mobile Manipulation: An Evaluation with Human-Inspired Constraints 作者: Cesar Alan Contreras / Manolis Chiou / Alireza Rastegarpanah / Michal Szulik / Rustam Stolkin 原文: [英文] 备注: Submitted to Journal of Intelligent & Robotic Systems (Under Review) 摘要: 准确推断人类意图可以在不限制人类控制或引发人机冲突的情况下实现人机协作。我们提出了GUIDER(机器人全球用户意图双阶段估计),这是一种概率框架,使机器人能够估计人类操作员的意图。GUIDER维护两个耦合的信念层,一个用于跟踪导航目标,另一个用于操作目标。在导航阶段,协同地图将控制器速度与占用网格结合,以对交互区域进行排名。到达目标后,自动多视图扫描构建局部3D点云。在操作阶段,结合U2Net显著性、FastSAM实例显著性和三个几何抓取可行性测试,并使用末端执行器运动学感知更新规则实时演变对象概率。GUIDER可以在没有预定义目标的情况下识别意图的区域和对象。我们在Isaac Sim中对GUIDER进行了25次试验(五名参与者x五种任务变体),并与两个基线进行比较,一个用于导航,一个用于操作。在25次试验中,GUIDER在导航期间实现了93-100%的中位稳定性,而BOIR基线为60-100%,在重定向场景(T5)中提高了39.5%。在操作期间,稳定性达到94-100%(相比Trajectron的69-100%),在重定向任务(T3)中有31.4%的差异。在几何约束试验(操作)中,GUIDER比Trajectron提前三倍识别出对象意图(中位剩余时间为23.6秒对7.8秒)。这些结果验证了我们的双阶段框架,并显示了在移动操作任务的两个阶段中意图推断的改进。 |
[38] 具有闭合运动链的双足运动的鲁棒强化学习控制 标题: Robust RL Control for Bipedal Locomotion with Closed Kinematic Chains 作者: Egor Maslennikov / Eduard Zaliaev / Nikita Dudorov / Oleg Shamanin / Karanov Dmitry / Gleb Afanasev / Alexey Burkov / Egor Lygin / Simeon Nedelchev / Evgeny Ponomarev 原文: [英文] [中文] 备注: None 摘要: 为双足机器人开发稳健的运动控制器时,封闭运动链带来了独特的挑战,特别是大多数强化学习(RL)方法在训练过程中将这些并联机构简化为串联模型。我们证明了这种简化显著削弱了从模拟到现实的转移能力,因为它未能捕捉到关节耦合、摩擦动态和电机空间控制特性等关键方面。在这项工作中,我们提出了一个明确包含封闭链动态的RL框架,并在我们定制的机器人TopA上进行了验证。我们的方法通过对称感知损失函数、对抗训练和有针对性的网络正则化来增强策略的鲁棒性。实验结果表明,我们的综合方法在各种地形上实现了稳定的运动,显著优于基于简化运动学模型的方法。 |
[39] REACT:面向系缆水下车辆的实时纠缠感知覆盖路径规划 标题: REACT: Real-time Entanglement-Aware Coverage Path Planning for Tethered Underwater Vehicles 作者: Abdelhakim Amer / Mohit Mehindratta / Yury Brodskiy / Bilal Wehbe / Erdal Kayacan 原文: [英文] [中文] 备注: None 摘要: 使用系绳的水下车辆对复杂水下结构进行检查时,常常会因系绳缠绕的风险而受到阻碍。我们提出了REACT(实时缠绕感知覆盖路径规划框架,用于系绳水下车辆),旨在克服这一限制。REACT包括一个快速的基于几何的系绳模型,使用符号距离场(SDF)地图来准确实时模拟在三维空间中围绕任意结构的拉紧系绳配置。该模型通过实施最大系绳长度约束,能够实现高效的在线重新规划策略,从而主动防止缠绕。通过将REACT集成到覆盖路径规划框架中,我们实现了安全且优化的检查路径,这在过去由于系绳限制而具有挑战性。完整的REACT框架在管道检查场景中验证了其有效性,展示了安全、无缠绕导航和全面覆盖检查。模拟结果表明,REACT在保持系绳约束的同时实现了全面覆盖,并比传统规划器快20%完成整个任务,尽管由于主动避免缠绕而导致检查时间较长,但消除了任务后广泛的解缠绕。现实世界的实验证实了这些优势,其中REACT完成了整个任务,而基线规划器由于物理系绳缠绕而失败。 |
[40] 用于视觉覆盖路径规划的提示知情强化学习 标题: Prompt Informed Reinforcement Learning for Visual Coverage Path Planning 作者: Venkat Margapuri 原文: [英文] [中文] 备注: None 摘要: 使用无人机(UAV)进行视觉覆盖路径规划需要智能体战略性地协调无人机的运动和摄像机控制,以最大化覆盖范围、最小化冗余并保持电池效率。传统的强化学习(RL)方法依赖于特定环境的奖励设计,缺乏语义适应性。本研究提出了一种新的方法,称为提示信息强化学习(PIRL),该方法将大型语言模型的零样本推理能力和上下文学习能力与好奇心驱动的RL相结合。PIRL利用来自大型语言模型(如GPT-3.5)的语义反馈,动态地塑造近端策略优化(PPO)RL策略的奖励函数,引导智能体进行位置和摄像机调整,以实现最佳视觉覆盖。PIRL智能体在OpenAI Gym中进行训练,并在各种环境中进行评估。此外,通过在Webots模拟器中操作智能体来测试其类真实能力和零样本泛化能力,该模拟器引入了现实的物理动态。结果表明,PIRL在多个学习基线(如具有静态奖励的PPO、具有探索性权重初始化的PPO、模仿学习和仅使用LLM的控制器)中表现优于其他方法。在不同环境中,PIRL比表现最好的基线在OpenAI Gym中实现了高达14%的更高视觉覆盖率,在Webots中实现了高达27%的更高覆盖率,高达25%的更高电池效率,以及高达18%的更低冗余。结果突显了LLM引导的奖励塑造在复杂空间探索任务中的有效性,并为将自然语言先验整合到机器人强化学习中指明了一个有前途的方向。 |
[41] TOP:通过并行优化实现恒定时间复杂度的轨迹优化 标题: TOP: Trajectory Optimization via Parallel Optimization towards Constant Time Complexity 作者: Jiajun Yu / Nanhe Chen / Guodong Liu / Chao Xu / Fei Gao / Yanjun Cao 原文: [英文] [中文] 备注: 8 pages, submitted to RA-L 摘要: 优化技术已被广泛用于生成平滑的运动规划轨迹。然而,现有的轨迹优化方法在处理大规模长轨迹时表现出不足。最近在并行计算方面的进展加速了一些领域的优化,但如何通过并行化高效地解决轨迹优化问题仍然是一个未解的问题。在本文中,我们提出了一种基于共识交替方向乘子法(CADMM)算法的新颖轨迹优化框架,该算法将轨迹分解为多个段,并并行解决子问题。与当前最先进(SOTA)的方法相比,该框架将每次迭代的时间复杂度从O(N)降低到与段数无关的O(1)。此外,我们引入了一种封闭形式的解决方案,将凸线性和二次约束整合以加速优化,并为一般不等式约束提供了数值解决方案。一系列模拟和实验表明,我们的方法在效率和平滑度方面优于SOTA方法。特别是对于具有一百个段的大规模轨迹,实现了超过十倍的加速。为了充分挖掘我们算法在现代并行计算架构上的潜力,我们将框架部署在GPU上,并展示了在处理数千个段时的高性能。 |
[42] 结合模型预测控制和模糊逻辑的多边形障碍物避让 标题: Polygonal Obstacle Avoidance Combining Model Predictive Control and Fuzzy Logic 作者: Michael Schröder / Eric Schöneberg / Daniel Görges / Hans D. Schotten 原文: [英文] 备注: None 摘要: 在实际应用中,移动机器人在狭窄环境中的导航通常使用空间离散的代价地图来表示障碍物。路径跟随是模型预测控制(MPC)的典型用例,但在这种情况下为避障制定约束是具有挑战性的。通常,MPC问题的代价和约束被定义为闭合形式的函数,而典型的求解器在处理连续可微函数时效果最佳。这与空间离散的占用网格地图相反,在占用网格中,网格的值定义了与占用相关的代价。本文提出了一种解决此兼容性问题的方法,即将占用网格地图重新表述为连续可微函数,以嵌入到MPC方案中作为约束。每个障碍物被定义为一个多边形——半空间的交集。任何半空间都是表示多边形一条边的线性不等式。使用AND和OR运算符,可以描述所有障碍物的组合集,从而描述避障约束。本文的关键贡献是使用模糊逻辑重新表述包含逻辑运算符的不等式约束,使其与标准MPC表述兼容。基于MPC的轨迹规划器在仿真中成功测试。该概念也适用于导航任务之外的场景,以在MPC中实现逻辑或语言约束。 |
[43] Raci-Net:恶劣天气条件下自车里程计估计 标题: Raci-Net: Ego-vehicle Odometry Estimation in Adverse Weather Conditions 作者: Mohammadhossein Talebi / Pragyan Dahal / Davide Possenti / Stefano Arrigoni / Francesco Braghin 原文: [英文] [中文] 备注: 8 pages 摘要: 自动驾驶系统高度依赖于摄像头、激光雷达(LiDAR)和惯性测量单元(IMU)等传感器来感知环境和估计其运动。在这些传感器中,基于感知的传感器无法免受恶劣天气和技术故障的影响。尽管现有方法在应对旋转失准和断连等常见技术问题时表现出稳健性,但在面对天气条件等动态环境因素时往往会退化。为了解决这些问题,本研究引入了一种新颖的基于深度学习的运动估计器,该估计器整合了视觉、惯性和毫米波雷达数据,利用每种传感器的优势来提高在恶劣环境条件下(如雪、雨和光线变化)里程估计的准确性和可靠性。所提出的模型使用先进的传感器融合技术,根据当前环境条件动态调整每个传感器的贡献,其中雷达在能见度差的情况下弥补视觉传感器的局限性。该研究探讨了基于雷达的里程计的最新进展,并强调雷达在不同天气条件下的稳健性使其成为姿态估计系统的宝贵组成部分,特别是在视觉传感器性能下降时。基于Boreas数据集进行的实验结果展示了该模型在清晰和退化环境中的稳健性和有效性。 |
[44] 基于生成式人工智能的场景感知对话式高级驾驶辅助系统用于实时驾驶员辅助 标题: Scene-Aware Conversational ADAS with Generative AI for Real-Time Driver Assistance 作者: Kyungtae Han / Yitao Chen / Rohit Gupta / Onur Altintas 原文: [英文] [中文] 备注: None 摘要: 尽管自动驾驶技术不断进步,但当前的高级驾驶辅助系统(ADAS)在解释场景上下文或通过自然语言与驾驶员互动方面仍然有限。这些系统通常依赖于预定义的逻辑,缺乏对基于对话的交互的支持,使其在动态环境中或适应驾驶员意图时显得不够灵活。本文提出了一种场景感知对话式ADAS(SC-ADAS),这是一种模块化框架,集成了生成式人工智能组件,包括大型语言模型、视觉到文本的解释以及结构化功能调用,以实现实时、可解释和自适应的驾驶辅助。SC-ADAS支持基于视觉和传感器上下文的多轮对话,允许自然语言推荐和驾驶员确认的ADAS控制。该系统在CARLA模拟器中实现,结合基于云的生成式人工智能,无需模型微调即可将确认的用户意图执行为结构化的ADAS命令。我们在场景感知、对话式和重访的多轮交互中评估了SC-ADAS,强调了如基于视觉的上下文检索导致的延迟增加和累积对话历史导致的令牌增长等权衡。这些结果展示了结合对话推理、场景感知和模块化ADAS控制以支持下一代智能驾驶辅助的可行性。 |
[45] MP1:平均流在一步中驯服机器人操作的策略学习 标题: MP1: Mean Flow Tames Policy Learning in 1-step for Robotic Manipulation 作者: Juyi Sheng / Ziyi Wang / Peiming Li / Mengyuan Liu 原文: [英文] [中文] 备注: None 摘要: 在机器人操作中,机器人学习已成为一种流行的方法。然而,在该领域内的生成模型面临着一个基本的权衡,即扩散模型的缓慢迭代采样与更快的基于流的方法的架构限制,后者通常依赖于显式一致性损失。为了解决这些限制,我们引入了MP1,它将3D点云输入与MeanFlow范式配对,以在一次网络函数评估(1-NFE)中生成动作轨迹。通过直接学习通过MeanFlow Identity的区间平均速度,我们的策略避免了任何额外的一致性约束。这种公式在推理过程中消除了数值ODE求解器的误差,从而产生更精确的轨迹。MP1进一步结合了CFG以提高轨迹的可控性,同时保持1-NFE推理而不重新引入结构约束。由于微妙的场景上下文变化对于机器人学习尤其是在少样本学习中至关重要,我们引入了一种轻量级的分散损失,在训练期间排斥状态嵌入,从而在不减慢推理速度的情况下提高泛化能力。我们在Adroit和Meta-World基准测试以及现实场景中验证了我们的方法。实验结果表明,MP1在平均任务成功率上表现优异,分别比DP3高出10.2%和比FlowPolicy高出7.3%。其平均推理时间仅为6.8毫秒,比DP3快19倍,比FlowPolicy快近2倍。我们的代码可在此https URL获取。 |