![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.RO方向,2025年4月23日更新论文30篇
|
[1] 基于SLAM的导航与故障弹性:具备嵌入式视觉系统的监控四旋翼飞行器 标题: SLAM-Based Navigation and Fault Resilience in a Surveillance Quadcopter with Embedded Vision Systems 作者: Abhishek Tyagi / Charu Gaur 原文: [英文] 备注: 18 pages, 21 figures, 4 tables. Onboard processing using Raspberry Pi 4 and Arduino Nano. Includes ORB-SLAM3-based navigation, LQR control, rotor fault recovery, object detection, and PCA face recognition. Real-world and simulation tests included. Designed for GPS-denied autonomous UAV surveillance 摘要: 我们介绍了一种自主空中监视平台Veg,该平台设计为容错四旋翼系统,集成了视觉SLAM以实现无需GPS的导航、用于动态稳定的先进控制架构以及用于实时物体和人脸识别的嵌入式视觉模块。该平台采用级联控制设计,具有LQR内环和PD外环轨迹控制。它利用ORB-SLAM3进行6自由度定位和闭环,并通过基于SLAM生成地图的Dijkstra路径规划支持基于航点的导航。实时故障检测和识别(FDI)系统检测转子故障并通过重新规划执行紧急着陆。嵌入式视觉系统基于轻量级CNN和PCA,实现高精度的机载物体检测和人脸识别。无人机完全使用Raspberry Pi 4和Arduino Nano进行机载操作,并通过模拟和现实世界测试进行了验证。该工作整合了实时定位、故障恢复和嵌入式AI于单一平台,适用于受限环境。 |
[2] 考虑不满足条件的高效且安全的自动驾驶坡道规划器 标题: Efficient and Safe Planner for Automated Driving on Ramps Considering Unsatisfication 作者: Qinghao Li / Zhen Tian / Xiaodan Wang / Jinming Yang / Zhihao Lin 原文: [英文] [中文] 备注: The 45th IEEE International Conference on Distributed Computing Systems Workshop (ICDCSW) has accepted this paper (this https URL In Conjunction Events/ Page 4/ Number 174) 摘要: 由于在坡道上进行车道变换时需要平衡安全性和效率,自动驾驶在坡道上面临重大挑战。本文提出了一种用于坡道上自动驾驶车辆(AVs)的集成规划器,该规划器利用不满意度指标来衡量效率,并使用箭簇采样来确保安全性。该规划器识别出自动驾驶车辆变换车道的最佳时机,将车辆速度作为效率的关键因素。此外,集成规划器采用箭簇采样来评估碰撞风险,并选择最佳的车道变换曲线。在坡道场景中进行了大量模拟,以验证该规划器的高效和安全性能。结果表明,所提出的规划器能够有效选择适当的车道变换时间点和安全的车道变换曲线,在操作过程中未发生任何碰撞。 |
[3] 推进机器人辅助血管内手术中的具身智能:人工智能解决方案的系统综述 标题: Advancing Embodied Intelligence in Robotic-Assisted Endovascular Procedures: A Systematic Review of AI Solutions 作者: Tianliang Yao / Bo Lu / Markus Kowarschik / Yixuan Yuan / Hubin Zhao / Sebastien Ourselin / Kaspar Althoefer / Junbo Ge / Peng Qi 原文: [英文] [中文] 备注: 24 pages, 7 figures, submitted to IEEE 摘要: 血管内手术由于其微创解决方案显著减少了患者的恢复时间并改善了临床结果,从而彻底改变了血管疾病的治疗。然而,这些手术所需的精确性和灵活性对介入医生构成了相当大的挑战。机器人系统的出现提供了变革性的解决方案,解决了操作员疲劳、辐射暴露以及人类精确性固有的局限性等问题。将具身智能(EI)集成到这些系统中标志着一种范式转变,使机器人能够在复杂的血管网络中导航并适应动态的生理条件。数据驱动的方法、先进的计算机视觉、医学图像分析和机器学习技术处于这一演变的前沿。这些方法通过促进实时血管分割、设备跟踪和解剖标志检测来增强程序智能。强化学习和模仿学习进一步优化导航策略并复制专家的技术。本综述系统地考察了EI原则在机器人技术中的整合,特别是与血管内手术相关的整合。我们讨论了智能感知和数据驱动控制的最新进展及其在机器人辅助血管内手术中的实际应用。通过批判性地评估当前的局限性和新兴的机会,本综述为未来的发展建立了一个框架,强调了更大自主性和改善临床结果的潜力。还探讨了新兴趋势和特定研究领域,如用于医学数据共享的联邦学习、用于临床决策支持的可解释AI以及先进的人机协作范式,提供了对这一快速发展的领域未来方向的见解。 |
[4] 后收敛仿真到现实策略转移:樱桃挑选的原则性替代方案 标题: Post-Convergence Sim-to-Real Policy Transfer: A Principled Alternative to Cherry-Picking 作者: Dylan Khor / Bowen Weng 原文: [英文] [中文] 备注: None 摘要: 基于学习的方法,特别是强化学习(RL),已广泛用于开发自主代理的控制策略,例如用于腿式机器人的运动策略。RL训练通常通过在模拟器中迭代优化策略来最大化预定义的奖励(或最小化相应的成本/损失)。从随机初始化的策略开始,经验期望奖励遵循一个整体上升的趋势轨迹。虽然一些策略会暂时陷入局部最优,但一个定义良好的训练过程通常会收敛到一个带有噪声振荡的奖励水平。然而,为现实世界部署选择策略很少是一个分析决策(即简单地选择奖励最高的策略),而往往是通过试错进行的。为了改善从模拟到现实的转移,大多数研究集中在收敛前阶段,采用域随机化、多保真度训练、对抗训练和架构创新等技术。然而,这些方法并不能消除奖励的不可避免的收敛轨迹和噪声振荡,导致启发式策略选择或挑选。本文通过引入一种最坏情况性能转移优化方法来解决收敛后模拟到现实的转移问题,该方法被表述为一个凸二次约束线性规划问题。大量实验表明,该方法在将基于RL的运动策略从模拟转移到现实世界实验室测试中是有效的。 |
[5] MRTA-Sim:用于开放世界环境中多机器人分配、规划和控制的模块化模拟器 标题: MRTA-Sim: A Modular Simulator for Multi-Robot Allocation, Planning, and Control in Open-World Environments 作者: Victoria Marie Tuck / Hardik Parwana / Pei-Wei Chen / Georgios Fainekos / Bardh Hoxha / Hideki Okamoto / S. Shankar Sastry / Sanjit A. Seshia 原文: [英文] [中文] 备注: 8 pages, 9 figures, 3 tables 摘要: 本文介绍了MRTA-Sim,这是一款基于Python/ROS2/Gazebo的模拟器,用于在复杂的室内环境中测试多机器人任务分配(MRTA)问题的解决方法。基于网格的方法在仓库、百货商店、医院等复杂动态环境中可能过于局限。然而,在自由空间中运行的方法通常在机器人的控制和规划层之上进行抽象,并假设系统中兴趣点之间的近似旅行时间。这些抽象可能忽略了狭小空间和多代理交互对解决方案质量的影响。因此,MRTA解决方案应在考虑机器人导航栈的情况下进行测试,考虑到机器人规划、机器人之间的冲突避免以及与人类的交互和避免。该工具将MRTA求解器的分配输出与使用NAV2栈的单个机器人规划连接起来,并使用控制障碍函数-二次规划(CBF-QPs)进行本地集中式多机器人解冲突,从而创建一个更接近实际操作的平台,以更全面地测试这些方法。模拟架构是模块化的,用户可以在栈的不同层次上更换方法。我们展示了在一队室内配送机器人上使用基于可满足性模理论(SMT)的动态MRTA方法的系统应用。 |
[6] 使用分布式上图形式的多智能体强化学习解决多智能体安全最优控制问题 标题: Solving Multi-Agent Safe Optimal Control with Distributed Epigraph Form MARL 作者: Songyuan Zhang / Oswin So / Mitchell Black / Zachary Serlin / Chuchu Fan 原文: [英文] [中文] 备注: 28 pages, 16 figures; Accepted by Robotics: Science and Systems 2025 摘要: 多机器人系统的任务通常要求机器人协作完成团队目标,同时保持安全性。这个问题通常被形式化为一个约束马尔可夫决策过程(CMDP),其目标是最小化全局成本,并将约束违规的平均值降低到用户定义的阈值以下。受现实世界机器人应用的启发,我们将安全性定义为零约束违规。虽然已经提出了许多安全多智能体强化学习(MARL)算法来解决CMDP,但这些算法在这种设置下的训练不稳定。为了解决这个问题,我们使用约束优化的上图形式来提高训练的稳定性,并证明集中式上图形式问题可以通过每个智能体以分布式方式解决。这导致了一种新颖的集中训练分布执行MARL算法,名为Def-MARL。在两个不同模拟器上的8个不同任务的模拟实验表明,Def-MARL实现了最佳的整体性能,满足安全约束,并保持稳定的训练。在Crazyflie四旋翼飞行器上的真实硬件实验展示了Def-MARL在与其他方法相比时,能够安全协调智能体完成复杂协作任务的能力。 |
[7] 火星沙漠研究站的探地雷达定位实地报告 标题: Field Report on Ground Penetrating Radar for Localization at the Mars Desert Research Station 作者: Anja Sheppard / Katherine A. Skinner 原文: [英文] [中文] 备注: Accepted to ICRA Workshop on Field Robotics 2025 摘要: 在这篇实地报告中,我们详细介绍了在类火星环境中收集地面穿透雷达(GPR)数据以验证GPR在崎岖环境中的定位技术所获得的经验教训。行星探测车已经配备了用于地质地下特征描述的GPR。GPR已成功用于在地球上定位车辆,但尚未探索作为行星探测车定位的另一种方式。利用GPR进行定位可以帮助实现高效且稳健的探测车姿态估计。为了展示在类火星环境中定位GPR,我们在火星沙漠研究站(MDRS)进行了为期两周的调查,收集了超过50条单独的调查轨迹。在这份报告中,我们讨论了我们的方法、经验教训以及未来工作的机会。 |
[8] LAPP:用于偏好驱动强化学习的大型语言模型反馈 标题: LAPP: Large Language Model Feedback for Preference-Driven Reinforcement Learning 作者: Pingcheng Jian / Xiao Wei / Yanbaihui Liu / Samuel A. Moore / Michael M. Zavlanos / Boyuan Chen 原文: [英文] [中文] 备注: None 摘要: 我们介绍了一种新的机器人学习框架,称为大语言模型辅助偏好预测(LAPP),该框架能够以最小的人力投入实现高效、可定制和富有表现力的行为获取。与以往严重依赖奖励工程、人类演示、动作捕捉或昂贵的成对偏好标签的方法不同,LAPP 利用大型语言模型(LLM)从强化学习(RL)过程中收集的原始状态-动作轨迹中自动生成偏好标签。这些标签用于训练在线偏好预测器,进而引导策略优化过程,以满足人类提供的高级行为规范。我们的关键技术贡献在于通过轨迹级偏好预测将 LLM 集成到 RL 反馈回路中,使机器人能够获得复杂技能,包括对步态模式和节奏时机的微妙控制。我们在一组多样化的四足动物运动和灵巧操作任务中评估了 LAPP,结果表明它实现了高效学习、更高的最终性能、更快的适应性以及对高级行为的精确控制。值得注意的是,LAPP 使机器人能够掌握高度动态和富有表现力的任务,例如四足动物后空翻,这对于标准的 LLM 生成或手工设计的奖励来说仍然遥不可及。我们的结果突显了 LAPP 作为可扩展的偏好驱动机器人学习的一个有前途的方向。 |
[9] 小样本视觉-语言动作增量策略学习 标题: Few-Shot Vision-Language Action-Incremental Policy Learning 作者: Mingchen Song / Xiang Deng / Guoqiang Zhong / Qi Lv / Jia Wan / Yinchuan Li / Jianye Hao / Weili Guan 原文: [英文] [中文] 备注: None 摘要: 最近,基于Transformer的机器人操作方法利用多视角空间表示和语言指令,通过大量的机器人演示来学习机器人运动轨迹。然而,收集机器人数据极具挑战性,现有方法缺乏在仅有少量演示的新任务上进行持续学习的能力。在本文中,我们将这些挑战表述为少样本动作增量学习(FSAIL)任务,并相应地设计了一种任务提示图演化策略(TOPIC)来解决这些问题。具体而言,为了解决机器人模仿学习中的数据稀缺问题,TOPIC通过少样本演示中多模态信息的深度交互来学习任务特定提示(TSP),从而有效提取任务特定的判别信息。另一方面,为了增强在新任务上的持续学习能力并缓解灾难性遗忘问题,TOPIC采用了一种连续演化策略(CES)。CES利用任务之间的内在关系构建任务关系图,有效地通过重用从先前任务中学到的技能来促进新任务的适应。TOPIC在机器人操作任务中开创了少样本持续学习,广泛的实验结果表明,TOPIC在成功率上比最先进的基线高出26%以上,显著增强了现有基于Transformer的策略的持续学习能力。 |
[10] VibeCheck:使用主动声学触觉传感进行接触丰富的操控 标题: VibeCheck: Using Active Acoustic Tactile Sensing for Contact-Rich Manipulation 作者: Kaidi Zhang / Do-Gon Kim / Eric T. Chang / Hua-Hsuan Liang / Zhanpeng He / Kathryn Lampo / Philippe Wu / Ioannis Kymissis / Matei Ciocarlie 原文: [英文] [中文] 备注: 8 pages, 7 figures 摘要: 物体的声学响应可以揭示其整体状态的许多信息,例如其材料属性或与外界的外部接触。在这项工作中,我们构建了一个主动声学传感夹持器,配备了两个压电手指:一个用于产生信号,另一个用于接收信号。通过从一个手指向另一个手指发送声学振动穿过物体,我们可以深入了解物体的声学属性和接触状态。我们使用该系统对物体进行分类、估计抓取位置、估计内部结构的姿态,并分类物体与环境的外部接触类型。利用我们的接触类型分类模型,我们解决了一个标准的长时间操作问题:插销插入。我们使用一个基于传感器性能的简单模拟转换模型来训练一个模仿学习策略,该策略对分类器的不完美预测具有鲁棒性。最后,我们在UR5机器人上展示了该策略,主动声学传感是唯一的反馈。 |
[11] RiskNet:面向长尾场景的自动驾驶交互感知风险预测 标题: RiskNet: Interaction-Aware Risk Forecasting for Autonomous Driving in Long-Tail Scenarios 作者: Qichao Liu / Heye Huang / Shiyue Zhao / Lei Shi / Soyoung Ahn / Xiaopeng Li 原文: [英文] 备注: 24 pages, 14 figures 摘要: 确保自动驾驶车辆(AVs)在长尾场景中的安全性仍然是一个关键挑战,特别是在高不确定性和复杂多主体交互的情况下。为了解决这个问题,我们提出了RiskNet,一种考虑交互的风险预测框架,它将确定性风险建模与概率行为预测相结合,以实现全面的风险评估。RiskNet的核心是一个场论模型,该模型通过交互场和力捕捉自车、周围代理和基础设施之间的交互。该模型支持在各种场景(高速公路、交叉路口和环形交叉路口)中的多维风险评估,并在高风险和长尾设置下表现出稳健性。为了捕捉行为的不确定性,我们引入了一个基于图神经网络(GNN)的轨迹预测模块,该模块学习多模态的未来运动分布。结合确定性风险场,它能够实现跨时间的动态概率风险推断,从而在不确定性下实现主动安全评估。在highD、inD和rounD数据集上的评估,涵盖车道变换、转弯和复杂合并,表明我们的方法在准确性、响应性和方向敏感性方面显著优于传统方法(如TTC、THW、RSS、NC Field),同时在场景中保持强大的泛化能力。该框架支持实时、场景自适应的风险预测,并在不确定的驾驶环境中表现出强大的泛化能力。它为长尾场景中的安全关键决策提供了统一的基础。 |
[12] SPECI:基于技能提示的分层持续模仿学习用于机器人操作 标题: SPECI: Skill Prompts based Hierarchical Continual Imitation Learning for Robot Manipulation 作者: Jingkai Xu / Xiangli Nie 原文: [英文] [中文] 备注: None 摘要: 在动态非结构化环境中进行真实世界的机器人操作需要对不断变化的物体、场景和任务进行终身适应。传统的模仿学习依赖于静态训练模式,这不适合终身适应。尽管持续模仿学习(CIL)能够在保留已学知识的同时实现增量任务适应,但当前的CIL方法主要忽视了机器人操作的内在技能特征,或依赖于手动定义的刚性技能,导致跨任务知识转移效果不佳。为了解决这些问题,我们提出了基于技能提示的分层持续模仿学习(SPECI),这是一种用于机器人操作的新型端到端分层CIL策略架构。SPECI框架包括一个用于异构感官信息编码的多模态感知与融合模块,一个用于动态技能提取和选择的高层技能推理模块,以及一个用于精确动作生成的低层动作执行模块。为了在技能和任务层面实现高效的知识转移,SPECI通过可扩展的技能代码本和注意力驱动的技能选择机制进行持续的隐式技能获取和重用。此外,我们引入了模式近似,以通过任务特定和任务共享参数增强后两个模块,从而提升任务层面的知识转移。在多样化操作任务套件上的大量实验表明,SPECI在所有评估指标上始终优于最先进的CIL方法,展现了卓越的双向知识转移能力和优越的整体性能。 |
[13] 通过跨模态注意力机制对视觉-触觉输入进行强化学习来抓取可变形物体 标题: Grasping Deformable Objects via Reinforcement Learning with Cross-Modal Attention to Visuo-Tactile Inputs 作者: Yonghyun Lee / Sungeun Hong / Min-gu Kim / Gyeonghwan Kim / Changjoo Nam 原文: [英文] [中文] 备注: None 摘要: 我们研究了使用机器人抓手抓取具有软壳的可变形物体的问题。这类物体的质心会动态变化,并且易碎,容易破裂。因此,机器人在执行操作任务时很难生成合适的控制输入,以避免掉落或损坏物体。多模态传感数据可以通过视觉数据提供的全局信息(例如形状、姿态)和触觉数据提供的接触周围的局部信息(例如压力)来帮助理解抓取状态。尽管这些信息具有互补性,结合使用可能会带来好处,但由于它们的不同特性,融合它们是困难的。 我们提出了一种基于深度强化学习(DRL)的方法,该方法从视觉-触觉传感信息生成简单抓手的控制输入。我们的方法在编码器网络中使用了跨模态注意模块,并通过RL代理的损失函数以自监督的方式进行训练。通过多模态融合,所提出的方法可以从视觉-触觉传感数据中学习DRL代理的表示。实验结果表明,跨模态注意在不同环境中,包括未见过的机器人动作和物体,能够有效地优于其他早期和晚期数据融合方法。 |
[14] 基于大型语言模型的导航方法研究 标题: Research on Navigation Methods Based on LLMs 作者: Anlong Zhang / Jianmin Ji 原文: [英文] [中文] 备注: None 摘要: 近年来,通过集成大型语言模型(LLMs),室内导航领域取得了突破性进展。传统的导航方法依赖于预先构建的地图或强化学习,存在泛化能力差和对动态环境适应性有限等局限性。相比之下,LLMs 通过利用其卓越的语义理解、推理能力和零样本泛化特性,为复杂的室内导航任务提供了一种新颖的范式。我们提出了一种基于 LLM 的导航框架,该框架利用函数调用能力,将 LLM 定位为中央控制器。我们的方法涉及将传统导航功能模块化分解为可重用的 LLM 工具,并具有可扩展的配置。这一方法辅以系统设计的、可转移的系统提示模板和交互工作流程,可以轻松适应不同的实现。在 PyBullet 仿真环境中进行的多种场景实验验证了我们方法的巨大潜力和有效性,特别是在通过动态工具组合实现上下文感知导航方面。 |
[15] 面向目标导航的多模态感知:综述 标题: Multimodal Perception for Goal-oriented Navigation: A Survey 作者: I-Tak Ieong / Hao Tang 原文: [英文] [中文] 备注: None 摘要: 面向目标的导航对自主系统来说是一个基本挑战,要求代理在复杂环境中导航以到达指定目标。本文综述通过推理域的统一视角,对多模态导航方法进行了全面分析,探讨代理如何利用视觉、语言和声学信息感知、推理和导航环境。我们的主要贡献包括:根据推理域中的主要环境推理机制组织导航方法;系统分析共享的计算基础如何支持不同导航任务中看似不同的方法;识别各种导航范式中的重复模式和独特优势;以及考察多模态感知的整合挑战和机遇,以增强导航能力。此外,我们回顾了大约200篇相关文章,以提供对当前研究现状的深入理解。 |
[16] 一种为上肢残疾儿童设计的视觉辅助假手 标题: A Vision-Enabled Prosthetic Hand for Children with Upper Limb Disabilities 作者: Md Abdul Baset Sarker / Art Nguyen / Sigmond Kukla / Kevin Fite / Masudul H. Imtiaz 原文: [英文] 备注: None 摘要: 本文介绍了一种新型的AI视觉辅助儿童假肢手,旨在帮助10至12岁上肢残疾的儿童。该假肢具有拟人化的外观、多关节功能和轻量化设计,模仿自然手,使其对低收入家庭既易于获取又负担得起。通过3D打印技术并结合先进的机器视觉、传感和嵌入式计算,该假肢手提供了一种低成本、可定制的解决方案,解决了当前肌电假肢的局限性。一个微型摄像头与低功耗FPGA连接,用于实时物体检测并协助精确抓取。机载的基于深度学习的物体检测和抓取分类模型分别达到了96%和100%的准确率。在力预测中,平均绝对误差为0.018。因此,所提出的假肢手的特点可以总结为:a) 手腕安装的微型摄像头用于人工感知,支持广泛的基于手的任务;b) 实时物体检测和距离估算以实现精确抓取;c) 超低功耗操作,在有限的功率和资源限制下提供高性能。 |
[17] 机器人辅助穿衣的符号化运行时验证与自适应决策 标题: Symbolic Runtime Verification and Adaptive Decision-Making for Robot-Assisted Dressing 作者: Yasmin Rafiq / Gricel Vázquez / Radu Calinescu / Sanja Dogramadzi / Robert M Hierons 原文: [英文] [中文] 备注: None 摘要: 我们提出了一种用于机器人辅助穿衣的控制框架,该框架通过运行时监控和形式验证增强了低级别的危险响应。一个参数化离散时间马尔可夫链(pDTMC)用于建模穿衣过程,而贝叶斯推理则根据传感器和用户反馈动态更新该pDTMC的转移概率。通过危险分析得出的安全约束以概率计算树逻辑表达,并使用概率模型检查器进行符号验证。我们评估了服装钩挂缓解和升级的可达性、成本和奖励权衡,从而实现实时适应。我们的方法为安全意识和可解释的机器人辅助提供了一个形式化但轻量级的基础。 |
[18] 使用带有动作反馈的强化学习对冗余液压机械手的自主控制 标题: Autonomous Control of Redundant Hydraulic Manipulator Using Reinforcement Learning with Action Feedback 作者: Rohit Dhakate / Christian Brommer / Christoph Böhm / Stephan Weiss / Jan Steinbrener 原文: [英文] [中文] 备注: 8 pages, 15 figures, Published at International Conference on Intelligent Robots and Systems (IROS - Kyoto, Japan, 2022) 摘要: 本文提出了一种完全基于数据驱动的方法,用于具有液压驱动的冗余机械臂的自主控制。该方法仅需最少的系统信息,这些信息来自于仿真模型。非线性的液压驱动动态通过在机械臂手动操作期间收集的数据中的执行器网络进行建模,以便在仿真环境中有效地模拟真实系统。然后,基于末端执行器(EE)位置跟踪的神经网络控制策略通过使用带有Ornstein-Uhlenbeck过程噪声(OUNoise)的强化学习(RL)进行学习,以实现高效的探索。RL代理还基于前向运动学的监督学习反馈,帮助选择最合适的探索动作。控制策略直接根据提供的目标EE位置提供关节变量作为输出,同时考虑系统动态。然后将关节变量映射到液压阀命令,并直接输入系统而无需进一步修改。该方法在一个缩小比例的液压转运起重机上实现,该起重机具有三个旋转关节和一个伸缩关节,以在三维空间中跟踪EE的期望位置。通过仿真中的动态模拟和广泛学习,结果证明了将学习到的控制器直接部署到真实系统中的可行性。 |
[19] CaRoSaC:通过仿真解决电缆下垂问题的基于强化学习的电缆驱动并联机器人运动学控制 标题: CaRoSaC: A Reinforcement Learning-Based Kinematic Control of Cable-Driven Parallel Robots by Addressing Cable Sag through Simulation 作者: Rohit Dhakate / Thomas Jantos / Eren Allak / Stephan Weiss / Jan Steinbrener 原文: [英文] 备注: 8 Pages, 16 figures, Accepted for publication at IEEE ROBOTICS AND AUTOMATION LETTERS [VOL. 10, NO. 6, JUNE 2025] 摘要: 本文介绍了电缆机器人仿真与控制(CaRoSaC)框架,该框架将仿真环境与无模型强化学习控制方法相结合,用于悬挂式电缆驱动并联机器人(CDPRs),并考虑了电缆下垂的影响。我们的方法旨在通过建立一个仿真平台来弥合由于电缆下垂和精确控制需求等方面导致的CDPRs复杂性知识差距,该平台能够捕捉CDPRs的真实行为,包括电缆下垂的影响。该框架为研究人员和开发人员提供了一个工具,以便在仿真中进一步开发估计和控制策略,以理解和预测性能细微差别,特别是在电缆下垂可能显著的复杂操作中。利用这个仿真框架,我们在强化学习(RL)中训练了一种无模型控制策略。选择这种方法是因为它能够适应性地从CDPRs的复杂动态中学习。该策略被训练以识别最佳电缆控制输入,确保精确的末端执行器定位。与传统的基于反馈的控制方法不同,我们的RL控制策略专注于运动学控制,并解决电缆下垂问题,而不依赖于预定义的数学模型。我们还证明了我们的基于RL的控制器与灵活的电缆仿真相结合,显著优于传统的运动学方法,特别是在动态条件和工作空间边界区域。所描述的仿真和控制方法的结合优势提供了一种有效的解决方案,即使在传统方法失败的工作空间边界条件下也能操控悬挂式CDPRs,正如我们的实验所证明的那样,确保CDPRs在各种应用中最佳运行,同时考虑到通常被忽视但至关重要的电缆下垂因素。 |
[20] 基于运动变换器的轨迹预测的动态意图查询 标题: Dynamic Intent Queries for Motion Transformer-based Trajectory Prediction 作者: Tobias Demmler / Lennart Hartung / Andreas Tamke / Thao Dang / Alexander Hegai / Karsten Haug / Lars Mikelsons 原文: [英文] [中文] 备注: None 摘要: 在自动驾驶中,准确预测其他交通参与者的运动至关重要,因为这会显著影响车辆的规划过程。现代轨迹预测模型努力从代理和地图数据中解释复杂的模式和依赖关系。Motion Transformer (MTR) 架构及后续工作在常见的基准测试中(如 Waymo Open Motion Benchmark)定义了最准确的方法。MTR 模型使用预生成的静态意图点作为轨迹预测的初始目标点。然而,这些点的静态特性常常导致在特定交通场景中与地图数据不一致,导致不可行或不现实的目标点。我们的研究通过将场景特定的动态意图点整合到 MTR 模型中来解决这一限制。该 MTR 模型的改进版本在 Waymo Open Motion Dataset 上进行了训练和评估。我们的研究结果表明,结合动态意图点对轨迹预测准确性有显著的积极影响,尤其是在长时间预测方面。此外,我们分析了对不符合地图数据或是非法操作的真实轨迹的影响。 |
[21] 使用控制屏障函数的多旋翼系统嵌入式安全反应导航 标题: Embedded Safe Reactive Navigation for Multirotors Systems using Control Barrier Functions 作者: Nazar Misyats / Marvin Harms / Morten Nissov / Martin Jacquet / Kostas Alexis 原文: [英文] [中文] 备注: accepted for publication at ICUAS 2025 摘要: 为了促进安全过滤器在自主空中机器人的广泛应用,本文提出了一种安全控制架构,旨在无缝集成到广泛使用的开源自动驾驶仪中。与需要一致定位和建图的方法不同,我们将障碍物规避问题形式化为一个复合控制障碍函数,该函数仅由在线机载测距数据构建。所提出的框架作为一个安全过滤器,修改由名义位置/速度控制回路得出的加速度参考,并集成到PX4自动驾驶仪堆栈中。使用小型多旋翼空中机器人进行的实验研究展示了该解决方案在动态机动和未知环境中的有效性和性能。 |
[22] 基于蒙特卡罗树搜索的自动驾驶扩展视野战术决策 标题: An Extended Horizon Tactical Decision-Making for Automated Driving Based on Monte Carlo Tree Search 作者: Karim Essalmi / Fernando Garrido / Fawzi Nashashibi 原文: [英文] [中文] 备注: 6 pages, 5 figures, submitted and accepted to the IEEE Intelligent Vehicles Symposium Conference (IV 2025) 摘要: 本文介绍了COR-MCTS(资源保护-蒙特卡罗树搜索),这是一种新颖的自动驾驶战术决策方法,专注于在扩展的时间范围内进行动作规划。传统的决策算法通常受到固定规划时间范围的限制,经典方法通常限制在6秒以内,而基于学习的方法则限制在3秒以内,这限制了它们在特定动态驾驶场景中的适应性。然而,在高速公路、环形交叉路口和出口等环境中,必须提前进行规划以确保安全和高效的动作。为了解决这一挑战,我们提出了一种混合方法,将蒙特卡罗树搜索(MCTS)与我们之前的基于效用的框架COR-MP(资源保护模型用于动作规划)相结合。这种组合使得长期、实时决策成为可能,显著增强了在扩展时间范围内规划一系列动作的能力。通过在各种驾驶场景中的模拟,我们证明了COR-MCTS在扩展时间范围内有效地提高了规划的稳健性和决策效率。 |
[23] 基于层次化强化学习的双向任务-运动规划用于战略对抗 标题: Bidirectional Task-Motion Planning Based on Hierarchical Reinforcement Learning for Strategic Confrontation 作者: Qizhen Wu Lei Chen / Kexin Liu / Jinhu Lü 原文: [英文] [中文] 备注: None 摘要: 在群体机器人中,对抗场景,包括战略对抗,需要有效的决策机制来整合离散指令和连续动作。传统的任务和运动规划方法将决策分为两个层次,但其单向结构未能捕捉这些层次之间的相互依赖性,限制了在动态环境中的适应能力。在此,我们提出了一种基于分层强化学习的新型双向方法,能够实现层次之间的动态交互。该方法有效地将指令映射到任务分配,将动作映射到路径规划,同时利用交叉训练技术来增强分层框架中的学习。此外,我们引入了一种轨迹预测模型,将抽象任务表示与可操作的规划目标相结合。在我们的实验中,该方法在对抗胜率上超过80%,决策时间低于0.01秒,优于现有方法。通过大规模测试和真实机器人实验的演示,进一步强调了我们方法的泛化能力和实际应用性。 |
[24] RaSCL:雷达到卫星跨视图定位 标题: RaSCL: Radar to Satellite Crossview Localization 作者: Blerim Abdullai / Tony Wang / Xinyuan Qiao / Florian Shkurti / Timothy D. Barfoot 原文: [英文] [中文] 备注: None 摘要: GNSS在许多实时自主领域应用中是不可靠、不准确且不充分的。在这项工作中,我们提出了一种不依赖GNSS的全球定位解决方案,该方案包含一种将地面成像雷达与高空RGB影像进行配准的方法,并结合了来自里程计的相对位姿和我们高空配准的全球位姿的联合优化。先前的研究使用了地面传感器和高空影像的各种组合,以及不同的特征提取和匹配方法。这些方法包括从高空影像中提取特征的各种手工和基于深度学习的方法。我们的工作提供了关于如何从RGB高空影像中提取关键特征的见解,以便仅使用地面雷达和单个地理参考的初始猜测来实现与高空影像的有效全球定位。我们通过在多种地理条件和机器人平台上的数据集(包括无人水面艇(USV)以及城市和郊区驾驶数据集)上对我们的方法进行评估来证明其有效性。 |
[25] 视觉位置细胞编码:空间表示和认知地图的计算模型 标题: Visual Place Cell Encoding: A Computational Model for Spatial Representation and Cognitive Mapping 作者: Chance J. Hamilton / Alfredo Weitzenfeld 原文: [英文] [中文] 备注: None 摘要: 本文提出了视觉位置细胞编码(VPCE)模型,这是一种生物启发的计算框架,用于利用视觉输入模拟类似位置细胞的激活。基于视觉地标在空间编码中起核心作用的证据,所提出的VPCE模型通过对机器人安装的摄像头捕获的图像中提取的高维外观特征进行聚类来激活视觉位置细胞。每个聚类中心定义一个感受野,激活是基于视觉相似性使用径向基函数计算的。我们评估生成的激活模式是否与生物位置细胞的关键特性相关,包括空间邻近性、方向对齐和边界区分。实验表明,VPCE能够区分视觉上相似但空间上不同的地点,并适应环境变化,例如墙壁的插入或移除。这些结果表明,即使在没有运动线索或奖励驱动学习的情况下,结构化的视觉输入也足以生成类似位置细胞的空间表示,并支持生物启发的认知映射。 |
[26] 基于飞艇的犯罪现场分析 标题: Blimp-based Crime Scene Analysis 作者: Martin Cooney / Fernando Alonso-Fernandez 原文: [英文] [中文] 备注: 16 pages, 5 figures, 1 table; Submitted to SAIS 2025 摘要: 为了解决犯罪这一关键问题,室内犯罪现场的证据必须在被污染或降解之前进行分析。在此,我们将人工智能(AI)、计算机视觉和机器人技术应用于研究,探讨如何设计飞艇作为一种“漂浮的摄像机”,以最小的干扰漂浮并记录证据。特别是,我们使用快速原型开发了一种概念验证模型,以深入了解这种飞艇在手动驾驶或半自动驾驶情况下的功能。结果表明,我们可以将各种组件附加到室内飞艇上,并证实我们的基本前提,即飞艇可以在不产生大量风的情况下感知证据。关于地图绘制、传感和路径规划的一些额外建议旨在激发进一步探索的思路。 |
[27] ad-trait:一个快速且灵活的 Rust 自动微分库 标题: ad-trait: A Fast and Flexible Automatic Differentiation Library in Rust 作者: Chen Liang / Qian Wang / Andy Xu / Daniel Rakita 原文: [英文] [中文] 备注: None 摘要: Rust 编程语言因其高效和内存安全的代码而成为机器人学及相关领域的一个有吸引力的选择。然而,阻碍其在这些领域更广泛应用的一个关键限制是缺乏高质量、良好支持的自动微分(AD)技术。自动微分是一种通过在函数评估过程中系统地累积数据来方便地计算导数的基本技术。在这项工作中,我们介绍了 ad-trait,一个新的基于 Rust 的 AD 库。我们的实现通过一个灵活的特性重载了 Rust 的标准浮点类型,可以高效地累积导数计算所需的信息。该库支持正向模式和反向模式自动微分,使其成为 Rust 中第一个提供这两种选项的运算符重载 AD 实现。此外,ad-trait 利用了 Rust 的面向性能的特性,例如在正向模式 AD 中的单指令多数据加速,以提高效率。通过基准测试实验,我们展示了我们的库在计算导数方面是多个编程语言中最快的 AD 实现之一。此外,它已经集成到一个基于 Rust 的机器人库中,我们展示了它在促进快速优化过程中的能力。最后,我们讨论了我们工作的局限性和更广泛的影响。 |
[28] 水下航行器的自适应容错控制及推进器故障 标题: Adaptive Fault-tolerant Control of Underwater Vehicles with Thruster Failures 作者: Haolin Liu / Shiliang Zhang / Shangbin Jiao / Xiaohui Zhang / Xuehui Ma / Yan Yan / Wenchuan Cui / Youmin Zhang 原文: [英文] [中文] 备注: None 摘要: 本文提出了一种针对自主水下航行器(AUV)在推进器故障情况下的轨迹跟踪容错控制。我们将AUV推进器的故障表述为UAV任务期间的离散切换事件,并开发了一种软切换方法,以便在故障场景中切换控制策略。我们在数学上定义了AUV推进器故障场景,并通过贝叶斯方法开发了捕捉故障场景的容错控制。特别是,当AUV故障类型从一种切换到另一种时,所开发的控制能够捕捉故障状态,并通过线性二次跟踪控制器维持控制。通过贝叶斯方法捕捉到的故障状态,我们通过聚合各个故障场景的控制输出并根据其贝叶斯后验概率加权,推导出控制律。所开发的容错控制以自适应方式工作,保证了故障场景之间的软切换,并且不需要针对不同类型故障的复杂故障检测。所涉及的软切换确保了当故障类型变化时AUV轨迹跟踪的稳定性,否则在硬切换控制策略下会导致控制能力下降。我们进行了多种AUV推进器故障设置的数值模拟。结果表明,所提出的控制能够在推进器故障之间提供平滑过渡,并在推进器故障和故障转移的情况下有效维持AUV轨迹跟踪控制。 |
[29] SAR4SLPs:语音语言病理学家对社交辅助机器人的观点的异步调查 标题: SAR4SLPs: An Asynchronous Survey of Speech-Language Pathologists' Perspectives on Socially Assistive Robots 作者: Denielle Oliva / Abbie Olszewski / David Feil-Seifer 原文: [英文] [中文] 备注: 8 pages, 1 figure, 2 tables 摘要: 社会辅助机器人(SARs)在言语语言病理学(SLP)教育和实践中提供了独特的机会,通过支持与沟通障碍儿童的互动干预。本论文探讨了SAR4SLPs(为言语语言病理学家设计的社会辅助机器人)的实施,以研究参与度、治疗策略纪律性和持续干预支持等方面。我们评估了当前技术在临床和教育环境中的应用,特别是SLPs如何在其治疗工作中使用SAR。一个异步远程社区(ARC)与一组执业SLPs合作,考虑在日常干预中实施SARs以及作为实践促进者的可行性、潜在效果和预期挑战。我们特别关注SARs的表达功能,建模SLPs在各种干预目标中采用的基础策略。本文强调了由临床医生驱动的见解和设计对策,以通过协作和迭代设计开发支持特定治疗目标的SARs。 |
[30] ForesightNav:学习场景想象以实现高效探索 标题: ForesightNav: Learning Scene Imagination for Efficient Exploration 作者: Hardik Shah / Jiaxu Xing / Nico Messikommer / Boyang Sun / Marc Pollefeys / Davide Scaramuzza 原文: [英文] [中文] 备注: None 摘要: 理解人类如何利用先验知识在未见过的环境中进行探索性决策,对于开发具有类似能力的自主机器人至关重要。在这项工作中,我们提出了一种名为ForesightNav的新颖探索策略,其灵感来源于人类的想象力和推理能力。我们的方法使机器人能够预测未探索区域的上下文信息,例如占用情况和语义细节。这些预测使机器人能够有效地选择有意义的长期导航目标,从而显著增强在未知环境中的探索能力。我们使用Structured3D数据集验证了基于想象的这种方法,展示了准确的占用预测能力以及在预测未知场景几何方面的卓越表现。我们的实验表明,想象模块提高了在未知环境中的探索效率,在Structured3D验证集上实现了PointNav的100%完成率和ObjectNav的67% SPL。这些贡献展示了想象驱动推理对于自主系统增强可推广性和高效探索的强大作用。 |