![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.RO方向,2025年4月7日更新论文15篇
|
[1] 在预算限制下未知环境中安全规划的自主架构 标题: Autonomy Architectures for Safe Planning in Unknown Environments Under Budget Constraints 作者: Daniel M. Cherenson / Devansh R. Agrawal / Dimitra Panagou 原文: [英文] [中文] 备注: Code: this https URL 摘要: 任务规划通常可以被表述为一个在多路径约束(即安全约束)和预算约束(即资源消耗约束)下的受限控制问题。在先验未知的环境中,验证一个离线解决方案是否能始终满足所有约束可能是困难的,甚至是不可能的。我们的贡献如下:1)我们提出了一种在线方法,基于我们之前的工作“gatekeeper”,以保证在整个任务过程中系统轨迹的安全性并满足预算约束。2)接下来,我们证明了我们的算法是递归可行且正确的。3)最后,我们提出了一种基于采样的方法来构建备份轨迹,而不是使用启发式设计的备份控制器,这种方法既能最小化资源消耗,又能到达预算更新集,在这些集合中路径约束得到满足且受限资源得到更新。我们在模拟中展示了我们的方法,使用一架固定翼无人机在一个GNSS拒止环境中进行演示,该环境中对定位误差有预算约束,可以在视觉地标处更新。 |
[2] AuDeRe:通过大型语言模型在机器人规划和控制中实现自动化策略决策和实现 标题: AuDeRe: Automated Strategy Decision and Realization in Robot Planning and Control via LLMs 作者: Yue Meng / Fei Chen / Yongchao Chen / Chuchu Fan 原文: [英文] [中文] 备注: 8 pages, 14 figures, submitted for CDC 2025 invited session on Large Language Models (LLMs) and Control 摘要: 最近在大型语言模型(LLMs)方面的进展在多个领域,尤其是机器人学中展现了显著的前景。然而,以往大多数基于LLM的机器人应用工作要么直接预测路径点,要么在固定的工具集成框架中应用LLM,这在探索和配置最适合不同任务的解决方案方面提供的灵活性有限。在这项工作中,我们提出了一个框架,该框架利用LLM根据任务描述、环境约束和系统动态选择合适的规划和控制策略。然后,通过调用可用的综合规划和控制API来执行这些策略。我们的方法采用基于性能反馈的迭代LLM推理来优化算法选择。我们通过广泛的实验验证了我们的方法,这些实验涵盖了从简单跟踪到涉及时空约束的复杂规划场景的不同复杂性任务。结果表明,使用LLM从自然语言描述中确定规划和控制策略显著增强了机器人自主性,同时减少了对广泛手动调整和专家知识的需求。此外,我们的框架在不同任务中保持了普遍性,并显著优于依赖LLM进行直接轨迹、控制序列或代码生成的基线方法。 |
[3] 如何调整控制障碍函数?一种基于学习的方法及其在垂直起降四旋翼飞机中的应用 标题: How to Adapt Control Barrier Functions? A Learning-Based Approach with Applications to a VTOL Quadplane 作者: Taekyung Kim / Randal W. Beard / Dimitra Panagou 原文: [英文] [中文] 备注: Project page: this https URL 摘要: 在本文中,我们提出了一种新的理论框架,用于在输入约束下在线调整控制障碍函数(CBF)参数,即CBF条件中包含的K类函数。我们引入了局部验证CBF参数的概念,这些参数通过在线调整以保证有限时间范围内的安全性,基于从Nagumo定理和切锥分析中得出的条件。为了在线识别这些参数,我们结合了一种基于学习的方法与不确定性感知的验证过程,该过程考虑了神经网络预测中固有的认知不确定性和随机不确定性。我们的方法在一个垂直起降四旋翼飞机模型上进行了验证,特别是在具有挑战性的过渡和着陆机动中,展示了在保持安全的同时增强的性能。 |
[4] 使用等变模型和抓取评分优化的推抓策略学习 标题: Push-Grasp Policy Learning Using Equivariant Models and Grasp Score Optimization 作者: Boce Hu / Heng Tian / Dian Wang / Haojie Huang / Xupeng Zhu / Robin Walters / Robert Platt 原文: [英文] [中文] 备注: None 摘要: 在杂乱环境中进行目标导向的机器人抓取仍然是一个具有挑战性的问题,因为周围物体造成的遮挡阻碍了对目标物体的直接访问。一个有前景的解决方案是结合推和抓的策略,主动重新排列场景以促进目标的获取。然而,现有方法往往忽视了此类任务中固有的丰富几何结构,从而限制了它们在复杂且高度杂乱场景中的有效性。为了解决这个问题,我们提出了等变推抓网络,这是一种用于联合推和抓策略学习的新框架。我们的贡献有两个方面:(1)利用SE(2)等变性来提高推和抓的性能;(2)基于抓取评分优化的训练策略,简化了联合学习过程。实验结果表明,与强基线相比,我们的方法在模拟环境中将抓取成功率提高了49%,在现实场景中提高了35%,这代表了推抓策略学习的显著进步。 |
[5] 连续体平面抓取的静力学 标题: Statics of continuum planar grasping 作者: Udit Halder 原文: [英文] [中文] 备注: None 摘要: 连续体机器人抓取受到生物附肢(如章鱼触手和象鼻)的启发,提供了一种多功能且适应性强的物体操控方法。与传统的刚体抓取不同,连续体机器人利用分布式柔顺性和全身接触来实现稳健而灵巧的抓取。本文提出了一个控制理论框架,用于分析与平面物体连续接触的静力学。物体静力平衡的控制方程被表述为一个线性控制系统,其中分布式接触力作为控制输入。为了优化抓取性能,提出了一个约束最优控制问题,以最小化实现静态抓取所需的接触力,并使用庞特里亚金最大值原理求解。此外,本文引入了两个优化问题:(i)为特定抓取的质量分配一个度量,该度量在连续体情况下推广了(刚体)抓取质量指标;(ii)寻找最佳抓取配置以最大化连续体抓取质量。文中还提供了一些数值结果以阐明我们的方法。 |
[6] 利用基于凝视推断的操作员意图置信度来调整安全意识的触觉辅助 标题: The Use of Gaze-Derived Confidence of Inferred Operator Intent in Adjusting Safety-Conscious Haptic Assistance 作者: Jeremy D. Webb / Michael Bowman / Songpo Li / Xiaoli Zhang 原文: [英文] [中文] 备注: 12 pages, 15 figures 摘要: 人类在危险或有害环境中直接完成任务并不总是可行,因此这些任务越来越多地由远程操作的机器人来执行。然而,远程操作具有挑战性,因为操作员与机器人之间的脱节感是由于缺乏来自多种感官的反馈(包括触觉)以及视频反馈中缺乏深度所导致的。为了解决这个问题,所提出的系统主动推断操作员的意图,并根据预测的意图提供辅助。此外,一种新颖的方法用于计算推断意图的置信度,从而修改人机交互控制。操作员的视线被用来直观地指示目标,然后再开始使用机器人进行操作。一个势场方法被用来提供指向预期目标的引导力,并且一个安全边界减少了损坏的风险。根据操作员意图的置信度水平来调整这些辅助措施,使控制更加自然,并赋予机器人对其人类主人的直观理解。初步验证结果显示,该系统能够提高准确性、执行时间,并减少操作员错误。 |
[7] GraphSeg:通过图边添加和收缩实现分段的3D表示 标题: GraphSeg: Segmented 3D Representations via Graph Edge Addition and Contraction 作者: Haozhan Tang / Tianyi Zhang / Oliver Kroemer / Matthew Johnson-Roberson / Weiming Zhi 原文: [英文] [中文] 备注: None 摘要: 在非结构化环境中运行的机器人通常需要准确且一致的物体级别表示。这通常需要将单个物体从机器人的周围环境中分割出来。尽管最近的大型模型如Segment Anything (SAM)在2D图像分割中表现出色,但这些进展并不能直接转化为在物理3D世界中的表现,因为它们常常会过度分割物体,并且无法在不同视角之间生成一致的掩码对应关系。在本文中,我们提出了GraphSeg,这是一种从环境的稀疏2D图像集中生成一致3D物体分割的框架,无需任何深度信息。GraphSeg通过在图中添加边缘并构建双重对应图来实现:一个来自2D像素级相似性,另一个来自推断的3D结构。我们将分割问题表述为边缘添加的问题,然后进行后续的图收缩,将多个2D掩码合并为统一的物体级分割。然后,我们可以利用\emph{3D基础模型}来生成分割的3D表示。GraphSeg在显著减少图像数量的情况下实现了稳健的分割,并且比以往的方法具有更高的准确性。我们在桌面场景中展示了最先进的性能,并表明GraphSeg能够在后续的机器人操作任务中提高性能。代码可在此https URL获取。 |
[8] 基于梯度场的动态窗口方法用于复杂环境中的避碰 标题: Gradient Field-Based Dynamic Window Approach for Collision Avoidance in Complex Environments 作者: Ze Zhang / Yifan Xue / Nadia Figueroa / Knut Åkesson 原文: [英文] [中文] 备注: This paper has been submitted to IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) 2025 for possible publication 摘要: 为了在多机器人系统中实现安全且灵活的导航,本文提出了一种在复杂环境中增强和预测的基于采样的轨迹规划方法,即基于梯度场的动态窗口方法(GF-DWA)。在动态窗口方法的基础上,所提出的方法利用障碍物距离的梯度信息作为新的代价项,以预测潜在的碰撞。这一增强使机器人能够提高对障碍物的感知,包括那些具有非凸形状的障碍物。梯度场是从高斯过程距离场中导出的,该距离场通过利用高斯过程回归来建模环境的空间结构,从而生成距离场和梯度场。通过若干障碍物规避和车队碰撞规避场景,所提出的GF-DWA在安全性和灵活性方面被证明优于其他流行的轨迹规划和控制方法,特别是在具有非凸障碍物的复杂环境中。 |
[9] 用于无缝对接动作规划的动态目标模型预测控制 标题: Dynamic Objective MPC for Motion Planning of Seamless Docking Maneuvers 作者: Oliver Schumann / Michael Buchholz / Klaus Dietmayer 原文: [英文] [中文] 备注: accepted for publication at 2025 IEEE Intelligent Vehicles Symposium (IV) 摘要: 自动驾驶车辆和物流机器人通常需要在狭窄环境中以高精度定位在特定目标前,例如包裹或充电站。这些对接场景通常通过两个步骤解决:路径跟随和粗略定位,然后是高精度运动规划算法。这可能会由于第一阶段的定位不佳而产生次优轨迹,从而延长到达目标的时间。在这项工作中,我们提出了一种统一的方法,该方法基于模型预测控制(MPC),结合了模型预测轮廓控制(MPCC)与笛卡尔MPC的优点,以达到特定目标姿态。论文的主要贡献是动态权重分配方法的适应,以在驾驶走廊内达到路径终点和目标姿态,以及所谓的动态目标MPC的开发。后者是动态权重分配方法的改进,可以根据状态从MPCC到笛卡尔MPC进行内在切换,以独立于目标姿态的位置无缝解决路径跟随问题和高精度定位任务。这导致了前瞻性、可行和安全的运动计划,可以减少任务时间并产生更平滑的轨迹。 |
[10] 基于点云的软手外骨骼抓取 标题: Point Cloud-based Grasping for Soft Hand Exoskeleton 作者: Chen Hu / Enrica Tricomi / Eojin Rho / Daekyum Kim / Lorenzo Masia / Shan Luo / Letizia Gionfrida 原文: [英文] [中文] 备注: None 摘要: 抓握是与环境中的物体互动和操控的基本技能。然而,对于手部有障碍的人来说,这种能力可能具有挑战性。旨在辅助抓握的软手外骨骼可以增强或恢复基本的手部功能,但由于理解环境的复杂性,控制这些软外骨骼以有效支持用户仍然困难。本研究提出了一种基于视觉的预测控制框架,该框架利用深度感知的上下文意识来预测抓握目标并确定激活的下一个控制状态。与需要大量标记数据集且在泛化性上存在困难的数据驱动方法不同,我们的方法基于几何建模,能够在各种抓握场景中实现稳健的适应性。抓握能力评分(GAS)用于评估性能,我们的系统在15个物体和健康参与者中实现了91%的最先进GAS,展示了其在不同物体类型上的有效性。所提出的方法在未见过的物体上保持了重建成功,强调了其相比于基于学习的模型的增强泛化能力。 |
[11] MultiClear:用于透明物体抓取辅助的多模态软外骨骼手套 标题: MultiClear: Multimodal Soft Exoskeleton Glove for Transparent Object Grasping Assistance 作者: Chen Hu / Timothy Neate / Shan Luo / Letizia Gionfrida 原文: [英文] [中文] 备注: None 摘要: 抓取是与环境互动的一项基本技能。然而,由于某些原因(例如残疾),这一能力对某些人来说可能很困难。可穿戴机器人解决方案可以增强或恢复手部功能,最近的进展利用计算机视觉来提高抓取能力。然而,由于透明物体的视觉对比度差和深度线索模糊,抓取透明物体仍然具有挑战性。此外,尽管已经探索了结合触觉和听觉反馈的多模态控制策略来抓取透明物体,但视觉与这些模态的整合仍然不够完善。本文介绍了MultiClear,这是一种多模态框架,旨在通过融合RGB数据、深度数据和听觉信号来增强可穿戴软外骨骼手套对透明物体的抓取辅助。外骨骼手套集成了一个腱驱动执行器、一个RGB-D相机和一个内置麦克风。为了实现精确和自适应控制,提出了一种分层控制架构。在所提出的分层控制架构中,高级控制层提供上下文感知,中级控制层处理多模态传感输入,低级控制层执行PID电机控制以进行精细的抓取调整。通过引入视觉基础模型进行零样本分割,解决了透明物体分割的挑战。所提出的系统实现了70.37%的抓取能力评分,证明了其在透明物体操作中的有效性。 |
[12] 学习双臂协调以抓取大型平面物体 标题: Learning Dual-Arm Coordination for Grasping Large Flat Objects 作者: Yongliang Wang / Hamidreza Kasaei 原文: [英文] [中文] 备注: None 摘要: 抓取水平放置的大型平面物体(如书籍或键盘)对单臂机器人系统来说是一个重大挑战,通常需要额外的动作,如将物体推到墙边或移动到表面边缘以便于抓取。相比之下,受人类灵巧性启发的双臂操作提供了一种更精细的解决方案,通过直接协调双臂来抬起和抓取物体,而无需复杂的重新定位。在本文中,我们提出了一种无模型的深度强化学习(DRL)框架,以实现双臂协调抓取大型平面物体。我们利用一个大规模的抓取姿态检测模型作为骨干,从输入图像中提取高维特征,这些特征随后用作强化学习(RL)模型中的状态表示。采用基于卷积神经网络(CNN)的近端策略优化(PPO)算法,具有共享的Actor-Critic层,以学习协调的双臂抓取动作。该系统在Isaac Gym中进行训练和测试,并部署到真实机器人上。实验结果表明,我们的策略可以有效地抓取大型平面物体,而无需额外的操作。此外,该策略表现出强大的泛化能力,能够成功处理未见过的物体。重要的是,它可以直接转移到真实机器人上而无需微调,并且始终优于基线方法。 |
[13] 通过模仿学习实现灵巧操作:综述 标题: Dexterous Manipulation through Imitation Learning: A Survey 作者: Shan An / Ziyu Meng / Chao Tang / Yuning Zhou / Tengyu Liu / Fangqiang Ding / Shufang Zhang / Yao Mu / Ran Song / Wei Zhang / Zeng-Guang Hou / Hong Zhang 原文: [英文] [中文] 备注: 22pages, 5 figures 摘要: 灵巧操作是指机器人手或多指末端执行器通过精确、协调的手指运动和自适应的力调节,巧妙地控制、重新定位和操作物体的能力,使其能够进行类似于人手灵巧度的复杂交互。随着机器人技术和机器学习的最新进展,这些系统在复杂和非结构化环境中运行的需求日益增长。传统的基于模型的方法由于灵巧操作的高维性和复杂的接触动力学,难以在任务和物体变化中实现泛化。尽管无模型方法如强化学习(RL)显示出前景,但它们需要大量的训练、大规模的交互数据和精心设计的奖励机制以确保稳定性和有效性。模仿学习(IL)提供了一种替代方案,通过专家演示直接让机器人获得灵巧操作技能,捕捉细致的协调和接触动力学,同时避免了对显式建模和大规模试错的需求。本文综述了基于模仿学习(IL)的灵巧操作方法,详细介绍了近期的进展,并解决了该领域的关键挑战。此外,还探讨了增强基于IL的灵巧操作的潜在研究方向。我们的目标是为研究人员和从业者提供对这一快速发展的领域的全面介绍。 |
[14] 实即为仿:通过动态数字孪生体弥合仿真到现实的差距,用于真实世界机器人策略评估 标题: Real-is-Sim: Bridging the Sim-to-Real Gap with a Dynamic Digital Twin for Real-World Robot Policy Evaluation 作者: Jad Abou-Chakra / Lingfeng Sun / Krishan Rana / Brandon May / Karl Schmeckpeper / Maria Vittoria Minniti / Laura Herlant 原文: [英文] [中文] 备注: None 摘要: 最近在行为克隆方面的进展使机器人能够执行复杂的操作任务。然而,准确评估训练性能仍然具有挑战性,特别是在实际应用中,因为行为克隆损失往往与实际任务成功率的相关性较差。因此,研究人员依赖于从昂贵且耗时的实际评估中得出的成功率指标,这使得识别最佳策略以及检测过拟合或欠拟合变得不切实际。为了解决这些问题,我们提出了real-is-sim,这是一种新颖的行为克隆框架,它在整个策略开发流程中(数据收集、训练和部署)引入了基于Embodied Gaussians的动态数字孪生。通过持续对齐模拟世界与物理世界,可以在真实世界中收集演示,并从模拟器中提取状态。模拟器通过从任意视角渲染图像输入或从场景中体现的对象中提取低级状态信息,提供灵活的状态表示。在训练过程中,可以在模拟器中以离线和高度并行化的方式直接评估策略。最后,在部署过程中,策略在模拟器中运行,真实机器人直接跟踪模拟机器人的关节,有效地将策略执行与真实硬件解耦,并减轻传统的领域转移挑战。我们在PushT操作任务上验证了real-is-sim,展示了在模拟器中获得的成功率与实际评估之间的强相关性。我们系统的视频可以在此https URL中找到。 |
[15] SeGuE:用于移动机器人的语义引导探索 标题: SeGuE: Semantic Guided Exploration for Mobile Robots 作者: Cody Simons / Aritra Samanta / Amit K. Roy-Chowdhury / Konstantinos Karydis 原文: [英文] [中文] 备注: 6 pages, 4 figures, 3 tables 摘要: 具身人工智能应用的兴起使得机器人能够执行需要对环境有复杂理解的任务。为了在这样的环境中成功操作机器人,地图的构建必须包含语义信息以及几何信息。在本文中,我们解决了语义探索这一新颖问题,即移动机器人必须自主探索环境,以全面绘制其结构和特征的语义外观。我们开发了一种基于最佳下一视点探索的方法,其中潜在位置根据从该位置可见的语义特征进行评分。我们探讨了两种采样潜在视点的替代方法,并在模拟和物理实验中展示了我们框架的有效性。高质量语义地图的自动创建可以使机器人更好地理解和与其环境互动,并使未来的具身人工智能应用更容易部署。 |