![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.RO方向,2025年4月24日更新论文23篇
|
[1] 测量形状补全中的不确定性以提高抓取质量 标题: Measuring Uncertainty in Shape Completion to Improve Grasp Quality 作者: Nuno Ferreira Duarte / Seyed S. Mohammadi / Plinio Moreno / Alessio Del Bue / Jose Santos-Victor 原文: [英文] [中文] 备注: 7 pages, 5 figures 摘要: 形状补全网络最近在现实世界的机器人实验中被用于补全环境中缺失或隐藏的信息,在这些环境中,物体仅在一个或少数几个实例中被观察到,而自遮挡是不可避免的。如今,大多数方法依赖于处理丰富的三维点云数据的深度神经网络,这些数据可以生成更精确和逼真的物体几何形状。然而,由于这些模型的非确定性/随机推断,它们仍然存在不准确性,这可能导致在抓取场景中表现不佳,因为这些错误会累积导致抓取失败。我们提出了一种方法,用于在推断桌面上物体的单视图点云时计算三维形状补全模型的不确定性。此外,我们通过引入抓取候选中已完成点云的不确定性,提出了对抓取姿态算法质量评分的更新。为了测试我们的完整流程,我们使用一个带有两个手指夹持器的7自由度机器人手臂对大量家用物品进行实际抓取,并与不测量不确定性的先前方法进行比较。与最先进的方法相比,我们的方法在抓取质量排名上表现更好,使得排名前五的抓取候选的抓取成功率更高。 |
[2] 用于机器人操作臂的质量自适应导纳控制 标题: Mass-Adaptive Admittance Control for Robotic Manipulators 作者: Hossein Gholampour / Jonathon E. Slightam / Logan E. Beaver 原文: [英文] [中文] 备注: 6 pages, 7 figures 摘要: 在机器人领域中,处理质量未知或变化的物体是一个常见的挑战,如果控制系统不能实时适应,往往会导致错误或不稳定。在本文中,我们提出了一种新颖的方法,使六自由度机器人操纵器能够可靠地跟随路径点,同时自动估计和补偿未知的负载重量。我们的方法将容纳控制框架与质量估计器相结合,使机器人能够动态更新激励力以补偿负载质量。这一策略减轻了末端执行器的下垂现象,并在处理未知重量的物体时保持稳定性。我们在一个具有横杆的货架上进行了具有挑战性的抓取和放置任务实验验证,与基线容纳控制方案相比,提高了到达路径点的准确性和顺应性运动。通过安全地适应未知负载,我们的工作增强了机器人自动化的灵活性,并在不确定环境的自适应控制方面迈出了重要一步。 |
[3] 视觉控制的矫形手部外骨骼 标题: Vision Controlled Orthotic Hand Exoskeleton 作者: Connor Blais / Md Abdul Baset Sarker / Masudul H. Imtiaz 原文: [英文] [中文] 备注: None 摘要: 本文介绍了一种由人工智能视觉控制的矫形手外骨骼的设计和实现,旨在增强手部活动障碍者的康复和辅助功能。该系统利用了配备Edge TPU的Google Coral Dev Board Micro,实现了基于六类数据集训练的定制MobileNet_V2模型的实时物体检测。外骨骼能够自主检测物体、估算距离,并触发气动驱动以完成抓取和释放任务,消除了传统基于肌电图系统所需的用户特定校准。设计优先考虑紧凑性,配备内部电池,使用1300 mAh电池可实现8小时运行时间。实验结果显示推理速度为51毫秒,相较于之前的版本有显著提升,尽管在不同光照条件和物体方向下模型的鲁棒性仍面临挑战。最新的YOLO模型(YOLOv11)表现出15.4 FPS的潜力,但量化问题阻碍了部署。该原型强调了视觉控制外骨骼在现实世界辅助应用中的可行性,平衡了便携性、效率和实时响应能力,同时指出了模型优化和硬件小型化的未来方向。 |
[4] PCF-Grasp:将点云补全转换为几何特征以增强6自由度抓取 标题: PCF-Grasp: Converting Point Completion to Geometry Feature to Enhance 6-DoF Grasp 作者: Yaofeng Cheng / Fusheng Zha / Wei Guo / Pengfei Wang / Chao Zeng / Lining Sun / Chenguang Yang 原文: [英文] [中文] 备注: None 摘要: 基于点云的六自由度(6-DoF)抓取方法在使机器人抓取目标物体方面显示出显著潜力。然而,大多数现有方法基于从单视图深度图像生成的点云(2.5D点)。这些点云仅包含物体的一个表面侧面,提供不完整的几何信息,这会误导抓取算法判断目标物体的形状,导致抓取精度低。人类可以通过利用几何经验从单一视角准确抓取物体。受人类启发,我们提出了一种新颖的6-DoF抓取框架,将点补全结果转换为物体形状特征,以训练6-DoF抓取网络。在这里,点补全可以从2.5D点生成近似完整的点,类似于人类的几何经验,而将其转换为形状特征是利用它来提高抓取效率的方法。此外,由于网络生成与实际执行之间的差距,我们在框架中集成了一个评分过滤器,以选择更可执行的抓取方案用于真实机器人。这使得我们的方法能够在任何相机视角下保持高抓取质量。大量实验表明,利用完整的点特征可以生成显著更准确的抓取方案,并且包含评分过滤器极大地增强了真实世界机器人抓取的可信度。我们的方法在真实世界实验中比最先进的方法高出17.8%的成功率。 |
[5] 基于道路相似性的BEV-卫星图像匹配用于UGV定位 标题: Road Similarity-Based BEV-Satellite Image Matching for UGV Localization 作者: Zhenping Sun / Chuang Yang / Yafeng Bu / Bokai Liu / Jun Zeng / Xiaohui Li 原文: [英文] [中文] 备注: 7 pages,9 figures,published to IROS2025 摘要: 为了应对在无GNSS的越野环境中实现自主地面车辆定位的挑战,本研究提出了一种基于匹配的定位方法,该方法利用鸟瞰图感知图像和卫星地图在道路相似空间中实现高精度定位。我们首先实现了一个鲁棒的激光雷达惯性里程计系统,然后融合激光雷达和图像数据生成地面车辆的局部鸟瞰图感知图像。该方法减轻了地面视图图像与卫星地图之间显著的视点差异。接着,将鸟瞰图图像和卫星地图投射到道路相似空间中,在该空间中计算归一化互相关(NCC)以评估匹配效果。随后,采用粒子滤波器来估计车辆位置的概率分布。与GNSS地面真值相比,我们的定位系统在长达10公里的长距离测试中表现出稳定性而无发散,平均横向误差仅为0.89米,平均平面欧几里得误差为3.41米。此外,即使在夜间条件下,它也能保持准确和稳定的全球定位,进一步验证了其鲁棒性和适应性。 |
[6] 通过元学习实现快速在线自适应神经模型预测控制 标题: Fast Online Adaptive Neural MPC via Meta-Learning 作者: Yu Mei / Xinyu Zhou / Shuyang Yu / Vaibhav Srivastava / Xiaobo Tan 原文: [英文] [中文] 备注: None 摘要: 数据驱动的模型预测控制(MPC)在提高机器人控制性能方面展示了显著的潜力,尤其是在存在模型不确定性的情况下。然而,现有的方法通常需要大量的离线数据收集和计算密集型的训练,这限制了它们在线适应的能力。为了解决这些挑战,本文提出了一种快速在线自适应MPC框架,该框架利用了与模型无关的元学习(MAML)相结合的神经网络。我们的方法专注于残差动态的少样本适应——捕捉标称和真实系统行为之间的差异——使用最少的在线数据和梯度步骤。通过将这些元学习的残差模型嵌入到一个计算高效的基于L4CasADi的MPC流程中,所提出的方法能够实现快速的模型校正,提高预测精度,并改善实时控制性能。我们通过对范德波尔振荡器、小车-杆系统和二维四旋翼机的仿真研究验证了该框架。结果显示,与标称MPC和标称MPC加上新初始化的神经网络相比,我们的方法在适应速度和预测精度上有显著提升,强调了我们的方法在实时自适应机器人控制中的有效性。 |
[7] DPGP:一种用于安全自动驾驶的混合2D-3D双路径潜在幽灵探测区预测框架 标题: DPGP: A Hybrid 2D-3D Dual Path Potential Ghost Probe Zone Prediction Framework for Safe Autonomous Driving 作者: Weiming Qu / Jiawei Du / Shenghai Yuan / Jia Wang / Yang Sun / Shengyi Liu / Yuanhao Zhu / Jianfeng Yu / Song Cao / Rui Xia / Xiaoyu Tang / Xihong Wu / Dingsheng Luo 原文: [英文] [中文] 备注: None 摘要: 现代机器人必须在人口密集的城市环境中与人类共存。一个关键挑战是幽灵探测问题,即行人或物体意外地冲入交通路径。这一问题影响到自动驾驶车辆和人类驾驶员。现有的研究提出了车联网(V2X)策略和非视距(NLOS)成像来检测幽灵探测区域。然而,大多数方法需要高计算能力或专用硬件,限制了其在现实世界中的可行性。此外,许多方法并未明确解决这一问题。为了解决这个问题,我们提出了DPGP,一种混合2D-3D融合框架,用于仅使用单目相机在训练和推理过程中预测幽灵探测区域。通过无监督深度预测,我们观察到幽灵探测区域与深度不连续性对齐,但不同的深度表示提供了不同的鲁棒性。为了利用这一点,我们融合了多种特征嵌入以提高预测效果。为了验证我们的方法,我们创建了一个包含12K图像的数据集,并对幽灵探测区域进行了标注,数据来源经过仔细筛选和交叉验证以确保准确性。实验结果表明,我们的框架在保持成本效益的同时优于现有方法。据我们所知,这是第一个将幽灵探测区域预测扩展到车辆之外的工作,解决了多种非车辆物体的问题。我们将开源我们的代码和数据集以造福社区。 |
[8] SILM:一种基于主观意图的低延迟多交通参与者联合轨迹预测框架 标题: SILM: A Subjective Intent Based Low-Latency Framework for Multiple Traffic Participants Joint Trajectory Prediction 作者: Qu Weiming / Wang Jia / Du Jiawei / Zhu Yuanhao / Yu Jianfeng / Xia Rui / Cao Song / Wu Xihong / Luo Dingsheng 原文: [英文] 备注: None 摘要: 轨迹预测是先进自动驾驶系统中的一项基础技术,也是认知智能领域中最具挑战性的问题之一。准确预测每个交通参与者的未来轨迹是构建高安全性和高可靠性决策、规划和控制能力的前提。然而,现有方法通常仅关注其他交通参与者的运动,而不考虑其运动背后的潜在意图,这增加了轨迹预测的不确定性。自动驾驶车辆在实时环境中运行,这意味着轨迹预测算法必须能够实时处理数据并生成预测。尽管许多现有方法在准确性上表现出色,但它们往往难以有效应对异质交通场景。在本文中,我们提出了一种基于主观意图的低延迟多交通参与者联合轨迹预测框架。我们的方法明确地结合了交通参与者基于其关键点的主观意图,并在不依赖地图的情况下联合预测未来轨迹,这确保了良好的性能,同时显著降低了预测延迟。此外,我们引入了一个专门为轨迹预测设计的新数据集。相关代码和数据集将很快发布。 |
[9] 具有变化形态的腿式机器人快速模块化整体拉格朗日动力学 标题: Fast and Modular Whole-Body Lagrangian Dynamics of Legged Robots with Changing Morphology 作者: Sahand Farghdani / Omar Abdelrahman / Robin Chhabra 原文: [英文] [中文] 备注: None 摘要: 快速和模块化的多足机器人(MLRs)建模对于实现具有弹性的控制至关重要,特别是在因机械损伤导致显著形态变化的情况下。传统的固定结构模型通常是在对名义步态进行简化假设的基础上开发的,缺乏适应此类情境的灵活性。为了解决这个问题,我们提出了一种使用玻尔兹曼-哈梅尔方程和螺旋理论的快速模块化全身建模框架,其中每条腿的动力学被独立建模,并根据当前的机器人形态进行组装。这种无奇异、闭式的公式化方法能够高效设计基于模型的控制器和损伤识别算法。其模块化特性允许在不需要手动重新推导或重新训练神经网络的情况下,自主适应各种损伤配置。我们使用一个集成了接触动力学、步态生成器和局部腿部控制的自定义仿真引擎验证了所提出的框架。与在多条腿损伤的六足机器人上的硬件测试进行的对比仿真证实了该模型的准确性和适应性。此外,运行时间分析表明,所提出的模型大约比实时快三倍,使其适合用于损伤识别和恢复的实时应用。 |
[10] 使用消费级相机在黑暗中进行长时间曝光定位 标题: Long Exposure Localization in Darkness Using Consumer Cameras 作者: Michael Milford / Ian Turner / Peter Corke 原文: [英文] 备注: None 摘要: 在本文中,我们评估了SeqSLAM算法在非常黑暗环境中使用低成本相机进行被动视觉定位的性能,这些相机会导致图像严重模糊。我们评估了由于曝光时间长达10,000毫秒而导致的运动模糊的影响,以及在白天从夜间学习的路线进行定位的性能,这些实验在两个不同的环境中进行。最后,我们进行了统计分析,将匹配未经处理的灰度图像的基线性能与使用补丁归一化和局部邻域归一化(SeqSLAM的两个关键组件)进行了比较。我们的结果和分析首次揭示了SeqSLAM算法为何有效,并展示了尽管外观变化极大,廉价相机定位系统的潜力。 |
[11] ManipDreamer:通过动作树和视觉引导提升机器人操作世界模型 标题: ManipDreamer: Boosting Robotic Manipulation World Model with Action Tree and Visual Guidance 作者: Ying Li / Xiaobao Wei / Xiaowei Chi / Yuming Li / Zhongyu Zhao / Hao Wang / Ningning Ma / Ming Lu / Shanghang Zhang 原文: [英文] [中文] 备注: 9 pages, 3 figures 摘要: 尽管最近在机器人操作视频合成方面取得了进展,但在确保有效的指令跟随和实现高视觉质量方面仍然存在重大挑战。最近的方法,如RoboDreamer,利用语言分解将指令分解为独立的低级原语,并将世界模型基于这些原语进行条件化,以实现组合指令跟随。然而,这些独立的原语并未考虑它们之间存在的关系。此外,最近的方法忽视了宝贵的视觉指导,包括深度和语义指导,这两者对于增强视觉质量至关重要。本文介绍了ManipDreamer,这是一种基于动作树和视觉指导的先进世界模型。为了更好地学习指令原语之间的关系,我们将指令表示为动作树,并为树节点分配嵌入,每个指令可以通过在动作树中导航来获取其嵌入。指令嵌入可以用于指导世界模型。为了增强视觉质量,我们通过引入与世界模型兼容的视觉指导适配器来结合深度和语义指导。这个视觉适配器增强了视频生成的时间和物理一致性。基于动作树和视觉指导,ManipDreamer显著提升了指令跟随能力和视觉质量。在机器人操作基准上的全面评估表明,ManipDreamer在已知和未知任务中的视频质量指标上取得了大幅提升,与最近的RoboDreamer模型相比,PSNR从19.55提高到21.05,SSIM从0.7474提高到0.7982,未知任务中的流动误差从3.506减少到3.201。此外,我们的方法在6个RLbench任务中平均将机器人操作任务的成功率提高了2.5%。 |
[12] 十二面体无人机:一种由十二面体模块组成的多功能多旋翼系统 标题: The Dodecacopter: a Versatile Multirotor System of Dodecahedron-Shaped Modules 作者: Kévin Garanger / Thanakorn Khamvilai / Jeremy Epps / Eric Feron 原文: [英文] [中文] 备注: None 摘要: 为了实现更高的安全性和适应性,模块化可重构无人机被提出作为独特且多功能的平台,具有同时替代多种单一类型飞行器的潜力。最先进的刚性组装模块化飞行器通常是二维配置,其中旋翼共面并呈现“飞行阵列”的形状。我们介绍了一种新型模块化旋翼机——Dodecacopter,其中所有模块均呈现正十二面体的形状,允许创建比飞行阵列更丰富的配置集。特别是,我们展示了所选模块设计如何用于创建三维和完全驱动的配置。我们通过各种性能指标证明了这些类型配置在结构和驱动特性方面的相关性。鉴于我们提出的设计可以实现广泛的配置和能力,我们制定了可行的优化程序,以在给定结构和驱动约束的情况下找到最佳配置。最后,展示了这种飞行器的原型以及在多种配置下进行飞行的结果。 |
[13] HERB:人类增强的高效装箱强化学习 标题: HERB: Human-augmented Efficient Reinforcement learning for Bin-packing 作者: Gojko Perovic / Nuno Ferreira Duarte / Atabak Dehban / Gonçalo Teixeira / Egidio Falotico / José Santos-Victor 原文: [英文] [中文] 备注: 7 pages, 5 Figures 摘要: 高效地包装物品是物流、仓库自动化和机器人技术中的一个基本问题。虽然传统的包装解决方案侧重于几何优化,但包装不规则的三维物体由于形状和稳定性的变化而面临重大挑战。强化学习(RL)在机器人包装任务中越来越受欢迎,但仅从模拟中进行训练可能效率低下且计算成本高。在这项工作中,我们提出了HERB,一种用于包装不规则物体的人类增强RL框架。我们首先利用人类演示来学习最佳的物品包装顺序,结合空间优化、稳定性和物品关系等难以明确建模的潜在因素。接下来,我们训练了一种放置算法,该算法使用视觉信息来确定包装容器内物品的最佳位置。我们的方法通过广泛的性能评估得到验证,分析了包装效率和延迟。最后,我们在一个机器人系统上展示了我们方法的实际可行性。实验结果表明,我们的方法通过利用人类直觉,优于几何和纯RL方法,提高了包装的稳健性和适应性。这项工作突出了结合人类专业知识驱动的RL在机器人系统中解决复杂现实世界包装挑战的潜力。 |
[14] PP-Tac:使用灵巧机器人手的触觉反馈进行纸张拾取 标题: PP-Tac: Paper Picking Using Tactile Feedback in Dexterous Robotic Hands 作者: Pei Lin / Yuzhe Huang / Wanlin Li / Jianpeng Ma / Chenxi Xiao / Ziyuan Jiao 原文: [英文] [中文] 备注: accepted by Robotics: Science and Systems(RSS) 2025 摘要: 机器人越来越被设想为人类的伙伴,协助处理日常任务,这些任务通常涉及操控可变形物体。尽管机器人硬件和具身人工智能的最新进展扩展了它们的能力,但当前系统在处理诸如纸张和织物等薄的、平的、可变形物体时仍然存在困难。这一限制源于缺乏适合的感知技术来在多样的物体外观下进行稳健的状态估计,以及缺乏生成适当抓取动作的规划技术。为弥补这些不足,本文介绍了PP-Tac,一种用于拾取类似纸张物体的机器人系统。PP-Tac配备了多指机器人手和高分辨率全向触觉传感器\sensorname。这种硬件配置能够实现实时滑动检测和在线摩擦力控制,以减轻滑动。此外,抓取动作的生成是通过轨迹合成管道实现的,该管道首先构建了手指捏合动作的数据集。基于该数据集,训练了一种基于扩散的策略来控制手臂机器人系统。实验表明,PP-Tac能够有效抓取不同材料、厚度和刚度的类似纸张物体,总体成功率达到87.5%。据我们所知,这是首次尝试使用触觉灵巧手抓取类似纸张的可变形物体。我们的项目网页可以在此URL找到:this https URL |
[15] 离线机器人世界模型:无需物理模拟器学习机器人策略 标题: Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator 作者: Chenhao Li / Andreas Krause / Marco Hutter 原文: [英文] 备注: None 摘要: 强化学习(RL)在机器人控制方面展示了令人印象深刻的能力,但由于高样本复杂性、安全性问题以及模拟到现实的差距,仍然具有挑战性。虽然离线强化学习通过从预先收集的数据中学习消除了在现实世界中进行风险探索的需要,但它受到分布转移的影响,限制了策略的泛化。基于模型的强化学习(MBRL)通过利用预测模型进行合成回滚来解决这个问题,但现有方法通常缺乏稳健的不确定性估计,导致离线环境中的累积误差。我们引入了离线机器人世界模型(RWM-O),这是一种基于模型的方法,明确估计认知不确定性,以在不依赖物理模拟器的情况下改进策略学习。通过将这些不确定性估计整合到策略优化中,我们的方法惩罚不可靠的转换,减少对模型误差的过拟合并增强稳定性。实验结果表明,RWM-O提高了泛化和安全性,使得策略学习纯粹依赖于现实世界的数据,并推进了可扩展的、高效的数据强化学习在机器人领域的发展。 |
[16] DYNUS:动态未知环境中的不确定性感知轨迹规划器 标题: DYNUS: Uncertainty-aware Trajectory Planner in Dynamic Unknown Environments 作者: Kota Kondo / Mason Peterson / Nicholas Rober / Juan Rached Viso / Lucas Jia / Jialin Chen / Harvey Merton / Jonathan P. How 原文: [英文] [中文] 备注: 20 pages, 30 figures, Under review at IEEE Transactions on Robotics 摘要: 本文介绍了DYNUS,这是一种为动态未知环境设计的不确定性感知轨迹规划器。在这种环境中操作面临许多挑战——最显著的是,由于代理无法预测障碍物的真实未来路径,先前规划的轨迹可能随时变得不安全,需要快速重新规划以避免碰撞。 最近开发的规划器使用软约束方法来实现所需的快速计算时间;然而,这些方法即使在静态障碍物的情况下也不能保证无碰撞路径。相比之下,硬约束方法确保无碰撞安全性,但通常计算时间较长。 为了解决这些问题,我们提出了三个关键贡献。首先,DYNUS全局规划器(DGP)和时间安全走廊生成在时空空间中运行,并处理3D环境中的静态和动态障碍物。其次,安全规划框架利用探索性、安全性和应急轨迹的组合,在检测到与动态障碍物的潜在未来碰撞时灵活地重新规划路径。最后,快速硬约束局部轨迹公式使用变量消除方法来减少问题规模,并通过预先计算自由变量和依赖变量之间的依赖关系来实现更快的计算,同时仍然确保无碰撞轨迹。 我们在各种模拟环境中评估了DYNUS,包括密集森林、狭窄的办公空间、洞穴系统和动态环境。我们的实验表明,DYNUS实现了100%的成功率,旅行时间比最先进的方法快约25.0%。我们还在多个平台上评估了DYNUS——包括四旋翼飞行器、轮式机器人和四足机器人——在模拟和硬件实验中。 |
[17] 马赛克:一种面向技能的长时间操控规划算法框架 标题: MOSAIC: A Skill-Centric Algorithmic Framework for Long-Horizon Manipulation Planning 作者: Itamar Mishani / Yorai Shaoul / Maxim Likhachev 原文: [英文] [中文] 备注: Under review. Project page: this https URL 摘要: 使用一组预定义技能进行长时间跨度的运动规划是机器人技术和人工智能中的一个关键挑战。解决这一挑战需要系统地探索技能组合以发现解决任务的序列,利用通用且易于学习的技能(例如,推、抓)来推广到未见过的任务,并避免依赖需要大量领域和任务特定知识的符号世界表示。尽管取得了显著进展,这些元素在现有方法中仍然大多是分离的,导致在实现复杂、长时间跨度问题的稳健、可扩展解决方案方面存在关键差距。在这项工作中,我们提出了MOSAIC,一个以技能为中心的框架,通过使用技能本身来指导规划过程,将这些元素统一起来。MOSAIC使用两类技能:生成器计算可执行的轨迹和世界配置,连接器通过解决边界值问题将这些独立生成的技能轨迹连接起来,从而推动完成整体任务。通过打破从预定义的起始或目标状态逐步发现技能的传统范式——这一限制显著限制了探索——MOSAIC将规划工作集中在技能本身有效的区域。我们展示了MOSAIC在模拟和现实世界的机器人操作任务中的有效性,展示了其使用多样化技能集解决复杂长时间跨度规划问题的能力,这些技能集结合了生成扩散模型、运动规划算法和特定于操作的模型。访问此https URL以获取演示和示例。 |
[18] Graph2Nav:用于机器人导航的三维对象关系图生成 标题: Graph2Nav: 3D Object-Relation Graph Generation to Robot Navigation 作者: Tixiao Shan / Abhinav Rajvanshi / Niluthpol Mithun / Han-Pang Chiu 原文: [英文] [中文] 备注: None 摘要: 我们提出了Graph2Nav,一个实时3D对象关系图生成框架,用于现实世界中的自主导航。我们的框架能够全面生成并利用3D对象以及3D分层场景图中对象之间丰富的语义关系,适用于室内和室外场景。它通过3D语义映射技术,将最先进的2D全景场景图工作扩展到3D世界中,从而学习生成对象之间的3D语义关系。这种方法避免了直接从3D数据中学习3D场景图时的训练数据限制。我们进行了实验,以验证在我们的3D场景图中定位3D对象和标记对象关系的准确性。我们还通过与SayNav集成来评估Graph2Nav的影响,SayNav是一个基于大型语言模型的最先进的规划器,用于无人地面机器人在真实环境中的对象搜索任务。我们的结果表明,在场景图中建模对象关系提高了这些导航任务中的搜索效率。 |
[19] 使用潜在扩散模型实现物理一致的人形机器人运动操控 标题: Physically Consistent Humanoid Loco-Manipulation using Latent Diffusion Models 作者: Ilyass Taouil / Haizhou Zhao / Angela Dai / Majid Khadiv 原文: [英文] [中文] 备注: None 摘要: 本文利用潜在扩散模型(LDMs)的能力生成逼真的RGB人类-物体交互场景,以指导类人机器人运动-操作规划。为此,我们从生成的图像中提取接触位置和机器人配置,然后在全身轨迹优化(TO)公式中使用这些信息,为类人机器人生成物理一致的轨迹。我们在不同的长时间运动-操作场景中通过仿真验证了我们的完整流程,并对所提出的接触和机器人配置提取流程进行了广泛分析。我们的结果表明,使用从LDMs中提取的信息,我们可以生成需要长时间推理的物理一致轨迹。 |
[20] MorphoNavi:基于数字孪生的面向对象映射的空地机器人导航 标题: MorphoNavi: Aerial-Ground Robot Navigation with Object Oriented Mapping in Digital Twin 作者: Sausar Karaf / Mikhail Martynov / Oleg Sautenkov / Zhanibek Darush / Dzmitry Tsetserukou 原文: [英文] [中文] 备注: None 摘要: 本文提出了一种新颖的映射方法,用于通用的空地机器人系统,该系统仅使用单目摄像头。所提出的系统能够检测多种物体并估计其位置,而无需针对特定环境进行微调。通过模拟的搜索和救援场景对系统性能进行了评估,在该场景中,MorphoGear机器人成功找到了一个机器人狗,同时操作员监控了整个过程。这项工作有助于开发能够在非结构化环境中运行的智能多模态机器人系统。 |
[21] 基于强化学习的软连续臂视觉伺服零样本模拟到现实转移 标题: Zero-shot Sim-to-Real Transfer for Reinforcement Learning-based Visual Servoing of Soft Continuum Arms 作者: Hsin-Jung Yang / Mahsa Khosravi / Benjamin Walt / Girish Krishnan / Soumik Sarkar 原文: [英文] [中文] 备注: The 7th Annual Learning for Dynamics & Control Conference (L4DC) 2025 摘要: 软体连续臂(SCAs)的柔软和可变形特性由于其无限自由度和非线性行为,在建模和控制方面带来了挑战。本文介绍了一种基于强化学习(RL)的框架,用于在SCAs上进行视觉伺服任务,并具备零样本仿真到现实的转移能力。该框架在一个能够弯曲和扭转的单节气动机械臂上进行了演示。该框架通过使用RL运动学控制器进行运动规划和局部控制器进行执行精细化,将运动学与机械特性解耦,并利用视觉反馈进行最小化传感。RL控制器完全在仿真中训练,达到了99.8%的成功率。在硬件上部署时,它在零样本仿真到现实的转移中达到了67%的成功率,展示了其鲁棒性和适应性。该方法为SCAs在三维视觉伺服中的应用提供了一种可扩展的解决方案,并具有进一步优化和扩展应用的潜力。 |
[22] 元学习在线动态模型在越野自动驾驶中的适应 标题: Meta-Learning Online Dynamics Model Adaptation in Off-Road Autonomous Driving 作者: Jacob Levy / Jason Gibson / Bogdan Vlahov / Erica Tevere / Evangelos Theodorou / David Fridovich-Keil / Patrick Spieler 原文: [英文] [中文] 备注: None 摘要: 高速越野自动驾驶由于复杂多变的地形特征以及准确建模地形-车辆交互的困难而面临独特的挑战。虽然基于模型的控制中使用的动力学模型可以从现实世界数据中学习,但它们往往难以推广到未见过的地形,因此实时适应至关重要。我们提出了一种新颖的框架,将基于卡尔曼滤波的在线适应方案与元学习参数相结合,以应对这些挑战。离线元学习优化了适应发生的基函数以及适应参数,而在线适应则在实时中动态调整车载动力学模型以进行基于模型的控制。我们通过广泛的实验验证了我们的方法,包括在全尺寸自动驾驶越野车辆上的现实世界测试,证明我们的方法在预测准确性、性能和安全指标上优于基线方法,尤其是在安全关键场景中。我们的结果强调了元学习动力学模型适应的有效性,推动了能够在多样且未见环境中导航的可靠自动系统的发展。视频可在此网址观看:this https URL |
[23] 用于模仿学习的潜在扩散规划 标题: Latent Diffusion Planning for Imitation Learning 作者: Amber Xie / Oleh Rybkin / Dorsa Sadigh / Chelsea Finn 原文: [英文] [中文] 备注: None 摘要: 最近在模仿学习领域的进展得益于能够扩展到复杂视觉运动任务、多模态分布和大数据集的策略架构。然而,这些方法通常依赖于从大量专家演示中学习。为了解决这些不足,我们提出了潜在扩散规划(LDP),这是一种模块化方法,包括一个可以利用无动作演示的规划器和一个可以利用次优数据的逆动力学模型,两者都在学习的潜在空间中运行。首先,我们通过变分自编码器学习一个紧凑的潜在空间,从而在基于图像的领域中有效预测未来状态。然后,我们使用扩散目标训练规划器和逆动力学模型。通过将规划与动作预测分开,LDP可以从次优和无动作数据的更密集监督信号中受益。在模拟的视觉机器人操作任务中,LDP优于最先进的模仿学习方法,因为它们无法利用这些额外的数据。 |