![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.RO方向,2025年6月10日更新论文51篇
|
[1] 触觉MNIST:主动触觉感知的基准测试 标题: Tactile MNIST: Benchmarking Active Tactile Perception 作者: Tim Schneider / Guillaume Duret / Cristiana de Farias / Roberto Calandra / Liming Chen / Jan Peters 原文: [英文] 备注: None 摘要: 触觉感知有潜力通过提供丰富的局部信息来显著增强灵巧的机器人操作,这些信息可以补充或替代其他感官模式,如视觉。然而,由于触觉传感本质上是局部的,它本身并不适合需要广泛空间意识或全局场景理解的任务。一个受人类启发的策略是考虑使用主动感知技术。也就是说,主动引导传感器朝向具有更多信息或重要特征的区域,并随着时间的推移整合这些信息,以理解场景或完成任务。最近,主动感知和不同的触觉传感方法都受到了显著关注。然而,尽管有进展,这两个领域都缺乏标准化的基准。为弥补这一差距,我们引入了触觉MNIST基准套件,这是一个开源的、与Gymnasium兼容的基准,专为主动触觉感知任务设计,包括定位、分类和体积估计。我们的基准套件提供了多样的模拟场景,从简单的玩具环境到使用基于视觉的触觉传感器的复杂触觉感知任务。此外,我们还提供了一个综合数据集,包括13,500个合成的3D MNIST数字模型和153,600个从600个3D打印数字中收集的真实触觉样本。利用这个数据集,我们训练了一个CycleGAN用于逼真的触觉模拟渲染。通过提供标准化的协议和可重复的评估框架,我们的基准套件促进了触觉传感和主动感知领域的系统进步。 |
[2] CPS-Guard:基于AI和大型语言模型的网络物理系统的可靠性保障框架 标题: CPS-Guard: Framework for Dependability Assurance of AI- and LLM-Based Cyber-Physical Systems 作者: Trisanth Srinivasan / Santosh Patapati / Himani Musku / Idhant Gode / Aditya Arora / Samvit Bhattacharya / Abubakr Nazriev / Sanika Hirave / Zaryab Kanjiani / Srinjoy Ghose / Srinidhi Shetty 原文: [英文] [中文] 备注: None 摘要: 网络物理系统(CPS)越来越依赖先进的人工智能技术来在关键应用中运行。然而,传统的验证和验证方法往往难以处理人工智能组件的不可预测和动态特性。在本文中,我们介绍了CPS-Guard,这是一种新颖的框架,通过多角色编排来自动化人工智能驱动的CPS的迭代保证过程。通过在模拟环境中为专用代理分配专门角色(例如,安全监控、安全评估、故障注入和恢复规划),CPS-Guard持续评估和优化人工智能行为,以满足一系列可靠性要求。我们通过一个案例研究展示了该框架,该案例涉及一个使用人工智能规划器的自动驾驶汽车在交叉路口导航。我们的结果表明,CPS-Guard有效地检测漏洞,管理性能影响,并支持自适应恢复策略,从而为安全和安全关键系统中的严格验证和验证提供了一个结构化且可扩展的解决方案。 |
[3] 使用NightHawk在低光环境中进行主动照明控制 标题: Active Illumination Control in Low-Light Environments using NightHawk 作者: Yash Turkar / Youngjin Kim / Karthik Dantu 原文: [英文] [中文] 备注: None 摘要: 地下环境如涵洞由于光线昏暗和缺乏显著特征,对机器人视觉提出了重大挑战。尽管机载照明可以提供帮助,但它也带来了镜面反射、过度曝光和增加功耗等问题。我们提出了NightHawk,一个结合主动照明和曝光控制的框架,以优化这些环境中的图像质量。NightHawk将其表述为一个在线贝叶斯优化问题,以确定给定场景的最佳光强和曝光时间。我们提出了一种基于特征检测器的新颖度量方法来量化图像效用,并将其用作优化器的成本函数。我们将NightHawk构建为一个事件触发的递归优化管道,并将其部署在一台在伊利运河下方涵洞中导航的腿式机器人上。现场实验结果表明,特征检测和匹配的改进达到了47-197%,从而在具有挑战性的光照条件下实现了更可靠的视觉估计。 |
[4] 基于边缘计算的协同目标检测用于实时多车辆感知 标题: Edge-Enabled Collaborative Object Detection for Real-Time Multi-Vehicle Perception 作者: Everett Richards / Bipul Thapa / Lena Mashayekhy 原文: [英文] [中文] 备注: This paper has been accepted to IEEE EDGE 2025. The final version will be published in IEEE Xplore later this year 摘要: 准确可靠的物体检测对于确保联网自动驾驶车辆(CAVs)的安全和效率至关重要。传统的车载感知系统由于遮挡和盲点导致准确性有限,而基于云的解决方案则引入了显著的延迟,使其不适合动态环境中自动驾驶所需的实时处理需求。为了解决这些挑战,我们引入了一种创新框架——用于CAVs的边缘启用协作物体检测(ECOD),该框架利用边缘计算和多CAV协作进行实时、多视角物体检测。我们的ECOD框架集成了两个关键算法:感知聚合与协作估计(PACE)和可变物体计数与评估(VOTE)。PACE在边缘服务器上聚合来自多个CAV的检测数据,以增强在单个CAV视野有限的情况下的感知能力。VOTE利用基于共识的投票机制,通过整合来自多个CAV的数据来提高物体分类的准确性。这两个算法都设计在边缘以实现实时操作,确保CAVs的低延迟和可靠决策。我们开发了一个由配备摄像头的机器人CAV和边缘服务器组成的硬件控制测试平台,以评估我们框架的有效性。我们的实验结果显示,ECOD在提高物体分类准确性方面具有显著优势,性能比传统的单视角车载方法高出最多75%,同时确保低延迟、边缘驱动的实时处理。该研究强调了边缘计算在增强协作感知以满足延迟敏感的自动系统方面的潜力。 |
[5] 通过多模态空间感知增强水下机器人情境感知 标题: Enhancing Situational Awareness in Underwater Robotics with Multi-modal Spatial Perception 作者: Pushyami Kaveti / Ambjorn Grimsrud Waldum / Hanumant Singh / Martin Ludvigsen 原文: [英文] [中文] 备注: None 摘要: 自主水下航行器(AUVs)和遥控潜水器(ROVs)需要强大的空间感知能力,包括同时定位与地图构建(SLAM),以支持远程和自主任务。基于视觉的系统在这些进展中起到了关键作用,它们以低成本捕捉丰富的色彩和纹理,同时实现语义场景理解。然而,水下环境条件——如光衰减、后向散射和低对比度——常常会降低图像质量,以至于传统的基于视觉的SLAM流程失效。此外,这些流程通常依赖于单目或立体输入,限制了它们在许多车辆上常见的多摄像头配置中的可扩展性。为了解决这些问题,我们提出利用多模态传感技术,将来自多个传感器的数据融合,包括摄像头、惯性测量单元(IMUs)和声学设备,以增强态势感知并实现稳健的实时SLAM。我们探索了几何和基于学习的技术以及语义分析,并在特隆赫姆峡湾的多次现场部署中收集的工作级ROV数据上进行了实验。通过我们的实验结果,我们展示了在视觉上具有挑战性的水下条件下实现实时可靠状态估计和高质量3D重建的可行性。我们还讨论了系统约束并识别了开放的研究问题,例如传感器校准、基于学习的方法的局限性,这些问题值得进一步探索以推进大规模水下作业。 |
[6] BeliefMapNav:基于三维体素的信念图用于零样本目标导航 标题: BeliefMapNav: 3D Voxel-Based Belief Map for Zero-Shot Object Navigation 作者: Zibo Zhou / Yue Hu / Lingkai Zhang / Zonglin Li / Siheng Chen 原文: [英文] [中文] 备注: None 摘要: 零样本目标导航(ZSON)使机器人能够在不熟悉的环境中使用自然语言指令找到目标物体,而无需依赖预先构建的地图或任务特定的训练。最近的通用模型,如大型语言模型(LLMs)和视觉语言模型(VLMs),赋予代理以语义推理能力,以零样本方式估计目标物体的位置。然而,这些模型通常在选择下一个目标时过于贪婪,没有保持对环境的整体理解,并且在有效导航所需的空间推理方面存在根本限制。为克服这些限制,我们提出了一种新颖的基于3D体素的信念地图,该地图在体素化的3D空间中估计目标的先验存在分布。这种方法使代理能够将LLMs的语义先验和视觉嵌入与分层空间结构以及实时观察相结合,以构建目标位置的全面3D全局后验信念。基于此3D体素地图,我们引入了BeliefMapNav,一种高效的导航系统,具有两个关键优势:i) 在3D分层语义体素空间中扎根LLM语义推理,以精确估计目标位置;ii) 集成顺序路径规划以实现高效的全局导航决策。在HM3D、MP3D和HSSD基准测试上的实验表明,BeliefMapNav在成功率(SR)和路径长度加权成功率(SPL)方面达到了最新的技术水平(SOTA),与之前最佳SR方法相比,SPL显著提高了46.4%,验证了其有效性和效率。 |
[7] MapleGrasp:基于掩码引导特征池化的语言驱动高效机器人抓取 标题: MapleGrasp: Mask-guided Feature Pooling for Language-driven Efficient Robotic Grasping 作者: Vineet Bhat / Naman Patel / Prashanth Krishnamurthy / Ramesh Karri / Farshad Khorrami 原文: [英文] [中文] 备注: None 摘要: 通过自然语言命令对未见过的物体进行机器人操作仍然具有挑战性。语言驱动的机器人抓取(LDRG)从自然语言查询和RGB-D图像中预测稳定的抓取姿势。在此,我们介绍了掩码引导的特征池化,这是一种对现有LDRG方法的轻量级增强。我们的方法采用了两阶段的训练策略:首先,视觉-语言模型从CLIP融合的嵌入中生成特征图,这些特征图通过文本嵌入进行上采样和加权以生成分割掩码。接下来,解码器为抓取预测生成单独的特征图,仅在这些掩码区域内池化标记特征,以高效预测抓取姿势。这种有针对性的池化方法降低了计算复杂性,加速了训练和推理。结合掩码池化,在OCID-VLG基准上比之前的方法提高了12%。此外,我们引入了RefGraspNet,这是一个开源数据集,其规模是现有替代品的八倍,显著增强了模型在开放词汇抓取方面的泛化能力。通过深度映射和逆运动学将2D抓取预测扩展到3D,我们的模块化方法在LIBERO模拟基准上实现了与最新的视觉-语言-动作(VLA)模型相当的性能,并在不同任务套件中提高了泛化能力。在7自由度Franka机器人手臂上的真实世界实验中,对未见过的物体的成功率达到57%,比竞争基线高出7%。代码将在发表后发布。 |
[8] 语义感知的预测性检测路径规划 标题: Semantics-aware Predictive Inspection Path Planning 作者: Mihir Dharmadhikari / Kostas Alexis 原文: [英文] [中文] 备注: Accepted at IEEE Transactions on Field Robotics 摘要: 本文提出了一种新颖的语义感知检查路径规划范式,称为“语义感知预测规划”(SPP)。需要检查特定对象或结构(称为“语义”)的工业环境,例如船舶内部的压载水舱,通常呈现出结构化和重复的空间排列。受此启发,我们首先贡献了一种算法,该算法在语义场景图表示中识别语义的空间重复模式——无论是精确的还是不精确的——并利用这些模式预测图在环境未见部分的演变。此外,提出了两种检查路径规划策略,专门针对压载水舱检查,利用这些预测。为了评估新颖的预测规划范式的性能,我们进行了模拟和实验评估。首先,我们进行了一项模拟研究,将该方法与相关的最新技术进行比较,并进一步展示了其处理不完美模式的能力。其次,我们将该方法部署在一架在两艘真实船舶的压载舱内运行的抗碰撞空中机器人上。结果表明,无论是在模拟还是现场实验中,与最新技术相比,在检查时间方面显著改善,同时保持相等或更好的语义表面覆盖率。描述该方法不同部分和现场部署的一组视频可在此https URL获得。此工作的代码可在此https URL获得。 |
[9] 面向户外环境的地形感知任务驱动3D场景图生成 标题: Towards Terrain-Aware Task-Driven 3D Scene Graph Generation in Outdoor Environments 作者: Chad R Samuelson / Timothy W McLain / Joshua G Mangelson 原文: [英文] 备注: Presented at the 2025 IEEE ICRA Workshop on Field Robotics 摘要: 高级自主操作依赖于机器人构建其环境的足够表达模型的能力。传统的三维(3D)场景表示方法,如点云和占用网格,提供了详细的几何信息,但缺乏进行高级推理所需的结构化语义组织。三维场景图(3DSGs)通过将几何、拓扑和语义关系整合到基于图的多层次表示中,解决了这一限制。通过捕捉对象和空间布局的层次抽象,3DSGs使机器人能够以结构化的方式推理环境,从而改善上下文感知决策和自适应规划。尽管最近的大多数工作集中在室内3DSGs上,本文研究了它们在室外环境中的构建和实用性。我们提出了一种为大型室外环境生成任务无关的度量-语义点云的方法,并提出了对现有室内3DSG生成技术进行修改以适用于室外环境。我们的初步定性结果证明了室外3DSGs的可行性,并强调了其在未来实际现场机器人应用中部署的潜力。 |
[10] NeSyPack:用于双手物流包装的神经符号框架 标题: NeSyPack: A Neuro-Symbolic Framework for Bimanual Logistics Packing 作者: Bowei Li / Peiqi Yu / Zhenran Tang / Han Zhou / Yifan Sun / Ruixuan Liu / Changliu Liu 原文: [英文] [中文] 备注: 10 pages, 5 figures. Accepted to the RSS 2025 Workshop on Benchmarking Robot Manipulation: Improving Interoperability and Modularity. First Prize in the WBCD competition at ICRA 2025. Equal contribution by Bowei Li and Peiqi Yu 摘要: 本文介绍了NeSyPack,一种用于双手物流包装的神经符号框架。NeSyPack结合了数据驱动模型和符号推理,构建了一个可解释的分层系统,该系统具有通用性、数据效率和可靠性。它通过分层推理将任务分解为子任务,并进一步分解为由符号技能图管理的原子技能。该图选择技能参数、机器人配置和任务特定的控制策略以进行执行。这种模块化设计实现了稳健性、适应性和高效重用,优于需要大规模重新训练的端到端模型。使用NeSyPack,我们的团队在2025年IEEE国际机器人与自动化会议的"双手能做什么"(WBCD)竞赛中获得了一等奖。 |
[11] 通过基于多层次语言模型的故障数据语义解释提升机器人安全性 标题: Enhancing Robot Safety via MLLM-Based Semantic Interpretation of Failure Data 作者: Aryaman Gupta / Yusuf Umut Ciftci / Somil Bansal 原文: [英文] [中文] 备注: None 摘要: 随着机器人系统越来越多地融入现实世界环境,从自动驾驶汽车到家庭助手,它们不可避免地会遇到各种多样且无结构的场景,从而导致故障。虽然这些故障带来了安全性和可靠性方面的挑战,但它们也提供了丰富的感知数据以改善未来的性能。然而,手动分析大规模故障数据集是不切实际的。在这项工作中,我们提出了一种方法,可以自动将大规模机器人故障数据组织成语义上有意义的集群,从而实现无人工监督的故障学习。我们的方法利用了在互联网规模数据上训练的多模态大型语言模型(MLLMs)的推理能力,从原始感知轨迹中推断出高层次的故障原因,并在未经整理的故障日志中发现可解释的结构。这些语义集群揭示了潜在的模式和假设的故障原因,从而实现了从经验中可扩展的学习。我们证明了发现的故障模式可以指导针对性的数据收集以优化策略,加速代理策略的迭代改进和整体安全性。此外,我们展示了这些语义集群可以用于在线故障检测,为实时适应提供了一种轻量级但强大的保障。我们证明了该框架通过将现实世界的故障转化为可操作且可解释的适应信号,增强了机器人学习和鲁棒性。 |
[12] 水下多机器人仿真与运动规划在Angler中的应用 标题: Underwater Multi-Robot Simulation and Motion Planning in Angler 作者: Akshaya Agrawal / Evan Palmer / Zachary Kingston / Geoffrey A. Hollinger 原文: [英文] [中文] 备注: Accepted for OCEANS 2025 Brest 摘要: 在水下环境中部署多机器人系统既昂贵又耗时;在仿真中测试算法和软件可以通过将软件和硬件分离来改善开发。然而,这需要一个与现实世界非常相似的仿真框架。Angler 是一个开源框架,它模拟了用于机载自动驾驶仪(如 ArduSub)的低级通信协议,提供了一个接近现实的框架,但遗憾的是缺乏对多机器人仿真的支持。我们提出了对 Angler 的扩展,支持多机器人仿真和运动规划。我们的扩展具有模块化架构,在 Gazebo、ArduSub 软件在环(SITL)和 MAVROS 之间创建不冲突的通信通道,以便在同一环境中同时操作多个机器人。我们的多机器人运动规划模块通过 ROS 2 中的 JointTrajectory 控制器与级联控制器接口。我们还提供了与开放运动规划库(OMPL)的集成、一个避碰模块以及用于程序化环境生成的工具。我们的工作使得在动态环境中开发和基准测试水下多机器人运动规划成为可能。 |
[13] 基于注意力机制的卷积神经网络模型用于利用表面肌电信号识别人类下肢活动 标题: Attention-Based Convolutional Neural Network Model for Human Lower Limb Activity Recognition using sEMG 作者: Mojtaba Mollahossein / Farshad Haghgoo Daryakenari / Mohammad Hossein Rohban / Gholamreza Vossoughi 原文: [英文] [中文] 备注: 6 pages, 3 figures 摘要: 使用表面肌电图(sEMG)信号对下肢运动进行准确分类在辅助机器人和康复系统中起着至关重要的作用。在本研究中,我们提出了一种轻量级的基于注意力的深度神经网络(DNN),用于利用公开可用的BASAN数据集中的多通道sEMG数据进行实时运动分类。所提出的模型仅包含62,876个参数,并且设计时无需计算量大的预处理,使其适合实时部署。我们采用了留一验证策略以确保跨受试者的泛化能力,并在三种运动类别上评估了该模型:行走、屈膝站立和屈膝坐下。该网络在验证集上达到了86.74%的准确率,在测试集上达到了85.38%的准确率,显示出在现实条件下的强大分类性能。与文献中现有模型的比较分析突出了我们方法的效率和有效性,特别是在计算成本和实时响应至关重要的场景中。结果表明,所提出的模型是集成到人机交互系统中上层控制器的有前途的候选者。 |
[14] 主动测试时的视觉-语言导航 标题: Active Test-time Vision-Language Navigation 作者: Heeju Ko / Sungjune Kim / Gyeongrok Oh / Jeongyoon Yoon / Honglak Lee / Sujin Jang / Seungryong Kim / Sangpil Kim 原文: [英文] [中文] 备注: None 摘要: 视觉-语言导航(VLN)策略在离线数据集上训练时,通常在测试时部署到不熟悉的导航环境中表现出任务性能下降,此时代理通常在没有外部交互或反馈的情况下进行评估。熵最小化已成为减少测试时预测不确定性的实用解决方案;然而,它可能会遭受累积错误的影响,因为代理可能在没有足够上下文基础的情况下对错误的动作过于自信。为了解决这些挑战,我们引入了ATENA(主动测试时间导航代理),这是一种测试时间主动学习框架,通过对不确定的导航结果进行情节反馈,实现实用的人机交互。特别是,ATENA学习在成功的情节中增加确定性,在失败的情节中减少确定性,从而改善不确定性校准。在此,我们提出混合熵优化,其中熵是从动作和伪专家分布的组合中获得的——假设代理选择的动作是最优的假设动作分布——控制预测信心和动作偏好。此外,我们提出了一种自主动学习策略,使代理能够基于自信的预测评估其导航结果。因此,代理在所有迭代过程中保持积极参与,从而实现有根据且适应性的决策。对具有挑战性的VLN基准-REVERIE、R2R和R2R-CE进行的广泛评估表明,ATENA成功克服了测试时的分布转变,在各种设置中优于比较的基线方法。 |
[15] 机器人学习的自适应改进循环 标题: Self-Adapting Improvement Loops for Robotic Learning 作者: Calvin Luo / Zilai Zeng / Mingxi Jia / Yilun Du / Chen Sun 原文: [英文] [中文] 备注: None 摘要: 视频生成模型在专家演示的基础上进行训练,已被用作高效的文本条件视觉规划器来解决机器人任务。然而,推广到未见过的任务仍然是一个挑战。尽管通过利用从额外的预收集离线数据源(如网络规模的视频数据集)中学习的先验知识可以促进改进的泛化,但在经验时代,我们旨在设计能够通过自我收集的行为以在线方式持续改进的代理。在这项工作中,我们提出了自适应改进循环(SAIL),其中域内视频模型通过与互联网规模的预训练视频模型进行适应,迭代地在自我生成的轨迹上更新自身,并稳步提高其在指定感兴趣任务上的性能。我们将SAIL应用于多样化的MetaWorld任务套件,以及真实机器人手臂上的两个操作任务,发现对于最初在域内视频模型训练期间未见过的新任务,性能改进在多次迭代中不断涌现。此外,我们发现SAIL在自我收集的经验是否以及如何被过滤,以及初始域内演示的质量方面表现出惊人的鲁棒性。通过与总结的互联网规模数据进行适应,并通过在线经验进行学习,我们展示了一种通过自我改进迭代地引导高性能视频模型以解决新颖机器人任务的方法。 |
[16] DriveSuprim:迈向精确轨迹选择的端到端规划 标题: DriveSuprim: Towards Precise Trajectory Selection for End-to-End Planning 作者: Wenhao Yao / Zhenxin Li / Shiyi Lan / Zi Wang / Xinglong Sun / Jose M. Alvarez / Zuxuan Wu 原文: [英文] [中文] 备注: 15 pages, 6 figures 摘要: 在复杂的驾驶环境中,自动驾驶车辆必须安全地导航。依赖单一路径预测的回归方法通常不会明确评估预测轨迹的安全性。选择性方法通过生成和评分多个轨迹候选并预测每个的安全评分来解决这一问题,但在从数千种可能性中精确选择最佳选项以及区分细微但对安全至关重要的差异时面临优化挑战,尤其是在罕见或代表性不足的场景中。我们提出了DriveSuprim来克服这些挑战,并通过逐步候选过滤的粗到细范式、基于旋转的增强方法来提高分布外场景的鲁棒性,以及自蒸馏框架来稳定训练,从而推进选择性范式。DriveSuprim实现了最先进的性能,在NAVSIM v1中达到93.5%的PDMS,在NAVSIM v2中达到87.1%的EPDMS,无需额外数据,展示了卓越的安全关键能力,包括避免碰撞和遵守规则,同时在各种驾驶场景中保持高轨迹质量。 |
[17] 用于端到端多模态规划的广义轨迹评分 标题: Generalized Trajectory Scoring for End-to-end Multimodal Planning 作者: Zhenxin Li / Wenhao Yao / Zi Wang / Xinglong Sun / Joshua Chen / Nadine Chang / Maying Shen / Zuxuan Wu / Shiyi Lan / Jose M. Alvarez 原文: [英文] [中文] 备注: The 1st place solution of the End-to-end Driving Track at the CVPR 2025 Autonomous Grand Challenge 摘要: 端到端多模态规划是自动驾驶中一种很有前景的范式,它能够通过多样的轨迹候选进行决策。其关键组件是一个强大的轨迹评分器,能够从这些候选中选择最佳轨迹。尽管最近的轨迹评分器专注于对大规模静态轨迹集或小规模动态生成的轨迹集进行评分,但这两种方法在泛化方面都面临显著的限制。静态词汇提供了有效的粗粒度离散化,但难以进行细粒度的适应,而动态提案提供了详细的精度,但未能捕捉到更广泛的轨迹分布。为了解决这些挑战,我们提出了GTRS(广义轨迹评分),这是一种用于端到端多模态规划的统一框架,结合了粗粒度和细粒度的轨迹评估。GTRS由三个互补的创新组成:(1)基于扩散的轨迹生成器,能够产生多样的细粒度提案;(2)词汇泛化技术,通过在超密集轨迹集上进行dropout正则化训练评分器,使其能够在较小子集上进行稳健推理;(3)传感器增强策略,增强了域外泛化能力,同时结合了关键轨迹判别的精细化训练。作为Navsim v2挑战赛的获胜方案,GTRS即使在传感器输入不理想的情况下也表现出色,接近依赖于真实感知的特权方法。代码将在此https URL提供。 |
[18] RoboCerebra:用于长时间机器人操作评估的大规模基准测试 标题: RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation 作者: Songhao Han / Boxiang Qiu / Yue Liao / Siyuan Huang / Chen Gao / Shuicheng Yan / Si Liu 原文: [英文] [中文] 备注: 23 pages, 18 figures 摘要: 最近在视觉-语言模型(VLMs)方面的进展使得指令条件下的机器人系统具有更好的泛化能力。然而,大多数现有工作集中于反应式的系统1策略,未能充分利用VLMs在语义推理和长远规划方面的优势。这些系统2的能力——以深思熟虑、目标导向的思维为特征——由于当前基准测试的时间尺度和结构复杂性有限,仍未得到充分探索。为了解决这一差距,我们引入了RoboCerebra,这是一个用于评估长远机器人操作中高层次推理的基准。RoboCerebra包括:(1)一个大规模的模拟数据集,具有延长的任务时间跨度和多样的家庭环境子任务序列;(2)一个结合高层次VLM规划器和低层次视觉-语言-动作(VLA)控制器的分层框架;以及(3)一个通过结构化的系统1-系统2交互来针对规划、反思和记忆的评估协议。数据集通过自上而下的流程构建,其中GPT生成任务指令并将其分解为子任务序列。人类操作员在模拟中执行子任务,产生具有动态对象变化的高质量轨迹。与之前的基准相比,RoboCerebra具有显著更长的动作序列和更密集的注释。我们进一步将最先进的VLMs作为系统2模块进行基准测试,并分析其在关键认知维度上的表现,推动更强大和更具泛化能力的机器人规划器的发展。 |
[19] RoboPARA:双臂机器人规划中的任务并行分配与重组 标题: RoboPARA: Dual-Arm Robot Planning with Parallel Allocation and Recomposition Across Tasks 作者: Shiying Duan / Pei Ren / Nanxiang Jiang / Zhengping Che / Jian Tang / Yifan Sun / Zhaoxin Fan / Wenjun Wu 原文: [英文] [中文] 备注: None 摘要: 双臂机器人在提高复杂多任务场景中的效率和灵活性方面发挥着关键作用。尽管现有方法在任务规划上取得了可喜的成果,但它们往往未能充分优化任务的并行性,从而限制了双臂协作的潜力。为了解决这个问题,我们提出了RoboPARA,这是一种新颖的大型语言模型(LLM)驱动的双臂任务并行规划框架。RoboPARA采用了一个两阶段的过程:(1)基于依赖图的规划候选生成,构建有向无环图(DAG)以建模任务依赖关系并消除冗余;(2)基于图重遍历的双臂并行规划,优化DAG遍历以最大化并行性,同时保持任务的一致性。此外,我们引入了跨场景双臂并行任务数据集(X-DAPT数据集),这是第一个专门设计用于评估不同场景和难度级别下双臂任务并行性的数据集。在X-DAPT数据集上的大量实验表明,RoboPARA显著优于现有方法,特别是在复杂任务组合中实现了更高的效率和可靠性。代码和数据集将在论文接受后发布。 |
[20] SpikePingpong:基于高频尖峰视觉的机器人学习在乒乓球比赛中实现精确击球 标题: SpikePingpong: High-Frequency Spike Vision-based Robot Learning for Precise Striking in Table Tennis Game 作者: Hao Wang / Chengkai Hou / Xianglong Li / Yankai Fu / Chenxuan Li / Ning Chen / Gaole Dai / Jiaming Liu / Tiejun Huang / Shanghang Zhang 原文: [英文] [中文] 备注: None 摘要: 在现实世界中学习控制高速物体仍然是机器人学的一个具有挑战性的前沿领域。乒乓球作为这一问题的理想测试平台,要求既能快速拦截高速运动的球,又能精确调整其轨迹。这个任务提出了两个基本挑战:它需要一个高精度的视觉系统,能够准确预测球的轨迹,并且需要智能的战略规划以确保将球精确地放置到目标区域。乒乓球的动态特性,加上其实时响应的要求,使其特别适合于在快节奏、精度关键的领域推进机器人控制能力。在本文中,我们介绍了SpikePingpong,这是一种将基于脉冲的视觉与模仿学习相结合的高精度机器人乒乓球系统。我们的方法引入了两个直接应对上述挑战的关键尝试:SONIC,一个基于脉冲相机的模块,通过补偿空气阻力和摩擦等现实世界的不确定性,实现了毫米级精度的球拍接触预测;以及IMPACT,一个战略规划模块,使得球能够准确地放置到目标桌面区域。该系统利用20 kHz的脉冲相机进行高时间分辨率的球跟踪,结合高效的神经网络模型进行实时轨迹校正和击球规划。实验结果表明,SpikePingpong在30厘米精度目标区域的成功率达到91%,在更具挑战性的20厘米精度任务中达到71%,分别比之前的最先进方法提高了38%和37%。这些显著的性能提升使得复杂战术游戏策略的稳健实施成为可能,为高速动态任务中的机器人控制提供了新的研究视角。 |
[21] SARAL-Bot:用于草莓植物护理的自主机器人 标题: SARAL-Bot: Autonomous Robot for Strawberry Plant Care 作者: Arif Ahmed / Ritvik Agarwal / Gaurav Srikar / Nathaniel Rose / Parikshit Maini 原文: [英文] [中文] 备注: Awarded Best Written Report @ Robotics Design Challenge (Advanced), ASABE 2024 摘要: 草莓种植需要大量的劳动力来监测和维护植物健康。为了解决这个问题,SARAL团队开发了一种用于2024年ASABE学生机器人挑战赛的自主机器人,该机器人具备导航、不健康叶片检测和移除的能力。该系统解决了劳动力短缺问题,降低了成本,并通过基于视觉的植物评估支持可持续农业。此项工作展示了机器人技术在现代化草莓种植中的潜力,并能够实现可扩展的智能农业解决方案。 |
[22] IRS:通过房间先验引导的激光雷达-摄像头融合实现实例级3D场景图 标题: IRS: Instance-Level 3D Scene Graphs via Room Prior Guided LiDAR-Camera Fusion 作者: Hongming Chen / Yiyang Lin / Ziliang Li / Biyu Ye / Yuying Zhang / Ximin Lyu 原文: [英文] [中文] 备注: None 摘要: 室内场景理解仍然是机器人领域的一个基本挑战,对导航和操作等下游任务有直接影响。传统方法通常依赖于封闭集识别或回环闭合,这限制了它们在开放世界环境中的适应性。随着视觉基础模型(VFMs)的出现,开放词汇识别和自然语言查询变得可行,为3D场景图构建开启了新的可能性。在本文中,我们提出了一种通过LiDAR-相机融合进行实例级3D场景图构建的稳健且高效的框架。利用LiDAR的广视野(FOV)和长距离感知能力,我们快速获取房间级几何先验。多级VFM被用来提高语义提取的准确性和一致性。在实例融合过程中,基于房间的分割使得并行处理成为可能,而几何和语义线索的整合显著提高了融合的准确性和鲁棒性。与最先进的方法相比,我们的方法在构建速度上实现了高达一个数量级的提升,同时保持了高语义精度。在模拟和现实环境中的大量实验验证了我们方法的有效性。我们进一步通过一个语言引导的语义导航任务展示了其实际价值,突显了其在现实世界机器人应用中的潜力。 |
[23] 在未知环境中使用实时修改的人工势场进行带障碍物规避的射频源寻求 标题: RF-Source Seeking with Obstacle Avoidance using Real-time Modified Artificial Potential Fields in Unknown Environments 作者: Shahid Mohammad Mulla / Aryan Kanakapudi / Lakshmi Narasimhan / Anuj Tiwari 原文: [英文] [中文] 备注: 14 pages, 16 figures, 1 table, shorter version under review for IEEE ICCAS 2025 conference 摘要: 在未知环境中导航无人机(UAV)以避开障碍物,对于灾害响应和基础设施监测等应用至关重要。然而,现有的障碍规避算法,如人工势场(APF),无法在具有不同障碍配置的环境中进行泛化。此外,在搜索和救援等应用中,最终目标的精确位置可能无法获得,此时可以使用射频(RF)源寻求等方法来对准目标位置。本文提出了一种实时轨迹规划方法,该方法通过基于采样的方法实时调整APF。所提出的方法仅利用目标的方位角而不需要其精确位置,并根据环境中的新障碍配置实时调整势场参数。本文的主要贡献是:i)一种RF源寻求算法,通过基于天线布置的RF信号计算提供方位角估计;ii)一种改进的APF,用于在变化的环境中进行适应性碰撞规避。这些方法在仿真软件Gazebo中分别进行评估,使用ROS2进行通信。仿真结果表明,RF源寻求算法实现了高精度,平均角度误差仅为1.48度,基于该估计,所提出的导航算法将到达目标的成功率提高了46%,并将轨迹长度减少了1.2%,与标准势场相比。 |
[24] 用于机器人导航和操作的多模态空间语言地图 标题: Multimodal Spatial Language Maps for Robot Navigation and Manipulation 作者: Chenguang Huang / Oier Mees / Andy Zeng / Wolfram Burgard 原文: [英文] [中文] 备注: accepted to International Journal of Robotics Research (IJRR). 24 pages, 18 figures. The paper contains texts from VLMaps(arXiv:2210.05714) and AVLMaps(arXiv:2303.07522). The project page is this https URL 摘要: 将语言与导航代理的观察相结合,可以利用预训练的多模态基础模型将感知与对象或事件描述相匹配。然而,以往的方法与环境映射脱节,缺乏几何地图的空间精度,或忽视视觉之外的其他模态信息。为了解决这些问题,我们提出了多模态空间语言地图作为一种空间地图表示,将预训练的多模态特征与环境的3D重建融合在一起。我们使用标准探索方法自主构建这些地图。我们展示了两种地图实例,即视觉-语言地图(VLMaps)及其扩展的视听-语言地图(AVLMaps),后者通过添加音频信息获得。当与大型语言模型(LLMs)结合时,VLMaps可以(i)将自然语言命令翻译为开放词汇的空间目标(例如,“在沙发和电视之间”),直接在地图中定位,并且(ii)可以在不同的机器人实体之间共享,以按需生成定制的障碍地图。在上述功能的基础上,AVLMaps通过引入统一的3D空间表示,整合音频、视觉和语言线索,通过预训练的多模态基础模型的特征融合,扩展了VLMaps。这使得机器人能够将多模态目标查询(例如,文本、图像或音频片段)定位到空间位置以进行导航。此外,多样化的感官输入的结合显著增强了在模糊环境中的目标消歧能力。模拟和现实环境中的实验表明,我们的多模态空间语言地图能够实现零样本空间和多模态目标导航,并在模糊场景中将召回率提高了50%。这些功能扩展到移动机器人和桌面操作器,支持由视觉、音频和空间线索引导的导航和交互。 |
[25] 在协作过程中使用切换树进行实时适应动态人类意图的层次化意图追踪 标题: Hierarchical Intention Tracking with Switching Trees for Real-Time Adaptation to Dynamic Human Intentions during Collaboration 作者: Zhe Huang / Ye-Ji Mun / Fatemeh Cheraghi Pouria / Katherine Driggs-Campbell 原文: [英文] [中文] 备注: 15 pages, 10 figures 摘要: 在协作任务中,人类行为受到多层次意图的指导,这些意图会随着时间的推移而演变,例如任务顺序偏好和交互策略。为了适应这些变化的偏好并及时纠正任何不准确的估计,协作机器人必须实时准确跟踪这些动态的人类意图。我们提出了一种层次意图跟踪(HIT)算法,用于协作机器人实时有效地跟踪动态和层次化的人类意图。HIT将人类意图表示为具有任意深度的意图树,并通过贝叶斯过滤、向上测量传播和跨所有层次的向下后验传播来概率性地跟踪人类意图。我们开发了一种基于HIT的机器人系统,该系统在协作装配任务中动态切换交互任务和验证任务树,使机器人能够在三个层次上有效协调人类意图:任务层次(子任务目标位置)、交互层次(与机器人的参与模式)和验证层次(确认或纠正意图识别)。我们的用户研究表明,基于HIT的协作机器人系统通过在效率、体力负担和用户舒适度之间实现平衡,同时确保安全和任务完成,超越了现有的协作机器人解决方案。实验后调查进一步揭示,基于HIT的系统通过其对多层次人类意图的有效理解,增强了用户信任并最大限度地减少了对用户任务流程的干扰。 |
[26] CARoL:面向上下文的机器人学习适应 标题: CARoL: Context-aware Adaptation for Robot Learning 作者: Zechen Hu / Tong Xu / Xuesu Xiao / Xuan Wang 原文: [英文] [中文] 备注: None 摘要: 使用强化学习(RL)从零开始学习新的机器人任务通常效率不高。利用先验知识有可能显著提高学习效率,但这也带来了两个关键挑战:如何确定现有知识的相关性,以及如何自适应地将其整合到学习新任务中。在本文中,我们提出了机器人学习的上下文感知适应框架(CARoL),这是一种新颖的框架,用于从先验知识中高效学习相似但不同的新任务。CARoL通过分析系统动态中的状态转换来识别新任务与先验知识之间的相似性,从而纳入上下文感知。然后,它利用这些识别出的相似性来优先考虑并调整特定的知识片段以适应新任务。此外,CARoL具有广泛的适用性,涵盖基于策略、基于价值和演员-评论家强化学习算法。我们在模拟机器人平台和物理地面车辆上验证了CARoL的效率和通用性。模拟包括赛车和月球着陆器环境,其中CARoL在学习新任务的策略时表现出更快的收敛速度和更高的奖励。在现实世界的实验中,我们展示了CARoL使地面车辆能够快速高效地调整在模拟中学习的策略,以顺利穿越现实世界的越野地形。 |
[27] 启动搜索:通过热启动树搜索使用大型语言模型指导几何任务和运动规划 标题: Prime the search: Using large language models for guiding geometric task and motion planning by warm-starting tree search 作者: Dongryung Lee / Sejune Joo / Kimin Lee / Beomjoon Kim 原文: [英文] 备注: The International Journal of Robotics Research (IJRR) 摘要: 将一组物体重新定位到指定区域,同时避开可移动障碍物的问题可以被视为几何任务和运动规划(G-TAMP)问题,这是任务和运动规划(TAMP)的一种子类。传统的G-TAMP方法通常依赖于领域无关的启发式方法或从规划经验中学习来指导搜索,这两者通常都需要大量的计算资源或数据。相比之下,人类在解决G-TAMP问题时常常使用常识来直观地决定要操作哪些物体。受到这一点的启发,我们提出利用大型语言模型(LLMs),这些模型从互联网规模的数据中获取了常识知识,以指导G-TAMP问题中的任务规划。为了使LLMs能够进行几何推理,我们设计了一种基于谓词的提示,该提示编码了从运动规划算法中得出的几何信息。然后,我们查询LLM以生成任务计划,并据此搜索一组可行的连续参数。由于LLMs容易出错,我们并不直接依赖LLM的输出,而是将蒙特卡罗树搜索(MCTS)扩展到混合动作空间,并使用LLM来指导搜索。与之前在每个节点调用LLM并产生高计算成本的方法不同,我们使用LLM来热启动MCTS,利用在完成LLM任务计划时探索的节点。在六个不同的G-TAMP问题中,我们的方法优于之前的LLM规划器和纯搜索算法。代码可以在此URL找到:this https URL |
[28] 通过人类辅助的动作偏好优化进行机器人策略学习 标题: Robotic Policy Learning via Human-assisted Action Preference Optimization 作者: Wenke xia / Yichu Yang / Hongtao Wu / Xiao Ma / Tao Kong / Di Hu 原文: [英文] [中文] 备注: None 摘要: 建立一个可靠且可迭代优化的机器人系统对于部署实际应用至关重要。尽管视觉-语言-动作(VLA)模型被广泛认为是此类机器人部署的基础模型,但它们对专家演示的依赖阻碍了纠正和从失败中学习的关键能力。为了解决这一限制,我们引入了一种名为HAPO的人类辅助动作偏好优化方法,旨在通过偏好对齐来纠正部署失败并促进VLA模型的有效适应。该方法首先通过人机协作框架进行可靠的失败纠正和通过人为干预收集交互轨迹。这些人类干预轨迹进一步用于动作偏好优化过程中,帮助VLA模型减少失败动作的发生,同时增强纠正动作的适应性。具体来说,我们提出了一种自适应重加权算法,以解决在VLA模型中引入偏好优化时不可逆交互和标记概率不匹配的问题,促进模型从交互中获得的二元期望信号中学习。通过结合这些模块,我们的人类辅助动作偏好优化方法确保了VLA模型的可靠部署和从失败中有效学习。在模拟和现实场景中进行的实验证明了我们的框架在各种操作任务中的优越泛化能力和鲁棒性。 |
[29] 提高 Waymo 开放运动数据集的交通信号数据质量 标题: Improving Traffic Signal Data Quality for the Waymo Open Motion Dataset 作者: Xintao Yan / Erdao Liang / Jiawei Wang / Haojie Zhu / Henry X. Liu 原文: [英文] [中文] 备注: None 摘要: 与自动驾驶车辆(AVs)相关的数据集在多个研究领域中具有重要的潜力,包括人工智能(AI)、自动驾驶和交通工程。然而,这些数据集常常面临与交通信号状态相关的挑战,例如数据缺失或不准确。这些问题可能会影响数据集的可靠性,并对使用这些数据集开发的模型的性能产生不利影响。本研究引入了一种全自动的方法,旨在通过利用可用的车辆轨迹数据以及交通领域的知识,有效地填补和修正Waymo开放运动数据集(WOMD)中的交通信号信息。所提出的方法具有稳健性和灵活性,能够在现实场景中处理多样的交叉口几何形状和交通信号配置。我们对整个WOMD进行了全面验证,重点关注涉及交通信号的超过36万个相关场景,总共包含53万个现实驾驶场景。在原始数据集中,71.7%的交通信号状态要么缺失,要么未知,所有这些都被我们提出的方法成功填补。此外,在缺乏真实信号状态的情况下,我们的方法的准确性是基于车辆轨迹中的闯红灯率来评估的。结果表明,我们的方法将原始数据中的估计闯红灯率从15.7%降低到2.9%,从而证明了其在修正数据不准确性方面的有效性。本文显著提高了AV数据集的质量,为更广泛的AI和AV研究社区做出了贡献,并有利于各种下游应用。代码和改进的交通信号数据已在此https URL开源。 |
[30] Morphocopter:一种新型可变形四旋翼双旋翼飞行器的设计、建模与控制 标题: MorphoCopter: Design, Modeling, and Control of a New Transformable Quad-Bi Copter 作者: Harsh Modi / Hao Su / Xiao Liang / Minghui Zheng 原文: [英文] [中文] 备注: None 摘要: 本文介绍了一种新型变形四旋翼飞行器,名为MorphoCopter,涵盖其设计、建模、控制和实验测试。它具有一个独特的单旋转关节,可以快速变形为超窄型轮廓。尽管四旋翼飞行器在电影摄影、农业和灾害管理等应用中得到了广泛采用,并且控制系统日益复杂,但其硬件配置基本保持不变,限制了其在某些环境中的能力。我们的设计通过在需要时实现硬件配置的动态变化来解决这一问题。在标准飞行模式下,MorphoCopter采用X型配置,作为传统四旋翼飞行器运行,但可以快速折叠成堆叠双旋翼飞行器排列或介于两者之间的任何配置。现有的变形设计通常在紧凑配置中牺牲可控性或依赖复杂的多关节系统。此外,我们的设计实现了比任何现有解决方案更大的宽度缩减。我们开发了一种新的惯性和控制动作感知自适应控制系统,在所有旋转关节配置中保持强大的性能。原型机可以在几秒钟内将其宽度从447毫米减少到138毫米(减少近70%)。我们通过严格的模拟和全面的飞行实验,包括鲁棒性测试、轨迹跟踪和窄缝通过测试,验证了MorphoCopter。 |
[31] 基于机器学习的自定位:利用内部传感器实现推土机自动化 标题: Machine Learning-Based Self-Localization Using Internal Sensors for Automating Bulldozers 作者: Hikaru Sawafuji / Ryota Ozaki / Takuto Motomura / Toyohisa Matsuda / Masanori Tojima / Kento Uchida / Shinichi Shirakawa 原文: [英文] [中文] 备注: None 摘要: 自定位是推土机自动化的重要技术。传统的推土机自定位系统依赖于RTK-GNSS(实时动态全球导航卫星系统)。然而,在某些采矿条件下,RTK-GNSS信号有时会丢失。因此,需要不依赖于RTK-GNSS的自定位方法。在本文中,我们提出了一种基于机器学习的推土机自定位方法。该方法包括两个步骤:首先使用机器学习模型从内部传感器估计局部速度,然后将这些估计值结合到扩展卡尔曼滤波器(EKF)中进行全局定位。我们还创建了一个新的推土机里程计数据集,并在包括蛇形驾驶、挖掘和坡道驾驶在内的各种驾驶场景中进行了实验。结果表明,与基于运动学的方法相比,所提出的自定位方法在发生滑动时尤其能够抑制位置误差的累积。此外,本研究表明,推土机特有的传感器,如铲刀位置传感器和液压压力传感器,有助于提高自定位的准确性。 |
[32] 双足机器人行走的椭圆基分段变化曲线足部模型分析与设计 标题: Model Analysis And Design Of Ellipse Based Segmented Varying Curved Foot For Biped Robot Walking 作者: Boyang Chen / Xizhe Zang / Chao Song / Yue Zhang / Jie Zhao 原文: [英文] [中文] 备注: None 摘要: 本文介绍了一种基于椭圆的分段变化曲率(ESVC)双足机器人足部的建模、设计和实验验证。受人类足部分段曲率滚动形状的启发,ESVC足部旨在提高步态能量效率,同时保持足部位置控制器的解析可控性。首先,我们通过仅使用基本函数来公式化椭圆段的空间变换,推导出ESVC足部的完整解析接触模型。然后,采用非线性规划方法,根据已知的中足确定后足和前足的最佳椭圆参数。引入了一种误差补偿方法来解决滚动长度计算中的近似误差。然后将提出的ESVC足部与基于混合线性倒立摆模型的行走控制器集成,并通过TT II双足机器人上的仿真和物理实验进行验证。实验结果表明,在标记时间、矢状面和侧向行走任务中,ESVC足部与线形和平足相比,始终减少了能量消耗,在侧向行走中最多提高了18.52%。这些发现表明,ESVC足部为现实世界的双足运动提供了一种实用且节能的替代方案。所提出的设计方法也为未来研究中的数据驱动足部形状优化奠定了基础。 |
[33] 通过机器人重新分配在复杂环境中进行大规模多机器人任务分配 标题: Very Large-scale Multi-Robot Task Allocation in Challenging Environments via Robot Redistribution 作者: Seabin Lee / Joonyeol Sim / Changjoo Nam 原文: [英文] [中文] 备注: 15 pages 摘要: 我们研究了多机器人任务分配(MRTA)问题,该问题旨在优化多个机器人在充满密集障碍物和狭窄通道的复杂环境中执行多个任务的分配。在这样的环境中,传统的方法通常通过优化总成本来解决问题,但由于机器人之间的冲突会产生额外的成本(例如,避免碰撞、等待),这些方法往往无效。此外,不考虑实际机器人路径的分配可能导致死锁,严重降低机器人的整体性能。 我们提出了一种可扩展的MRTA方法,该方法考虑了机器人的路径以避免碰撞和死锁,从而快速完成所有任务(即,最小化\textit{完工时间})。为了在任务分配中纳入机器人路径,所提出的方法使用广义Voronoi图构建了一张路线图。该方法将路线图划分为多个组件,以了解如何重新分配机器人以在机器人之间产生更少冲突的情况下完成所有任务。在重新分配过程中,机器人根据先进先出的原则通过推拉机制被转移到最终目的地。通过大量实验,我们表明我们的方法可以处理数百个机器人在密集环境中的实例,而竞争对手在时间限制内无法计算出解决方案。 |
[34] BR-MPPI:通过学习的符号距离场引导的障碍率MPPI,用于执行多个不等式约束 标题: BR-MPPI: Barrier Rate guided MPPI for Enforcing Multiple Inequality Constraints with Learned Signed Distance Field 作者: Hardik Parwana / Taekyung Kim / Kehan Long / Bardh Hoxha / Hideki Okamoto / Georgios Fainekos / Dimitra Panagou 原文: [英文] [中文] 备注: None 摘要: 模型预测路径积分(MPPI)控制器用于解决无约束的最优控制问题,而控制障碍函数(CBF)是一种用于施加严格不等式约束(即障碍约束)的工具。在这项工作中,我们提出了一种将这两种方法结合的方案,利用类似CBF的条件来指导MPPI的控制采样过程。CBF提供了一种不等式约束,通过障碍函数本身的类K函数限制障碍函数变化率。我们则将CBF条件作为等式约束,通过选择一个参数化的线性类K函数,并将该参数视为扩展系统中的一个状态。该参数的时间导数作为由MPPI设计的附加控制输入。我们进一步设计了一个代价函数,通过促进类K参数的特定值来在安全集边界重新激活Nagumo定理,以确保安全。我们的问题表述导致了一个MPPI问题,该问题受到多个状态和控制相关的等式约束,这些约束通过随机采样的控制输入难以满足。因此,我们还引入了状态变换和控制投影操作,受到流形路径规划文献的启发,以解决上述问题。我们通过四旋翼飞行器的仿真和实验实证表明,我们提出的算法在采样效率和在安全集边界附近操作的能力上优于传统的MPPI。 |
[35] 动作分块流策略的实时执行 标题: Real-Time Execution of Action Chunking Flow Policies 作者: Kevin Black / Manuel Y. Galliker / Sergey Levine 原文: [英文] [中文] 备注: None 摘要: 现代人工智能系统,尤其是那些与物理世界交互的系统,越来越需要实时性能。然而,最先进的通用模型(包括最近的视觉-语言动作模型,简称VLA)的高延迟带来了显著的挑战。虽然动作分块技术在高频控制任务中实现了时间一致性,但它并未完全解决延迟问题,导致在分块边界处出现暂停或分布外的抖动动作。本文提出了一种新颖的推理时间算法,能够实现动作分块策略的平滑异步执行。我们的方法,称为实时分块(RTC),适用于任何基于扩散或流的VLA,无需重新训练。它在执行当前动作块的同时生成下一个动作块,"冻结"保证执行的动作并"修补"其余部分。为了测试RTC,我们在Kinetix模拟器中引入了一个包含12个高度动态任务的新基准,并评估了6个具有挑战性的现实世界双手操作任务。结果表明,RTC速度快、性能优异,并且对推理延迟具有独特的鲁棒性,显著提高了任务吞吐量,并在精确任务中实现了高成功率——例如点燃火柴——即使在存在显著延迟的情况下也是如此。有关视频,请参见此HTTPS URL。 |
[36] 自主移动按需系统控制的可重复性 标题: Reproducibility in the Control of Autonomous Mobility-on-Demand Systems 作者: Xinling Li / Meshal Alharbi / Daniele Gammelli / James Harrison / Filipe Rodrigues / Maximilian Schiffer / Marco Pavone / Emilio Frazzoli / Jinhua Zhao / Gioele Zardini 原文: [英文] [中文] 备注: None 摘要: 自主移动按需(AMoD)系统,由机器人技术、控制和机器学习(ML)的进步驱动,为未来城市交通提供了一种有前景的范式。AMoD通过利用对自动车队的集中控制来优化运营和提升服务性能,从而提供快速和个性化的旅行服务。然而,该领域的快速发展已经超越了评估和报告结果的标准化实践的发展,导致了再现性方面的重大挑战。随着AMoD控制算法变得越来越复杂和数据驱动,建模假设、实验设置和算法实现中的透明度缺乏阻碍了科学进步,并削弱了对结果的信心。本文系统研究了AMoD研究中的再现性问题。我们识别了研究流程中的关键组成部分,涵盖系统建模、控制问题、仿真设计、算法规范和评估,并分析了常见的不可再现性来源。我们调查了文献中流行的实践,指出了差距,并提出了一个结构化框架来评估和提高再现性。具体来说,提供了具体的指导方针以及一个“再现性检查表”,以支持未来的工作实现可复制、可比较和可扩展的结果。虽然重点是AMoD,但我们倡导的原则和实践可以推广到更广泛的依赖网络自治和数据驱动控制的网络物理系统。此项工作旨在为智能移动系统的设计和部署中更透明和可再现的研究文化奠定基础。 |
[37] UruBots 自动驾驶汽车挑战专业团队描述论文,面向 FIRA 2025 标题: UruBots Autonomous Cars Challenge Pro Team Description Paper for FIRA 2025 作者: Pablo Moraes / Mónica Rodríguez / Sebastian Barcelona / Angel Da Silva / Santiago Fernandez / Hiago Sodre / Igor Nunes / Bruna Guterres / Ricardo Grando 原文: [英文] [中文] 备注: None 摘要: 本文描述了UruBots团队为2025年FIRA自动驾驶汽车挑战赛(专业组)开发的一款自动驾驶汽车。该项目涉及构建一辆紧凑型电动车,大约相当于一辆遥控车的大小,能够自主导航通过不同的赛道。设计中结合了机械和电子组件以及机器学习算法,使车辆能够根据来自摄像头的视觉输入做出实时导航决策。我们使用深度学习模型来处理摄像头图像并控制车辆运动。通过一个包含超过一万张图像的数据集,我们训练了一个卷积神经网络(CNN)来有效地驾驶车辆,通过两个输出:转向和油门。该车在不到30秒的时间内完成了赛道,达到了大约每秒0.4米的速度,同时避开了障碍物。 |
[38] MapBERT:用于实时语义映射生成的按位掩码建模 标题: MapBERT: Bitwise Masked Modeling for Real-Time Semantic Mapping Generation 作者: Yijie Deng / Shuaihang Yuan / Congcong Wen / Hao Huang / Anthony Tzes / Geeta Chandra Raju Bethala / Yi Fang 原文: [英文] [中文] 备注: None 摘要: 空间感知是具身智能体的一项关键能力,因为它使智能体能够预测和推理未观察到的区域。主要的挑战在于学习室内语义的分布,这因稀疏、不平衡的物体类别和多样的空间尺度而变得复杂。现有的方法难以在实时中稳健地生成未观察区域,并且在新环境中泛化能力较差。为此,我们提出了\textbf{MapBERT},一个旨在有效建模未见空间分布的新框架。受到语义地图的独热编码自然与位编码的二进制结构对齐的启发,我们首次利用无查找的BitVAE将语义地图编码为紧凑的位元标记。在此基础上,使用掩码变换器推断缺失区域,并从有限的观测中生成完整的语义地图。为了增强以物体为中心的推理,我们提出了一种物体感知掩码策略,该策略同时掩盖整个物体类别,并将其与可学习的嵌入配对,捕捉物体嵌入和空间标记之间的隐式关系。通过学习这些关系,模型更有效地捕捉室内语义分布,这对于实际的机器人任务至关重要。在Gibson基准测试上的实验表明,MapBERT在语义地图生成方面达到了最先进的水平,平衡了计算效率与未观察区域的准确重建。 |
[39] 基于语言的分层规划与执行:多机器人三维场景图 标题: Language-Grounded Hierarchical Planning and Execution with Multi-Robot 3D Scene Graphs 作者: Jared Strader / Aaron Ray / Jacob Arkin / Mason B. Peterson / Yun Chang / Nathan Hughes / Christopher Bradley / Yi Xuan Jia / Carlos Nieto-Granda / Rajat Talak / Chuchu Fan / Luca Carlone / Jonathan P. How / Nicholas Roy 原文: [英文] [中文] 备注: 12 pages, 4 figures 摘要: 在本文中,我们介绍了一种多机器人系统,该系统通过3D场景图实现了映射、定位以及任务和运动规划(TAMP),以执行用自然语言表达的复杂指令。我们的系统构建了一个共享的3D场景图,包含一个开放集的基于对象的地图,该地图用于多机器人3D场景图的融合。这种表示支持实时的、视图不变的重定位(通过基于对象的地图)和规划(通过3D场景图),使机器人团队能够推理其周围环境并执行复杂任务。此外,我们引入了一种规划方法,该方法利用共享3D场景图和机器人能力的上下文,通过大型语言模型(LLM)将操作员意图转换为规划域定义语言(PDDL)目标。我们对系统在大规模户外环境中的实际任务表现进行了实验评估。 |
[40] RAPID Hand:一种用于通用机器人自主的稳健、经济、感知集成的灵巧操作平台 标题: RAPID Hand: A Robust, Affordable, Perception-Integrated, Dexterous Manipulation Platform for Generalist Robot Autonomy 作者: Zhaoliang Wan / Zetong Bi / Zida Zhou / Hao Ren / Yiming Zeng / Yihan Li / Lu Qi / Xu Yang / Ming-Hsuan Yang / Hui Cheng 原文: [英文] [中文] 备注: None 摘要: 本文解决了用于收集现实世界多指机器人操作数据的低成本但高灵活性平台的稀缺性问题,以实现通用机器人自主性。为此,我们提出了RAPID Hand,这是一个硬件和软件共同优化的平台,其中紧凑的20自由度手部、稳健的全手感知和高自由度的远程操作界面被共同设计。具体来说,RAPID Hand采用了紧凑且实用的手部本体论和硬件级感知框架,能够稳定地集成腕部安装的视觉、指尖触觉感知和本体感知,延迟低于7毫秒并具有空间对齐。在高自由度手部上收集高质量演示是具有挑战性的,因为现有的远程操作方法在复杂的多指系统上难以实现精确性和稳定性。我们通过通用驱动方案、定制感知电子设备和两个重定向约束共同优化手部设计、感知集成和远程操作界面来解决这一问题。我们评估了平台的硬件、感知和远程操作界面。在收集的数据上训练扩散策略显示出优于以往工作的性能,验证了系统在可靠、高质量数据收集方面的能力。该平台由低成本和现成的组件构建,并将公开以确保可重复性和易于采用。 |
[41] 与对话一起飞翔:实现基于PX4的无人机代理的自然语言控制 标题: Taking Flight with Dialogue: Enabling Natural Language Control for PX4-based Drone Agent 作者: Shoon Kit Lim / Melissa Jia Ying Chong / Jing Huey Khor / Ting Yang Ling 原文: [英文] [中文] 备注: Source code available at: this https URL 摘要: 最近在代理性和物理人工智能(AI)方面的进展主要集中在地面平台上,如人形机器人和轮式机器人,而对空中机器人的探索相对较少。同时,最先进的无人机(UAV)多模态视觉-语言系统通常依赖于仅对资源丰富的组织开放的闭源模型。为了使自主无人机的自然语言控制更加普及,我们提出了一个开源的代理框架,该框架集成了基于PX4的飞行控制、机器人操作系统2(ROS 2)中间件和使用Ollama的本地托管模型。我们在模拟环境和定制的四旋翼平台上评估了性能,对四个大型语言模型(LLM)家族的命令生成和三个视觉-语言模型(VLM)家族的场景理解进行了基准测试。 |
[42] BitVLA:用于机器人操作的1比特视觉-语言-动作模型 标题: BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation 作者: Hongyu Wang / Chuyan Xiong / Ruiping Wang / Xilin Chen 原文: [英文] [中文] 备注: Work in progress 摘要: 视觉-语言-动作(VLA)模型在广泛的机器人操作任务中展示了令人印象深刻的能力。然而,随着模型规模的增长,其在资源受限的机器人系统上的部署面临重大挑战。尽管1-bit预训练已被证明可以在性能损失最小的情况下有效提升大型语言模型的推理效率,但其在VLA模型中的应用仍未被充分探索。在这项工作中,我们提出了BitVLA,这是首个用于机器人操作的1-bit VLA模型,其中每个参数都是三值的,即{-1, 0, 1}。为了进一步减少视觉编码器的内存占用,我们提出了蒸馏感知训练策略,将全精度编码器压缩到1.58-bit权重。在此过程中,全精度编码器作为教师模型,以更好地对齐潜在表示。尽管缺乏大规模的机器人预训练,BitVLA在LIBERO基准测试中实现了与最先进的OpenVLA-OFT模型相当的性能,该模型采用4-bit后训练量化,而BitVLA仅消耗29.8%的内存。这些结果突显了BitVLA在内存受限的边缘设备上部署的潜力。我们在此https URL中发布了代码和模型权重。 |
[43] 分数碰撞:使用自动驾驶行为模拟进行反事实冲突风险估计的框架 标题: Fractional Collisions: A Framework for Risk Estimation of Counterfactual Conflicts using Autonomous Driving Behavior Simulations 作者: Sreeja Roy-Singh / Sarvesh Kolekar / Daniel P. Bonny / Kyle Foss 原文: [英文] [中文] 备注: None 摘要: 我们提出了一种方法,用于从自动驾驶系统(ADS)或自然驾驶数据库的传感器数据构建的反事实模拟场景中估计碰撞风险。通过检测和分类冲突类型、识别代理的角色(发起者或响应者)、识别响应者的反应点,并将其人类行为期望建模为概率反事实轨迹,来评估双代理冲突。使用这些状态来计算碰撞时的速度差异,并结合碰撞模型,估计损失的严重程度,以概率性伤害或财产损失表示,称为分数碰撞。概率模型还可以扩展以包括与模拟、特征和代理相关的其他不确定性。我们在合成模拟环境中验证了该方法的有效性,使用来自VTTI的SHRP2数据库和Nexar仪表盘摄像头数据的300多个碰撞和近碰撞场景的重建轨迹。我们的方法预测的分数碰撞与真实碰撞的误差在1%以内。然后,我们通过在这些合成重建中用ADS模拟器替换自然响应者,并将结果与人类响应结果进行比较,评估任意ADS软件版本的代理发起碰撞风险。我们的ADS将自然碰撞减少了4倍,并将分数碰撞风险降低了约62%。该框架的实用性还在25万英里的专有开放环传感器数据上得到了验证,这些数据是在ADS测试车辆上收集的,并使用任意ADS软件版本重新模拟。ADS发起的冲突导致了0.4次伤害性和1.7次财产损失的分数碰撞,并且在96%的代理发起冲突中,ADS改善了碰撞风险。 |
[44] 将参与式设计与人工意识相结合以实现值得信赖的自动驾驶车辆 标题: Blending Participatory Design and Artificial Awareness for Trustworthy Autonomous Vehicles 作者: Ana Tanevska / Ananthapathmanabhan Ratheesh Kumar / Arabinda Ghosh / Ernesto Casablanca / Ginevra Castellano / Sadegh Soudjani 原文: [英文] [中文] 备注: Submitted to IEEE RO-MAN 2025 摘要: 当前的机器人代理,如自动驾驶汽车(AVs)和无人机,需要在不确定的现实环境中处理适当的情境感知(SA)、风险意识、协调和决策。SymAware项目致力于通过设计一种多代理系统中的人工感知架构来解决这一问题,从而实现自动驾驶汽车和无人机的安全协作。然而,这些代理还需要与人类用户(司机、行人、无人机操作员)进行互动,这反过来需要理解如何在互动场景中建模人类,以及如何促进代理与人类之间的信任和透明度。 在这项工作中,我们旨在创建一个数据驱动的人类驾驶员模型,以集成到我们的SA架构中,将我们的研究建立在可信的人机交互原则上。为了收集创建模型所需的数据,我们进行了大规模的以用户为中心的人类与自动驾驶汽车互动研究,其中我们调查了自动驾驶汽车的透明度与用户行为之间的互动。 本文的贡献有两个方面:首先,我们详细说明了我们的人类与自动驾驶汽车研究及其发现;其次,我们展示了从研究数据中计算出的结果——人类驾驶员的马尔可夫链模型。我们的结果表明,根据自动驾驶汽车的透明度、场景环境和用户的人口统计特征,我们可以在模型的转换中获得显著差异。 |
[45] 快速ECoT:通过思维重用实现高效的具身思维链 标题: Fast ECoT: Efficient Embodied Chain-of-Thought via Thoughts Reuse 作者: Zhekai Duan / Yuan Zhang / Shikai Geng / Gaowen Liu / Joschka Boedecker / Chris Xiaoxuan Lu 原文: [英文] [中文] 备注: None 摘要: 具身链式思维(Embodied Chain-of-Thought, ECoT)推理通过中间推理步骤提高了视觉-语言-动作(VLA)模型的性能和可解释性。然而,其顺序自回归的标记生成引入了显著的推理延迟,限制了实时部署。我们提出了快速ECoT,这是一种推理时加速方法,利用ECoT的结构化和重复性来(1)缓存和重用跨时间步的高级推理,以及(2)并行生成模块化推理步骤。此外,我们引入了一个异步调度器,将推理与动作解码分离,进一步提高响应能力。快速ECoT无需模型更改或额外训练,能够轻松集成到现有的VLA管道中。在模拟(LIBERO)和现实世界的机器人任务中进行的实验显示,延迟最多减少7.5%,同时任务成功率和推理准确性相当或有所提高,使ECoT策略更接近于实际的实时部署。 |
[46] 一种用于云控制智能网联车辆安全与舒适性评估的通信延迟感知协同仿真平台 标题: A Communication-Latency-Aware Co-Simulation Platform for Safety and Comfort Evaluation of Cloud-Controlled ICVs 作者: Yongqi Zhao / Xinrui Zhang / Tomislav Mihalj / Martin Schabauer / Luis Putzer / Erik Reichmann-Blaga / Ádám Boronyák / András Rövid / Gábor Soós / Peizhi Zhang / Lu Xiong / Jia Hu / Arno Eichberger 原文: [英文] [中文] 备注: 11 pages, 8 figures 摘要: 测试云控制的智能网联车辆(ICVs)需要能够真实模拟车辆行为和通信延迟的仿真环境。本文提出了一种延迟感知的联合仿真平台,该平台集成了CarMaker和Vissim,以在真实的车到云(V2C)延迟条件下评估安全性和舒适性。我们引入了两个通信延迟模型,这些模型基于中国和匈牙利的5G实测数据,并使用Gamma分布进行统计建模。提出了一种主动冲突模块(PCM),用于动态控制背景车辆并生成安全关键场景。通过涉及一个示例性被测系统(SUT)的实验验证了该平台,该实验在六种测试条件下进行,结合了两种PCM模式(启用/禁用)和三种延迟条件(无延迟、中国、匈牙利)。使用包括碰撞率、车距、侵入后时间以及纵向加速度的频谱特性在内的指标评估安全性和舒适性。结果表明,PCM有效地增加了驾驶环境的关键性,而V2C延迟主要影响乘坐舒适性。这些发现证实了该平台在多样化测试条件下系统评估云控制ICVs的有效性。 |
[47] SMaRCSim:海事机器人仿真模块 标题: SMaRCSim: Maritime Robotics Simulation Modules 作者: Mart Kartašev / David Dörner / Özer Özkahraman / Petter Ögren / Ivan Stenius / John Folkesson 原文: [英文] [中文] 备注: None 摘要: 开发水下机器人的新功能并在现实世界中进行测试是一个耗时且资源密集的过程。仿真环境允许在实地部署之前进行快速测试。然而,现有工具在我们的项目用例中缺乏某些功能:i) 开发基于学习的方法用于水下车辆;ii) 创建自主水下、地面和空中车辆的团队;iii) 将仿真与实地实验的任务规划相结合。对这些问题的整体解决方案在为水下领域带来新功能方面具有巨大潜力。在本文中,我们介绍了 SMaRCSim,这是我们开发的一套仿真软件包,旨在帮助我们解决这些问题。 |
[48] 用于腿式机器人GPU加速学习和控制的原始-对偶iLQR 标题: Primal-Dual iLQR for GPU-Accelerated Learning and Control in Legged Robots 作者: Lorenzo Amatucci / João Sousa-Pinto / Giulio Turrisi / Dominique Orban / Victor Barasuol / Claudio Semini 原文: [英文] [中文] 备注: None 摘要: 本文介绍了一种新颖的模型预测控制(MPC)实现方法,用于腿式机器人运动,该方法利用了GPU并行化。我们的方法通过结合并行关联扫描来解决原始-对偶Karush-Kuhn-Tucker(KKT)系统,实现了时间和状态空间的并行化。通过这种方式,最优控制问题的复杂度从$\mathcal{O}(N(n + m)^3)$降低到$\mathcal{O}(n\log{N} + m)$,其中$n$、$m$和$N$分别是系统状态、控制向量的维度和预测视界的长度。我们展示了该实现相较于两种最先进的求解器(acados和crocoddyl)的优势,在改变预测视界长度时,对于全身动力学(WB)-MPC实现了高达60\%的运行时间改进,对于单刚体动力学(SRBD)-MPC实现了700\%的改进。所提出的公式在问题状态维度上也能有效扩展,使得最多16个腿式机器人的集中控制器可以在不到25毫秒内计算完成。此外,得益于JAX的实现,该求解器支持跨多个环境的大规模并行化,允许在GPU中直接进行MPC循环中的学习。 |
[49] 通过灵活的肢体间协调实现多功能的运动操控 标题: Versatile Loco-Manipulation through Flexible Interlimb Coordination 作者: Xinghao Zhu / Yuxin Chen / Lingfeng Sun / Farzad Niroui / Simon Le CleacH / Jiuguang Wang / Kuan Fang 原文: [英文] [中文] 备注: None 摘要: 灵活利用四肢进行运动操控的能力对于使自主机器人在非结构化环境中运行至关重要。然而,之前关于运动操控的研究通常局限于特定任务或预定的肢体配置。在这项工作中,我们提出了一种用于肢体间协调的强化学习方法(ReLIC),该方法通过灵活的肢体间协调实现多功能的运动操控。我们方法的关键是一个自适应控制器,它能够根据任务需求无缝衔接操控动作的执行和稳定步态的生成。通过两个控制模块之间的相互作用,ReLIC动态地分配每个肢体用于操控或运动,并稳健地协调它们以实现任务成功。通过在模拟环境中进行高效的强化学习,ReLIC学会在现实世界中根据操控目标执行稳定的步态。为了解决多样且复杂的任务,我们进一步提出将学习到的控制器与不同类型的任务规范接口,包括目标轨迹、接触点和自然语言指令。在12个需要多样且复杂协调模式的现实任务中进行评估,ReLIC通过平均78.9%的成功率展示了其多功能性和稳健性。视频和代码可以在此HTTPS URL中找到。 |
[50] 一种对等通信、模块化和去中心化的YellowCube无人水下航行器的设计与实现 标题: Design and Implementation of a Peer-to-Peer Communication, Modular and Decentral YellowCube UUV 作者: Zhizun Xu / Baozhu Jia / Weichao Shi 原文: [英文] [中文] 备注: None 摘要: 水下无人载具(UUVs)是海洋工程和海洋研究的重要工具。大多数现有的UUVs不便于集成新的或升级的传感器。解决这一问题的方法是设计一个模块化的UUV系统,该系统具有可更换的有效载荷部分,能够携带不同的传感器以适应不同的任务。本文介绍了一种名为YellowCube的模块化和分散式UUV的设计和实现。与其他模块化水下载具设计采用的集中式软件架构不同,YellowCube在其模块之间实现了一种点对点(P2P)通信机制。实验室和海上试验已被执行,以验证该UUV的性能。 |
[51] BridgeVLA:通过视觉语言模型进行高效3D操作学习的输入输出对齐 标题: BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models 作者: Peiyan Li / Yixiang Chen / Hongtao Wu / Xiao Ma / Xiangnan Wu / Yan Huang / Liang Wang / Tao Kong / Tieniu Tan 原文: [英文] [中文] 备注: In Submission 摘要: 近年来,利用预训练的视觉-语言模型(VLMs)构建视觉-语言-动作(VLA)模型已成为实现有效机器人操作学习的一种有前景的方法。然而,只有少数方法将3D信号整合到VLMs中用于动作预测,并且它们未能充分利用3D数据中固有的空间结构,导致样本效率低下。在本文中,我们介绍了BridgeVLA,这是一种新颖的3D VLA模型,它(1)将3D输入投影到多个2D图像上,确保输入与VLM主干对齐,并且(2)利用2D热图进行动作预测,在一致的2D图像空间内统一输入和输出空间。此外,我们提出了一种可扩展的预训练方法,使VLM主干具备在下游策略学习之前预测2D热图的能力。大量实验表明,所提出的方法能够高效且有效地学习3D操作。BridgeVLA在三个模拟基准测试中均优于最先进的基线方法。在RLBench中,其平均成功率从81.4%提高到88.2%。在COLOSSEUM中,它在具有挑战性的泛化设置中表现显著更好,将平均成功率从56.7%提高到64.0%。在GemBench中,它在平均成功率方面超越了所有比较的基线方法。在真实机器人实验中,BridgeVLA平均比最先进的基线方法高出32%。它在多种分布外设置中表现出强大的泛化能力,包括视觉干扰和未见过的指令。值得注意的是,它能够在10多个任务中以每个任务仅3条轨迹的情况下实现96.8%的成功率,突显了其非凡的样本效率。项目网站:this https URL |