![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.RO方向,2025年6月24日更新论文51篇
|
[1] 用于双臂桌面清洁的反思性VLM规划:连接开放词汇感知与精确操作 标题: Reflective VLM Planning for Dual-Arm Desktop Cleaning: Bridging Open-Vocabulary Perception and Precise Manipulation 作者: Yufan Liu / Yi Wu / Gweneth Ge / Haoliang Cheng / Rui Liu 原文: [英文] [中文] 备注: None 摘要: 桌面清理需要对异质碎片进行开放词汇识别和精确操作。我们提出了一种分层框架,将反射式视觉-语言模型(VLM)规划与通过结构化场景表示的双臂执行相结合。Grounded-SAM2 促进了开放词汇检测,而一个增强记忆的 VLM 生成、批判和修正操作序列。这些序列被转换为参数化轨迹,由协调的 Franka 机械臂执行五种基本操作。在模拟场景中进行评估,我们的系统实现了 87.2% 的任务完成率,比静态 VLM 提高了 28.8%,比单臂基线提高了 36.2%。结构化记忆集成对于实现稳健、可推广的操作至关重要,同时保持实时控制性能。 |
[2] 在仿真环境中生成合成LiDAR数据集的工作流程 标题: A workflow for generating synthetic LiDAR datasets in simulation environments 作者: Abhishek Phadke / Shakib Mahmud Dipto / Pratip Rana 原文: [英文] [中文] 备注: None 摘要: 本文提出了一种用于生成合成LiDAR数据集的仿真工作流程,以支持自动驾驶车辆感知、机器人研究和传感器安全分析。我们利用CoppeliaSim仿真环境及其Python API,将飞行时间LiDAR、图像传感器和二维扫描仪集成到在城市场景中运行的模拟车辆平台上。该工作流程自动化了数据捕获、存储和注释,支持多种格式(PCD、PLY、CSV),生成与地面真实位姿信息同步的多模态数据集。我们通过生成大规模点云及相应的RGB和深度图像来验证该流程。研究探讨了LiDAR数据中潜在的安全漏洞,如对抗性点注入和欺骗攻击,并展示了合成数据集如何促进防御策略的评估。最后,讨论了与环境真实性、传感器噪声建模和计算可扩展性相关的局限性,并提出了未来的研究方向,如结合天气效果、真实世界地形模型和高级扫描仪配置。该工作流程提供了一个多功能、可重复的框架,用于生成高保真合成LiDAR数据集,以推进感知研究并加强自动化系统中的传感器安全。该框架附有文档和示例;动画云返回和图像传感器数据的样本可以在此链接中找到。 |
[3] 通过可微接触流形进行空间操作的运动学模型优化 标题: Kinematic Model Optimization via Differentiable Contact Manifold for In-Space Manipulation 作者: Abhay Negi / Omey M. Manyar / Satyandra K. Gupta 原文: [英文] [中文] 备注: Accepted and presented in RSS 2025 Space Robotics Workshop (this https URL). 3 pages with 1 figure 摘要: 太空中的机器人操作对于新兴应用如碎片清除和太空服务、组装及制造(ISAM)至关重要。这些任务的一个关键要求是能够在显著的不确定性下执行精确且富含接触的操作。特别是,机械臂连杆的热变形和温度依赖的编码器偏差会引入运动学参数误差,显著降低末端执行器的精度。传统的校准技术依赖于外部传感器或专门的校准程序,这在动态的太空操作场景中可能不可行或存在风险。本文提出了一种新颖的运动学参数估计方法,该方法仅需要编码器测量和二进制接触检测。该方法的重点是通过利用接触流形的信息——即机械臂与环境接触时的相对SE(3)位姿集合,来估计连杆的热变形应变和关节编码器偏差。我们提出了两个核心贡献:(1)一个可微的、基于学习的接触流形模型,以及(2)一个基于优化的算法,用于从接触时刻的编码器测量中估计运动学参数。通过仅使用编码器测量和接触检测进行参数估计,该方法为在太空的严峻条件下实现安全和精确的操作提供了一种稳健、可解释且数据高效的解决方案。 |
[4] 通过LVLM协调的感知、推理和行动实现通用机器人导航 标题: General-Purpose Robotic Navigation via LVLM-Orchestrated Perception, Reasoning, and Acting 作者: Bernard Lange / Anil Yildiz / Mansur Arief / Shehryar Khattak / Mykel Kochenderfer / Georgios Georgakis 原文: [英文] [中文] 备注: None 摘要: 在未知环境中开发通用导航策略仍然是机器人技术的核心挑战。大多数现有系统依赖于任务特定的神经网络和固定的数据流,限制了其通用性。大型视觉-语言模型(LVLMs)通过嵌入类似人类的知识,为推理和规划提供了一个有前途的替代方案。然而,以往的LVLM-机器人集成通常依赖于预先映射的空间、硬编码的表示和短视的探索。我们介绍了Agentic机器人导航架构(ARNA),这是一种通用导航框架,为基于LVLM的代理配备了现代机器人堆栈中可用的感知、推理和导航工具库。在运行时,代理自主定义和执行任务特定的工作流程,迭代查询机器人模块,推理多模态输入,并选择适当的导航动作。这种方法能够在以前未映射的环境中实现稳健的导航和推理,为机器人堆栈设计提供了新的视角。在Habitat Lab的HM-EQA基准上进行评估时,ARNA实现了最先进的性能,展示了有效的探索、导航和具身问答,而无需依赖手工制作的计划、固定输入表示或预先存在的地图。 |
[5] DiLQR:通过隐式微分的可微迭代线性二次调节器 标题: DiLQR: Differentiable Iterative Linear Quadratic Regulator via Implicit Differentiation 作者: Shuyuan Wang / Philip D. Loewen / Michael Forbes / Bhushan Gopaluni / Wei Pan 原文: [英文] [中文] 备注: Accepted at ICML 2025. Official conference page: this https URL. OpenReview page: this https URL 摘要: 尽管可微分控制作为一种结合无模型灵活性和基于模型效率的强大范式已经出现,但迭代线性二次调节器(iLQR)作为可微分组件仍未被充分探索。通过扩展迭代和时间范围进行微分的可扩展性带来了重大挑战,阻碍了iLQR成为有效的可微分控制器。本文介绍了DiLQR,一个促进通过iLQR进行微分的框架,使其能够作为可训练和可微分的模块,独立存在或嵌入在神经网络中。该框架的新颖之处在于其通过隐式微分为iLQR控制器的梯度提供了解析解,这确保了无论迭代次数如何,反向传播的成本始终不变,同时生成准确的梯度。我们在著名的控制基准上的模仿任务中评估了我们的框架。我们的解析方法展示了卓越的计算性能,与自动微分相比,实现了高达128倍的加速和至少21倍的加速。与传统神经网络策略相比,我们的方法还展示了卓越的学习性能($10^6$倍),并且在缺乏精确解析梯度的可微分控制器中表现出更好的模型损失。此外,我们将我们的模块集成到一个具有视觉输入的更大网络中,以展示我们的方法在高维、完全端到端任务中的能力。代码可以在项目主页的这个URL上找到。 |
[6] 蒸馏设备上的语言模型以实现机器人规划,且仅需最少的人为干预 标题: Distilling On-device Language Models for Robot Planning with Minimal Human Intervention 作者: Zachary Ravichandran / Ignacio Hounie / Fernando Cladera / Alejandro Ribeiro / George J. Pappas / Vijay Kumar 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)为机器人提供了强大的上下文推理能力和自然的人机界面。然而,目前启用LLM的机器人通常依赖于云托管的模型,这限制了它们在通信基础设施不可靠的环境中的可用性,例如户外或工业环境。我们提出了PRISM,这是一种用于蒸馏小型语言模型(SLM)启用的机器人规划器的框架,该规划器可以在设备上运行,并且只需最少的人为监督。PRISM从现有的LLM启用的规划器开始,自动合成多样化的任务和环境,从LLM中引出计划,并使用这个合成数据集来蒸馏一个紧凑的SLM,作为源模型的直接替代品。我们将PRISM应用于三个LLM启用的规划器,用于地图绘制和探索、操作和家庭辅助,并证明PRISM将Llama-3.2-3B的性能从GPT-4o性能的10-20%提高到超过93% - 仅使用合成数据。我们进一步证明,蒸馏的规划器可以在异构的机器人平台(地面和空中)和多样化的环境(室内和室外)中进行泛化。我们在此https URL上发布了所有软件、训练模型和数据集。 |
[7] 四旋翼无人机在紧密编队中的在线适应 标题: Online Adaptation for Flying Quadrotors in Tight Formations 作者: Pei-An Hsieh / Kong Yao Chee / M. Ani Hsieh 原文: [英文] [中文] 备注: 10 pages, 4 figures 摘要: 对于四旋翼无人机团队来说,在紧密编队中飞行是一项具有挑战性的任务,因为复杂的空气动力学尾流相互作用可能会使单个团队成员以及整个团队不稳定。此外,这些空气动力学效应具有高度非线性和快速变化的特点,使得它们难以建模和预测。为了克服这些挑战,我们提出了L1 KNODE-DW MPC,这是一种自适应的、基于混合专家学习的控制框架,允许单个四旋翼无人机在编队飞行过程中准确跟踪轨迹,同时适应时变的空气动力学相互作用。我们在两种不同的三四旋翼无人机编队中评估了L1 KNODE-DW MPC,并显示其性能优于几个MPC基线。我们的结果表明,所提出的框架能够使三四旋翼无人机团队在整个飞行过程中保持垂直对齐并紧密接近。这些发现表明,当与准确的动力学模型配对时,L1自适应模块能够最有效地补偿未建模的干扰。展示我们框架和物理实验的视频可在此处观看:this https URL |
[8] EASE:通过自监督能量最小化实现具身主动事件感知 标题: EASE: Embodied Active Event Perception via Self-Supervised Energy Minimization 作者: Zhou Chen / Sanjoy Kundu / Harsimran S. Baweja / Sathyanarayanan N. Aakur 原文: [英文] [中文] 备注: Accepted to IEEE Robotics and Automation Letters, 2025 摘要: 主动事件感知,即动态检测、跟踪和实时总结事件的能力,对于人机协作、辅助机器人和自主导航等任务中的具身智能至关重要。然而,现有的方法通常依赖于预定义的动作空间、标注的数据集和外部奖励,这限制了它们在动态、真实世界场景中的适应性和可扩展性。受事件感知和预测编码认知理论的启发,我们提出了EASE,这是一种通过自由能最小化将时空表示学习与具身控制统一起来的自监督框架。EASE利用预测误差和熵作为内在信号来分割事件、总结观察并主动跟踪显著的行为者,操作过程中无需显式标注或外部奖励。通过将生成感知模型与动作驱动的控制策略相结合,EASE动态地将预测与观察对齐,从而实现隐式记忆、目标连续性和对新环境的适应等新兴行为。在模拟和真实世界环境中的广泛评估表明,EASE能够实现隐私保护和可扩展的事件感知,为具身系统在无脚本、动态任务中提供了坚实的基础。 |
[9] 风险引导扩散:在太空中部署机器人基础模型,失败不是选项 标题: Risk-Guided Diffusion: Toward Deploying Robot Foundation Models in Space, Where Failure Is Not An Option 作者: Rohan Thakker / Adarsh Patnaik / Vince Kurtz / Jonas Frey / Jonathan Becktor / Sangwoo Moon / Rob Royce / Marcel Kaufmann / Georgios Georgakis / Pascal Roth / Joel Burdick / Marco Hutter / Shehryar Khattak 原文: [英文] [中文] 备注: None 摘要: 未来的机器人太空探索任务需要在极端且不熟悉的地形中进行安全、可靠的导航。最近的生成式人工智能方法从大型跨形态数据集中学习语义感知的导航策略,但在安全性保证方面存在局限性。受人类认知科学的启发,我们提出了一种风险引导的扩散框架,该框架融合了快速学习的“系统1”和基于物理的慢速“系统2”,在训练和推理过程中共享计算,以将适应性与形式化安全相结合。在NASA喷气推进实验室的火星模拟设施Mars Yard进行的硬件实验表明,我们的方法在不进行额外训练的情况下,通过利用推理时的计算能力,将故障率降低了最多4倍,同时达到了基于学习的机器人模型的目标达成性能。 |
[10] 模仿学习用于主动颈部运动,使机器人操作超越视野范围 标题: Imitation Learning for Active Neck Motion Enabling Robot Manipulation beyond the Field of View 作者: Koki Nakagawa / Yoshiyuki Ohmura / Yasuo Kuniyoshi 原文: [英文] [中文] 备注: 6 pages 摘要: 大多数先前的深度模仿学习研究主要使用固定摄像头进行图像输入,这将任务表现限制在预定义的视野范围内。然而,使机器人能够主动移动其颈部可以显著扩展模仿学习的范围,以涵盖更广泛的任务和表达性动作,如颈部手势。为了促进能够颈部运动的机器人在同时进行物体操作时的模仿学习,我们提出了一种教学系统,该系统系统地收集包含颈部运动的数据集,同时在远程操作期间最大限度地减少动态视点引起的不适。此外,我们提出了一种新颖的网络模型,用于学习包括主动颈部运动在内的操作任务。实验结果表明,无论主动颈部运动引起的视点变化如何干扰,我们的模型都能实现约90%的高成功率。此外,该模型在具有挑战性的场景中表现尤为出色,例如当物体位于视野边缘或超出标准视野时,传统模型难以应对。所提出的方法有助于提高数据集收集的效率,并将模仿学习的适用性扩展到更复杂和动态的场景。 |
[11] RLRC:基于强化学习的压缩视觉-语言-动作模型恢复 标题: RLRC: Reinforcement Learning-based Recovery for Compressed Vision-Language-Action Models 作者: Yuxuan Chen / Xiao Li 原文: [英文] [中文] 备注: None 摘要: 视觉-语言-动作模型(VLA)在解决复杂的机器人操作任务方面表现出显著的能力和潜力。然而,其庞大的参数规模和高推理延迟对实际应用,尤其是在资源受限的机器人平台上,构成了重大挑战。为了解决这一问题,我们首先进行了广泛的实证研究,以探索模型压缩技术在应用于VLA时的有效性。基于这些初步实验获得的见解,我们提出了RLRC,一种针对压缩VLA的三阶段恢复方法,包括结构化剪枝、基于SFT和RL的性能恢复以及进一步量化。RLRC在内存使用上实现了最高8倍的减少,在推理吞吐量上提高了2.3倍,同时保持甚至超越了原始VLA的任务成功率。大量实验表明,RLRC始终优于现有的压缩基线,展示了VLA在设备上部署的强大潜力。项目网站:this https URL |
[12] 通过新的不确定性框架优化主动SLAM系统的探索 标题: Optimizing Exploration with a New Uncertainty Framework for Active SLAM Systems 作者: Sebastian Sansoni / Javier Gimenez / Gastón Castro / Santiago Tosetti / Flavio Craparo 原文: [英文] [中文] 备注: None 摘要: 准确重建环境是同时定位与地图构建(SLAM)系统的核心目标。然而,智能体的轨迹会显著影响估计的准确性。本文提出了一种在主动SLAM系统中使用不确定性地图(UM)来建模地图不确定性的新方法。UM使用概率分布来捕捉地图不确定的地方,从而可以将不确定性前沿(UF)定义为关键的探索-开发目标和潜在的停止标准。此外,该方法引入了基于Kullback-Leibler散度的符号相对熵(SiREn),以同时衡量覆盖率和不确定性。这有助于通过一个易于理解的参数来平衡探索和开发。与依赖于特定SLAM设置的方法不同,所提出的方法兼容于不同类型的传感器,如摄像头、LiDAR和多传感器融合。它还解决了探索规划和停止条件中的常见问题。此外,将这种地图建模方法与基于UF的规划系统集成,使智能体能够自主探索开放空间,这种行为在主动SLAM文献中以前未曾观察到。代码和实现细节作为一个ROS节点提供,所有生成的数据都公开可用,以促进该方法的更广泛采用和验证。 |
[13] RoboMonkey:扩展视觉-语言-动作模型的测试时间采样和验证 标题: RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models 作者: Jacky Kwok / Christopher Agia / Rohan Sinha / Matt Foutter / Shulu Li / Ion Stoica / Azalia Mirhoseini / Marco Pavone 原文: [英文] [中文] 备注: None 摘要: 视觉-语言-动作(VLA)模型在视觉运动控制方面表现出显著的能力,但确保其在非结构化的现实环境中具有鲁棒性仍然是一个持续的挑战。在本文中,我们通过采样和验证的视角研究测试时的扩展,以增强VLA的鲁棒性和泛化能力。我们首先证明了动作误差与生成样本数量之间的关系遵循指数幂律,这表明存在推理时的扩展规律。在这些见解的基础上,我们引入了RoboMonkey,一个用于VLA的测试时扩展框架。在部署时,RoboMonkey从VLA中采样一小组动作,应用高斯扰动和多数投票来构建动作提议分布,然后使用基于视觉语言模型(VLM)的验证器来选择最佳动作。我们提出了一种用于训练此类基于VLM的动作验证器的合成数据生成管道,并证明扩展合成数据集能够一致地提高验证和下游准确性。通过广泛的模拟和硬件实验,我们展示了将现有的VLA与RoboMonkey配对能够显著提升性能,在分布外任务上实现了25%的绝对提升,在分布内任务上实现了8%的提升。此外,在适应新的机器人设置时,我们展示了同时微调VLA和动作验证器相比仅微调VLA能够带来7%的性能提升。 |
[14] 学习对接:基于模拟的自主水下对接中缩小Sim2Real差距的研究 标题: Learning to Dock: A Simulation-based Study on Closing the Sim2Real Gap in Autonomous Underwater Docking 作者: Kevin Chang / Rakesh Vivekanandan / Noah Pragin / Sean Bullock / Geoffrey Hollinger 原文: [英文] [中文] 备注: Advancing Quantitative and Qualitative Simulators for Marine Applications Workshop Paper at International Conference on Robotics and Automation 2025 摘要: 自主水下机器人(AUV)在动态和不确定环境中进行对接是水下机器人技术面临的一个关键挑战。强化学习是一种开发鲁棒控制器的有前途的方法,但训练模拟与现实世界之间的差异,即sim2real差距,常常导致性能显著下降。在这项工作中,我们通过训练各种控制器并在现实干扰下评估它们,进行了一项关于减少自主对接中的sim2real差距的模拟研究。特别是,我们关注在不同载荷下进行对接的现实世界挑战,这些载荷可能超出原始训练分布。我们探索了现有的提高鲁棒性的方法,包括随机化技术和历史条件控制器。我们的研究结果提供了关于在训练对接控制器时减轻sim2real差距的见解。此外,我们的工作指出了可能对海洋机器人社区有益的未来研究领域。 |
[15] 在LLM驱动的认知行为疗法练习中参与度和信息披露:一个比较机器人与聊天机器人随时间影响的析因设计 标题: Engagement and Disclosures in LLM-Powered Cognitive Behavioral Therapy Exercises: A Factorial Design Comparing the Influence of a Robot vs. Chatbot Over Time 作者: Mina Kian / Mingyu Zong / Katrin Fischer / Anna-Maria Velentza / Abhyuday Singh / Kaleen Shrestha / Pau Sang / Shriya Upadhyay / Wallace Browning / Misha Arif Faruki / Sébastien M. R. Arnold / Bhaskar Krishnamachari / Maja Matarić 原文: [英文] [中文] 备注: None 摘要: 许多研究人员正在通过开发增加护理可及性的治疗技术来应对全球心理健康危机,其中包括利用大型语言模型(LLM)在聊天机器人和用于治疗应用的社交辅助机器人(SAR)中的能力。然而,这些技术随时间推移的效果仍未被探索。在这项研究中,我们使用析因设计来评估具身性和参与治疗练习的时间对参与者自我披露的影响。我们评估了从一项为期两周的研究中收集的转录记录,该研究中26名大学生参与者在其住所中使用LLM驱动的SAR或无实体的聊天机器人每天完成互动的认知行为疗法(CBT)练习。我们评估了他们在每次会话期间及随时间推移的积极参与程度和高亲密度的自我披露(意见、判断和情感)。我们的研究结果显示,时间和具身性在两个结果指标上存在显著的交互作用:在物理机器人条件下,参与者的参与度和亲密度随时间增加,而在聊天机器人条件下,这两个指标均随时间减少。 |
[16] 公平竞争:仔细比较用于四旋翼轨迹跟踪的经典控制器和学习控制器 标题: Leveling the Playing Field: Carefully Comparing Classical and Learned Controllers for Quadrotor Trajectory Tracking 作者: Pratik Kunapuli / Jake Welde / Dinesh Jayaraman / Vijay Kumar 原文: [英文] [中文] 备注: Accepted for publication to RSS 2025. 10 pages, 5 figures. Project website: this https URL 摘要: 基于学习的控制方法,如强化学习(RL),最近在四旋翼飞行器轨迹跟踪和无人机竞速等任务中取得了一系列令人印象深刻的成果。自然地,通常会将这些新型控制器与传统方法如解析控制器进行比较,以展示其优势。然而,我们观察到,可靠地比较这些截然不同类别的控制器的性能比乍看之下要复杂得多。作为一个案例研究,我们研究了具有固定臂的四旋翼飞行器的末端执行器的敏捷跟踪问题。我们制定了一套最佳实践,用于合成最佳的RL和几何控制器(GC)以进行基准测试。在此过程中,我们解决了先前研究中普遍存在的偏向RL的偏见,这些偏见在以下方面提供了不对称的访问:(1) 任务定义,以目标函数的形式,(2) 代表性数据集,用于参数优化,以及 (3) 前馈信息,描述期望的未来轨迹。由此得出的结论如下:我们对比较学习型和经典控制器的实验协议的改进至关重要,上述每种不对称性都可能导致误导性的结论。先前的研究声称RL优于GC,但我们发现,当考虑对称比较时,两类控制器之间的差距比先前发表的要小得多。几何控制在稳态误差方面优于RL,而RL在瞬态性能方面更好,这导致GC在相对缓慢或不太敏捷的任务中表现更好,而RL在需要更高敏捷性时表现更佳。最后,我们开源了这些空中飞行器的几何和RL控制器的实现,实施了最佳实践以供未来开发。网站和代码可在此https URL获取。 |
[17] 基于概念学习的安全标准的生成式抓取检测与估计 标题: Generative Grasp Detection and Estimation with Concept Learning-based Safety Criteria 作者: Al-Harith Farhad / Khalil Abuibaid / Christiane Plociennik / Achim Wagner / Martin Ruskowski 原文: [英文] [中文] 备注: RAAD 2025: 34th International Conference on Robotics in Alpe-Adria-Danube Region 摘要: 神经网络通常被视为可以估计任何函数的通用方程。然而,这种灵活性伴随着高复杂度的缺点,使这些网络成为黑箱模型,这在以安全为中心的应用中尤为重要。为此,我们提出了一种用于协作机器人(Cobot)抓取算法的流程,该算法可以检测相关工具并生成最佳抓取。为了提高这种方法的透明度和可靠性,我们整合了一种可解释的人工智能方法,通过提取学习到的特征并将其与输入中的相应类别相关联,为模型的基础预测提供解释。这些概念随后被用作附加标准,以确保安全处理工作工具。在本文中,我们展示了这种方法的一致性以及改进交接位置的标准。该方法在工业环境中进行了测试,设置了一个摄像系统以使机器人能够拾取特定的工具和物体。 |
[18] 几何接触流:用于动力学与控制的接触同胚 标题: Geometric Contact Flows: Contactomorphisms for Dynamics and Control 作者: Andrea Testa / Søren Hauberg / Tamim Asfour / Leonel Rozo 原文: [英文] 备注: Accepted at ICML 2025 摘要: 准确地建模和预测复杂动态系统,特别是那些涉及力交换和耗散的系统,对于从流体动力学到机器人技术的应用至关重要,但由于几何约束和能量传递的复杂相互作用而面临重大挑战。本文介绍了几何接触流(GFC),这是一种新颖的框架,利用黎曼和接触几何作为归纳偏差来学习此类系统。GCF构建了一个潜在的接触哈密顿模型,编码了稳定性或能量守恒等理想属性。然后,一组接触变形将该模型调整为目标动态,同时保留这些属性。该集合允许不确定性感知的测地线将系统行为吸引到数据支持上,从而实现对未见场景的稳健泛化和适应。在物理系统的动态学习和机器人交互任务控制方面的实验展示了我们方法的有效性。 |
[19] 嵌入式柔性周向传感用于连续体机器人实时术中环境感知 标题: Embedded Flexible Circumferential Sensing for Real-Time Intraoperative Environmental Perception in Continuum Robots 作者: Peiyu Luo / Shilong Yao / Yuhan Chen / Max Q.-H. Meng 原文: [英文] [中文] 备注: None 摘要: 连续体机器人因其紧凑的尺寸和高度的灵活性,已被广泛应用于机器人辅助微创手术(RMIS)。然而,它们的本体感知能力仍然有限,特别是在狭窄的腔道中,缺乏环境感知可能导致意外的组织接触和手术风险。为了解决这一挑战,本文提出了一种灵活的环形传感器结构,该结构集成在连续体机器人的椎间盘周围。所提出的设计通过估算机器人椎间盘与周围组织之间的距离,实现了实时环境映射,从而通过先进的控制策略促进更安全的操作。实验证明,其障碍物检测的精度可达0.19毫米。该传感器采用柔性印刷电路(FPC)技术制造,展示了模块化和成本效益高的设计,具有紧凑的尺寸和低噪声干扰。其可调参数允许与各种连续体机器人架构兼容,为增强手术机器人中的术中感知和控制提供了一个有前景的解决方案。 |
[20] GeNIE:一种适用于野外环境的可推广导航系统 标题: GeNIE: A Generalizable Navigation System for In-the-Wild Environments 作者: Jiaming Wang / Diwen Liu / Jizhuo Chen / Jiaxuan Da / Nuowen Qian / Tram Minh Man / Harold Soh 原文: [英文] [中文] 备注: 8 pages, 5 figures. Jiaming Wang, Diwen Liu, and Jizhuo Chen contributed equally 摘要: 在非结构化的真实世界环境中进行可靠导航仍然是具身智能体面临的重大挑战,尤其是在跨越多样地形、天气条件和传感器配置时。在本文中,我们介绍了GeNIE(用于野外环境的通用导航系统),这是一个为全球部署设计的强大导航框架。GeNIE集成了一个基于SAM2构建的可推广的可通行性预测模型,并采用了一种新颖的路径融合策略,以增强在嘈杂和模糊环境中的规划稳定性。我们在2025年ICRA的地球漫游者挑战赛(ERC)中部署了GeNIE,该系统在跨越三大洲的六个国家中进行了评估。GeNIE获得了第一名,达到了最大可能得分的79%,比第二名的团队高出17%,并且在整个比赛过程中没有一次人工干预。这些结果为强大、可推广的户外机器人导航设立了新的基准。我们将发布代码库、预训练模型权重和新整理的数据集,以支持未来在真实世界导航中的研究。 |
[21] 牛顿和拉格朗日神经网络:高效逆动力学识别的比较 标题: Newtonian and Lagrangian Neural Networks: A Comparison Towards Efficient Inverse Dynamics Identification 作者: Minh Trinh / Andreas René Geist / Josefine Monnet / Stefan Vilceanu / Sebastian Trimpe / Christian Brecher 原文: [英文] [中文] 备注: Paper accepted for publication in 14th IFAC Symposium on Robotics 摘要: 准确的逆动力学模型是控制工业机器人的重要工具。最近的研究将神经网络回归与牛顿-欧拉和欧拉-拉格朗日运动方程的逆动力学公式相结合,分别形成了所谓的牛顿神经网络和拉格朗日神经网络。这些物理信息模型旨在从数据中识别分析方程中的未知数。尽管它们具有潜力,但当前的文献缺乏关于选择拉格朗日网络和牛顿网络的指导。在这项研究中,我们表明,当估计电机扭矩而不是直接测量关节扭矩时,拉格朗日网络的效果不如牛顿网络,因为它们没有明确地建模耗散扭矩。这些模型的性能与对MABI MAX 100工业机器人数据进行神经网络回归的结果进行了比较。 |
[22] ADA-DPM:一种基于神经描述子的自适应噪声点过滤策略用于SLAM 标题: ADA-DPM: A Neural Descriptors-based Adaptive Noise Point Filtering Strategy for SLAM 作者: Yongxin Shao / Binrui Wang / Aihong Tan 原文: [英文] [中文] 备注: None 摘要: LiDAR SLAM 在包括移动机器人导航和高精度地图构建等多个领域展示了重要的应用价值。然而,现有方法在面对动态物体干扰、点云噪声和非结构化环境时,往往需要在定位精度和系统鲁棒性之间进行权衡。为了解决这一挑战,我们提出了一种自适应噪声过滤 SLAM 策略——ADA-DPM,在这两个方面都取得了优异的表现。我们设计了动态分割头,用于预测属于动态点的特征点的类别,以消除动态特征点;设计了全局重要性评分头,自适应地选择贡献度更高的特征点和特征,同时抑制噪声干扰;并构建了跨层内图卷积模块(GLI-GCN),以融合多尺度邻域结构,从而增强重叠特征的判别能力。最后,为了进一步验证我们方法的有效性,我们在几个公开数据集上进行了测试,并取得了卓越的结果。 |
[23] StereoTacTip:基于视觉的触觉传感与仿生皮肤标记排列 标题: StereoTacTip: Vision-based Tactile Sensing with Biomimetic Skin-Marker Arrangements 作者: Chenghua Lu / Kailuan Tang / Xueming Hui / Haoran Li / Saekwang Nam / Nathan F. Lepora 原文: [英文] [中文] 备注: 11 pages, 13 figures 摘要: 基于视觉的触觉传感器(VBTSs)因其高信息含量的输出而表现出色。最近,基于标记的VBTSs在使用立体相机时被证明可以实现精确的几何重建。然而,许多基于标记的VBTSs使用复杂的仿生皮肤标记排列,这给从标记中重建皮肤表面的几何形状带来了问题。在此,我们研究了基于标记的皮肤形态如何影响基于立体视觉的触觉感知,使用一种新型VBTS称为StereoTacTip。为了实现精确的几何重建,我们引入了:(i) 使用新颖的Delaunay-Triangulation-Ring-Coding算法进行立体标记匹配和跟踪;(ii) 一个折射深度校正模型,用于校正内部介质折射引起的深度失真;(iii) 从标记位置出发的皮肤表面校正模型,依赖于对皮肤表面法线的逆向计算;以及(iv) 多重接触下的几何重建方法。为了展示这些发现,我们在一个大型3D地图上重建了地形地貌。尽管贡献(i)和(ii)是为仿生标记开发的,但它们应该能提高所有基于标记的VBTSs的性能。总体而言,这项工作表明,对形态复杂的皮肤和基于标记的触觉传感器原理的深入理解和评估对于获得精确的几何信息至关重要。 |
[24] RoboTwin 2.0:一个具有强域随机化的可扩展数据生成器和基准,用于鲁棒的双手机器人操作 标题: RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation 作者: Tianxing Chen / Zanxin Chen / Baijun Chen / Zijian Cai / Yibin Liu / Qiwei Liang / Zixuan Li / Xianliang Lin / Yiheng Ge / Zhenyu Gu / Weiliang Deng / Yubin Guo / Tian Nian / Xuanbing Xie / Qiangyu Chen / Kailun Su / Tianling Xu / Guodong Liu / Mengkang Hu / Huan-ang Gao / Kaixuan Wang / Zhixuan Liang / Yusen Qin / Xiaokang Yang / Ping Luo / Yao Mu 原文: [英文] [中文] 备注: Project Page: this https URL 摘要: 基于模拟的数据合成已成为增强现实世界中机器人操作的强大范式。然而,现有的合成数据集在稳健的双手操作方面仍显不足,主要由于两个挑战:(1)缺乏一种高效、可扩展的数据生成方法来应对新任务,以及(2)过于简化的模拟环境未能捕捉现实世界的复杂性。我们提出了RoboTwin 2.0,这是一个可扩展的模拟框架,能够自动、大规模生成多样且逼真的数据,并提供用于双臂操作的统一评估协议。我们首先构建了RoboTwin-OD,这是一个大规模的对象库,包含147个类别的731个实例,每个实例都带有语义和与操作相关的标签。在此基础上,我们开发了一条专家数据合成管道,该管道结合了多模态大语言模型(MLLMs)与循环内模拟优化,自动生成任务级执行代码。为了改善从模拟到现实的迁移,RoboTwin 2.0在五个轴上引入了结构化域随机化:杂乱、光照、背景、桌面高度和语言指令,从而增强了数据多样性和策略稳健性。我们在五种机器人体现的50个双臂任务中实例化了这一框架,并预先收集了超过100,000条域随机化的专家轨迹。实证结果显示,代码生成成功率提高了10.9%,并在新颖的现实场景中实现了更好的泛化。一个在我们数据集上微调的VLA模型在未见过的场景现实任务中实现了367%的相对提升(42.0%对比9.0%),而仅在我们的合成数据上训练的零样本模型实现了228%的相对增益,突显了在没有现实世界监督的情况下的强泛化能力。我们发布了数据生成器、基准、数据集和代码,以支持在稳健的双手操作方面的可扩展研究。 |
[25] RoboArena:通用机器人策略的分布式真实世界评估 标题: RoboArena: Distributed Real-World Evaluation of Generalist Robot Policies 作者: Pranav Atreya / Karl Pertsch / Tony Lee / Moo Jin Kim / Arhan Jain / Artur Kuramshin / Clemens Eppner / Cyrus Neary / Edward Hu / Fabio Ramos / Jonathan Tremblay / Kanav Arora / Kirsty Ellis / Luca Macesanu / Matthew Leonard / Meedeum Cho / Ozgur Aslan / Shivin Dass / Jie Wang / Xingfang Yuan / Xuning Yang / Abhishek Gupta / Dinesh Jayaraman / Glen Berseth / Kostas Daniilidis / Roberto Martin-Martin / Youngwoon Lee / Percy Liang / Chelsea Finn / Sergey Levine 原文: [英文] [中文] 备注: Website: this https URL 摘要: 全面、公正和可比的现代通用策略评估具有独特的挑战性:现有的机器人基准测试方法通常依赖于高度标准化,要么通过指定固定的评估任务和环境,要么通过举办集中的“机器人挑战赛”,而这些方法不易扩展到在广泛的任务和环境中评估通用策略。在这项工作中,我们提出了RoboArena,这是一种在现实世界中对通用机器人策略进行可扩展评估的新方法。我们不再围绕固定任务、环境或地点进行标准化评估,而是建议通过分布式评估者网络进行众包评估。重要的是,评估者可以自由选择他们评估的任务和环境,从而轻松扩展多样性,但他们需要对策略对进行双盲评估。然后,通过聚合来自多样化任务和环境的成对比较的偏好反馈,我们可以得出策略的排名。我们在七个学术机构的评估者网络中使用DROID机器人平台实现了我们的方法。通过超过600个真实机器人评估对比实验,涵盖七种通用策略,我们证明了我们的众包方法比传统的集中评估方法更准确地对现有通用策略的性能进行排名,同时更具可扩展性、弹性和可信度。我们向社区开放我们的评估网络,希望它能促进通用机器人策略的更便捷比较。 |
[26] 自动化计划优化以提高机器人铺设复合材料片材的效率 标题: Automated Plan Refinement for Improving Efficiency of Robotic Layup of Composite Sheets 作者: Rutvik Patel / Alec Kanyuck / Zachary McNulty / Zeren Yu / Lisa Carlson / Vann Heng / Brice Johnson / Satyandra K. Gupta 原文: [英文] [中文] 备注: None 摘要: 复合材料片材铺设的自动化对于满足各行业对复合材料日益增长的需求至关重要。然而,机器人铺设复合材料片材的铺设计划并不稳健。在某种条件下效果良好的计划在不同条件下可能表现不佳。由于材料性质或工作环境的变化,操作条件的改变可能导致铺设计划表现出次优性能。在本文中,我们提出了一个综合框架,旨在根据观察到的执行性能优化计划。我们的框架优先考虑减少未压实区域,同时提高时间效率。为实现这一目标,我们将人类专业知识与数据驱动的决策相结合,以优化专家制定的计划以适应多样化的生产环境。我们进行了实验以验证我们方法的有效性,结果显示与初始专家制定的计划相比,所需的纠正路径数量显著减少。通过经验数据分析、行动有效性建模和基于搜索的优化相结合,我们的系统在机器人铺设中实现了卓越的时间效率。实验结果证明了我们方法在优化铺设过程中的有效性,从而推动了复合材料制造自动化的技术进步。 |
[27] 将大型语言模型与数字孪生结合用于建筑中的自适应多机器人任务分配 标题: Integrating LLMs and Digital Twins for Adaptive Multi-Robot Task Allocation in Construction 作者: Min Deng / Bo Fu / Lingyao Li / Xi Wang 原文: [英文] [中文] 备注: None 摘要: 多机器人系统正在成为满足工业部门对生产力、安全性和适应性日益增长需求的有前景的解决方案。然而,在动态和不确定的环境中(如建筑工地)有效协调多个机器人仍然是一个挑战,特别是由于材料延误、意外的现场条件和天气引起的干扰等不可预测因素。为了解决这些挑战,本研究提出了一种自适应任务分配框架,该框架战略性地利用了数字孪生、整数规划(IP)和大型语言模型(LLMs)的协同潜力。多机器人任务分配问题被正式定义,并使用一个IP模型来解决,该模型考虑了任务依赖性、机器人异质性、调度约束和重新规划需求。引入了一种叙述驱动的计划适应机制,其中非结构化自然语言输入由LLM解释,优化约束被自主更新,从而实现了人机交互的灵活性而无需手动编码。开发了一个基于数字孪生的系统,以实现物理操作与其数字表示之间的实时同步。这个闭环反馈框架确保系统对现场的持续变化保持动态和响应性。一个案例研究展示了优化算法的计算效率和多个LLM的推理性能,表现最好的模型在约束和参数提取方面达到了97%以上的准确率。结果证实了所提出方法的实用性、适应性和跨领域适用性。 |
[28] Haptic-ACT——通过机器人使用多模态信息和动作分块与变换器进行伪卵母细胞操作 标题: Haptic-ACT -- Pseudo Oocyte Manipulation by a Robot Using Multimodal Information and Action Chunking with Transformers 作者: Pedro Miguel Uriguen Eljuri / Hironobu Shibata / Maeyama Katsuyoshi / Yuanyuan Jia / Tadahiro Taniguchi 原文: [英文] [中文] 备注: Accepted at IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS2025) Project website this https URL 摘要: 在本文中,我们介绍了一种用于伪卵母细胞操作的先进机器人系统——Haptic-ACT,该系统集成了多模态信息和基于变压器的动作分块(ACT)。传统的卵母细胞转移自动化方法严重依赖视觉感知,由于生物变异性和环境干扰,通常需要人工监督。Haptic-ACT 通过结合触觉反馈增强了 ACT,能够实时检测抓取失败并进行自适应校正。此外,我们引入了一种 3D 打印的 TPU 软夹具,以促进精细操作。实验结果表明,与传统的 ACT 相比,Haptic-ACT 提高了任务成功率、稳健性和适应性,特别是在动态环境中。这些发现突显了多模态学习在生物医学自动化机器人领域的潜力。 |
[29] 基于全身模块化电子皮肤的机器人触觉手势识别 标题: Robot Tactile Gesture Recognition Based on Full-body Modular E-skin 作者: Shuo Jiang / Boce Hu / Linfeng Zhao / Lawson L.S. Wong 原文: [英文] [中文] 备注: None 摘要: 随着机器人电子皮肤技术的发展,各种由人工智能增强的触觉传感器正在为机器人开启感知的新维度。在这项工作中,我们探讨了配备电子皮肤的机器人如何识别触觉手势并将其解释为人类指令。我们开发了一种模块化机器人电子皮肤,由多个不规则形状的皮肤贴片组成,可以组装覆盖机器人的身体,同时从数千个感应点捕获实时压力和姿态数据。为了处理这些信息,我们提出了一种基于等变图神经网络的识别器,可以高效且准确地分类各种触觉手势,包括戳、抓、抚摸和双拍。通过将识别的手势映射到预定义的机器人动作,我们实现了纯粹通过触觉输入的直观人机交互。 |
[30] 无人机基于视觉的高效主动跟踪飞行目标的学习方法 标题: Learning Approach to Efficient Vision-based Active Tracking of a Flying Target by an Unmanned Aerial Vehicle 作者: Jagadeswara PKV Pothuri / Aditya Bhatt / Prajit KrisshnaKumar / Manaswin Oddiraju / Souma Chowdhury 原文: [英文] [中文] 备注: AIAA Aviation 2025 摘要: 对飞行空中物体的自主跟踪在民用和国防领域具有重要应用,从搜索和救援到反无人机系统(counter-UAS)。基于地面的跟踪需要建立基础设施,可能受到范围限制,并且在偏远地区、拥挤的城市或密集植被区域可能不可行。基于视觉的从另一空中载具(例如,追踪无人机)对空中物体进行主动跟踪,有望填补这一重要空白,同时服务于空中协调的用例。无人机的基于视觉的主动跟踪需要解决两个耦合问题:1)计算高效且准确的(目标)物体检测和目标状态估计;2)机动决策,以确保目标在未来时间步内保持在视野中,并有利于持续检测。作为第一个问题的解决方案,本文提出了一种将标准深度学习架构与核相关滤波器(KCF)相结合的新方法,以实现计算高效的物体检测而不影响准确性,这与单独的学习或滤波方法不同。所提出的感知框架通过实验室规模的设置进行了验证。对于第二个问题,为了避免传统控制器的线性假设和背景变化限制其有效性,我们提出使用强化学习训练一个神经控制器,以快速计算速度机动。为此开发了新的状态空间、动作空间和奖励形式,并在AirSim中进行模拟训练。训练后的模型也在AirSim中针对复杂目标机动进行了测试,结果发现其在跟踪时间和跟踪期间与目标保持的平均距离方面优于基线PID控制。 |
[31] 使用方形靶标改进激光雷达-相机校准 标题: Improvement on LiDAR-Camera Calibration Using Square Targets 作者: Zhongyuan Li / Honggang Gou / Ping Li / Jiaotong Guo / Mao Ye 原文: [英文] [中文] 备注: None 摘要: 精确的传感器校准对于自动驾驶车辆至关重要,因为这是感知算法正常运行的前提条件。在远距离目标物体检测中,一度的旋转误差可能会转化为数米的定位误差,从而导致系统反应不当,甚至引发安全问题。尽管已经提出了许多多传感器校准的方法,但很少有工作全面考虑在工厂制造流水线或售后服务场景中应用校准过程时所面临的挑战。在这项工作中,我们介绍了一种基于目标的全自动LiDAR-摄像头外参校准算法,该算法快速、易于部署,并且对传感器噪声(如数据丢失)具有鲁棒性。该方法的核心包括:(1)仅使用几何信息的自动多阶段LiDAR板检测流程,无需特定材料要求;(2)对初始外参误差具有鲁棒性的快速粗略外参搜索机制;(3)对传感器噪声具有鲁棒性的直接优化算法。我们通过在真实场景中捕获的数据进行实验验证了我们方法的有效性。 |
[32] TritonZ:一种用于探索和救援行动的带机械臂的远程操作水下探测器 标题: TritonZ: A Remotely Operated Underwater Rover with Manipulator Arm for Exploration and Rescue Operations 作者: Kawser Ahmed / Mir Shahriar Fardin / Md Arif Faysal Nayem / Fahim Hafiz / Swakkhar Shatabda 原文: [英文] [中文] 备注: 6 pages, 5 figures 摘要: 对水下探测和救援行动日益增长的需求推动了配备机械臂的先进无线或半无线水下船只的发展。本文介绍了一种名为“TritonZ”的半无线水下车辆的实现,该车辆配备了机械臂,专为有效的水下探测和救援行动而设计。该车辆的紧凑设计使其能够在不同的潜水环境中部署,满足了能够在复杂水下地形中导航的无线系统的需求。机械臂可以与环境互动,使机器人在紧急情况下的探测和救援任务中执行复杂的任务。TritonZ配备了各种传感器,如Pi摄像头、湿度和温度传感器,以发送实时环境数据。我们的水下车辆使用定制的遥控器控制,可以在水中高效导航,其中Pi摄像头实现了周围环境的实时流媒体传输。运动控制和视频捕捉通过该摄像头同时进行。机械臂被设计用于执行各种任务,如抓取、操作和收集水下物体。实验结果显示,所提出的远程操作车辆在执行各种水下探测和救援任务方面的有效性。此外,结果表明TritonZ可以以平均13.5厘米/秒的速度运行,延迟仅为2-3秒。此外,该车辆可以通过保持其位置和平均速度来承受水下的波浪。完整的项目详情和源代码可以通过以下链接访问:this https URL |
[33] 机器人操控底端固定的旋转链条 标题: Robotic Manipulation of a Rotating Chain with Bottom End Fixed 作者: Qi Jing Chen / Shilin Shan / Quang-Cuong Pham 原文: [英文] 备注: 6 pages, 5 figures 摘要: 本文研究了使用机器人手臂操控底端固定的均匀旋转链的问题。现有研究已经探讨了理想的旋转形状以用于实际应用,但尚未讨论如何通过操控规划来持续实现这些形状。我们的工作提出了一种用于稳定和一致形状转换的操控策略。我们发现这种链的配置空间与三维立方体同胚。利用这一特性,我们建议了一种策略来操控链进入不同的配置,特别是从一种旋转模式到另一种旋转模式,同时考虑稳定性和可行性。我们通过物理实验展示了我们策略的有效性,成功地从静止状态过渡到前两个旋转模式。我们工作中探讨的概念在确保钻柱和纱线纺织操作的安全性和效率方面具有重要应用。 |
[34] 机器人与儿童共同学习:通过教授类同伴互动机器人提高知识保留 标题: Robots and Children that Learn Together : Improving Knowledge Retention by Teaching Peer-Like Interactive Robots 作者: Imene Tarakli / Samuele Vinanzi / Richard Moore / Alessandro Di Nuovo 原文: [英文] [中文] 备注: None 摘要: 尽管对“通过教学来学习”(LbT)的兴趣日益增长,但很少有研究探讨如何在真实课堂中通过自主、类似同伴的社交机器人来实施这一范式。大多数先前的工作依赖于预设或“奥兹巫师”行为,限制了我们对人工代理如何支持实时互动学习的理解。本研究通过引入互动强化学习(RL)作为可教社交机器人的认知模型来填补这一空白。我们进行了两项被试间实验,涉及58名小学生,他们在学习法语词汇(记忆)和语法规则(推理)时,要么教机器人,要么在平板电脑上独立练习。由互动RL驱动的机器人从孩子的评价反馈中学习。在LbT条件下的孩子在记忆保持方面显著优于自我练习条件的孩子,尤其是在语法任务上。先前知识较少的学习者从教机器人中获益最多。行为指标显示,孩子们随着时间的推移调整了他们的教学策略,并在推理任务中更深入地参与。这项工作有两个贡献:(1)它引入了互动RL作为一种在教育上有效且可扩展的同伴机器人学习模型;(2)首次展示了在真实课堂中同时部署多个自主机器人的可行性。这些发现扩展了对LbT的理论理解,表明社交机器人不仅可以作为被动的受教者,还可以作为适应性伙伴,增强元认知参与和长期学习效果。 |
[35] 在干扰下集成可操作规划和自适应控制以实现机器人推车 标题: Integrating Maneuverable Planning and Adaptive Control for Robot Cart-Pushing under Disturbances 作者: Zhe Zhang / Peijia Xie / Zhirui Sun / Bingyi Xia / Bi-Ke Zhu / Jiankun Wang 原文: [英文] [中文] 备注: 11 pages, 11 figures 摘要: 精确且灵活的推车任务对于移动机器人来说是一个具有挑战性的任务。在推车过程中,运动约束和机器人的冗余性导致了复杂的运动规划问题,而可变的负载和干扰则带来了复杂的动力学。在这项工作中,我们提出了一种新颖的规划和控制框架,用于灵活的全身协调和稳健的自适应控制。我们的运动规划方法采用局部坐标表示和新颖的运动学模型来解决非线性优化问题,从而通过生成可行且灵活的推车姿态来增强运动的机动性。此外,我们提出了一种抗干扰控制方法,以抵抗干扰并减少复杂控制问题中的控制误差,而无需精确的动态模型。我们通过大量的仿真和现实环境实验验证了我们的方法,展示了其相对于现有方法的优越性。据我们所知,这是首次在实验中系统地评估推车方法的灵活性和稳健性。视频补充材料可在此网址查看。 |
[36] 雷达与事件相机融合用于敏捷机器人自运动估计 标题: Radar and Event Camera Fusion for Agile Robot Ego-Motion Estimation 作者: Yang Lyu / Zhenghao Zou / Yanfeng Li / Chunhui Zhao / Quan Pan 原文: [英文] [中文] 备注: None 摘要: 实现敏捷机器人(例如特技飞行器)的可靠自我运动估计仍然具有挑战性,因为大多数机器人传感器无法及时清晰地响应高度动态的机器人运动,常常导致测量模糊、失真和延迟。在本文中,我们提出了一种无需IMU和特征关联的框架,通过结合两种外感传感器——事件相机和毫米波雷达,在高度动态场景中实现机器人平台的激进自我运动速度估计。首先,我们使用瞬时原始事件和多普勒测量直接推导旋转和平移速度。由于无需在测量帧之间进行复杂的关联过程,所提出的方法在无纹理和无结构的环境中更具鲁棒性,并且在边缘计算设备上更具计算效率。然后,在后端,我们提出了一种连续时间状态空间模型,以融合基于时间和事件的混合测量,以固定滞后平滑的方式估计自我运动速度。最后,我们在自采集的实验数据集中广泛验证了我们的速度计框架。结果表明,我们的无需IMU和关联的自我运动估计框架能够在具有挑战性的环境中实现可靠和高效的速度输出。源代码、说明视频和数据集可在此https URL获取。 |
[37] GraspMAS:基于多智能体系统的零样本语言驱动抓取检测 标题: GraspMAS: Zero-Shot Language-driven Grasp Detection with Multi-Agent System 作者: Quang Nguyen / Tri Le / Huy Nguyen / Thieu Vo / Tung D. Ta / Baoru Huang / Minh N. Vu / Anh Nguyen 原文: [英文] [中文] 备注: 8 pages, accepted to IROS 2025 摘要: 语言驱动的抓取检测有可能通过让机器人理解并执行基于自然语言指令的抓取任务来革新人机交互。然而,现有的方法面临两个关键挑战。首先,它们通常难以解释复杂的文本指令或在密集杂乱的环境中操作效果不佳。其次,大多数方法需要一个训练或微调步骤来适应新的领域,这限制了它们在现实世界应用中的生成能力。在本文中,我们介绍了GraspMAS,一种用于语言驱动抓取检测的新型多智能体系统框架。GraspMAS旨在通过模糊推理来改善在现实场景中的决策能力。我们的框架由三个专门的智能体组成:规划者,负责策划复杂查询;编码者,生成并执行源代码;观察者,评估结果并提供反馈。在两个大规模数据集上的深入实验表明,我们的GraspMAS显著优于现有的基线。此外,在模拟和现实环境中进行的机器人实验进一步验证了我们方法的有效性。 |
[38] 一种用于机器人开放式学习挑战的动机架构 标题: A Motivational Architecture for Open-Ended Learning Challenges in Robots 作者: Alejandro Romero / Gianluca Baldassarre / Richard J. Duro / Vieri Giuliano Santucci 原文: [英文] [中文] 备注: Accepted to RLDM 2025 摘要: 开发能够自主与复杂和动态环境交互的智能体是将人工系统部署在现实世界中的关键前提。在这些环境中,任务结构可能会随时间变化,且无法依赖先验知识。开放式学习框架识别了创建此类智能体的核心挑战,包括自主生成新目标的能力、获取实现这些目标所需的技能(或技能课程)的能力,以及适应非静态环境的能力。虽然许多现有的工作分别解决了这些挑战的各个方面,但很少有提出同时解决这些问题的综合解决方案。在本文中,我们介绍了H-GRAIL,这是一种分层架构,通过使用不同类型的内在动机和互联的学习机制,能够自主发现新目标,学习实现目标所需的技能,生成应对相互依赖任务的技能序列,并适应非静态环境。我们在一个真实的机器人场景中测试了H-GRAIL,展示了所提出的解决方案如何有效地应对开放式学习的各种挑战。 |
[39] 镜像之眼:一目了然的可解释人机交互 标题: Mirror Eyes: Explainable Human-Robot Interaction at a Glance 作者: Matti Krüger / Daniel Tanneberg / Chao Wang / Stephan Hasler / Michael Gienger 原文: [英文] [中文] 备注: Accepted to the 34th IEEE International Conference on Robot and Human Interactive Communication (RO-MAN) 摘要: 一个人的凝视往往反映了他们的兴趣。这项工作探讨了当这一陈述被字面应用于机器人时会发生什么。我们展示了一个机器人系统,该系统采用一个带有屏幕眼睛模型的移动机器人头,可以将机器人的视线引导到物理空间中的点,并在每只眼睛上方呈现所关注区域的类似镜像。我们进行了一个用户研究,邀请了33名参与者,他们被要求指导机器人执行拾取和放置任务,监控机器人的任务执行,并在出现错误操作时进行干预。尽管故意没有提供关于眼睛角色的说明,并且系统曝光时间非常短,参与者在启用基于眼睛的镜像功能时,比在没有反射眼睛时更能意识到机器人的信息处理,更早发现错误操作,并且对用户体验的评价更高。这些结果表明,在人机协作互动中引入的方法具有有益和直观的利用价值。 |
[40] 线缆驱动并联机器人设计、制造与控制 标题: Design, fabrication and control of a cable-driven parallel robot 作者: Dhruv Sorathiya / Sarthak Sahoo / Vivek Natarajan 原文: [英文] [中文] 备注: 4 pages, 8 fugures 摘要: 在绳索驱动并联机器人(CDPRs)中,负载通过一组绳索悬挂,这些绳索的长度可以被控制,以便在工作空间内操纵负载。与刚性连杆机器人相比,CDPRs 由于绳索的灵活性提供了更好的机动性,并且由于绳索的高强度重量比而消耗更少的能量。然而,绳索的灵活性以及它们只能拉(而不能推)的特性使得 CDPRs 的动力学变得复杂。因此,必须开发先进的建模范式和控制算法,以充分利用 CDPRs 的潜力。此外,鉴于 CDPRs 的复杂动力学,为其提出的模型和控制算法必须在实验装置上进行验证,以确定其在实际中的有效性。我们最近为一个具有三根绳索的 CDPR 开发了一个精细的实验装置,并在其上验证了基本的开环运动规划算法。在本文中,我们描述了我们装置设计和制造的几个方面,包括组件选择和组装,并展示了我们的实验结果。我们的装置可以重现大型 CDPRs 中观察到的绳索横向振动等复杂现象,未来将用于建模和控制此类现象,并验证更复杂的运动规划算法。 |
[41] 在雷达三维点云中学习点对应关系用于雷达惯性里程计 标题: Learning Point Correspondences In Radar 3D Point Clouds For Radar-Inertial Odometry 作者: Jan Michalczyk / Stephan Weiss / Jan Steinbrener 原文: [英文] [中文] 备注: None 摘要: 在机器人学中使用3D点云进行里程计估计通常需要在连续扫描的点之间找到一组对应关系。虽然对于质量足够的点云已经有成熟的方法,但当质量下降时,最先进的方法仍然面临挑战。因此,本文提出了一种新颖的基于学习的框架,用于预测来自轻量级、低功耗、廉价的消费级片上系统(SoC)调频连续波(FMCW)雷达传感器的噪声、稀疏和无结构的3D点云对之间的稳健点对应关系。我们的网络基于transformer架构,利用注意力机制来发现连续扫描中具有最大相互亲和力的点对。所提出的网络通过自监督的方式进行训练,使用基于集合的多标签分类交叉熵损失,其中真实匹配集通过求解线性和分配(LSA)优化问题找到,从而避免了对训练数据进行繁琐的手动标注。此外,将损失计算设定为多标签分类允许直接监督点对应关系,而不是里程计误差,这对于我们使用的SoC雷达的稀疏和噪声数据来说是不可行的。我们在真实世界的无人机(UAV)飞行中以及广泛使用的公共Coloradar数据集上,使用开源的最先进的雷达惯性里程计(RIO)框架评估了我们的方法。评估表明,所提出的方法分别将位置估计精度平均提高了超过14%和19%。开源代码和数据集可以在此处找到:this https URL。 |
[42] PG-LIO:用于鲁棒激光雷达-惯性测程的光度-几何融合 标题: PG-LIO: Photometric-Geometric fusion for Robust LiDAR-Inertial Odometry 作者: Nikhil Khedekar / Kostas Alexis 原文: [英文] [中文] 备注: 8 pages, 6 figures 摘要: 激光雷达-惯性里程计(LIO)广泛用于精确的状态估计和地图构建,这是自主机器人必不可少的要求。传统的LIO方法通常依赖于从激光雷达采样的几何结构中构建约束。因此,在缺乏几何结构的情况下,这些方法往往会变得病态(退化)并失效。LIO在这种情况下的鲁棒性对于其更广泛的部署是必要的。为了解决这个问题,我们提出了PG-LIO,这是一种实时LIO方法,它融合了激光雷达采样的光度和几何信息以及来自惯性测量单元(IMU)的惯性约束。这种多模态信息被集成到一个滑动窗口上的因子图中进行实时操作。我们在多个数据集上评估了PG-LIO,这些数据集包括几何条件良好的场景以及自相似场景。我们的方法在几何结构良好的环境中达到了与最先进的LIO相当的精度,同时在退化情况下显著提高了精度,包括与其他也融合了强度信息的方法相比。值得注意的是,我们展示了在一个几何自相似的隧道中以平均速度7.5m/s(最大速度10.8m/s)手动驾驶的1公里航程中仅有1米的漂移。为了社区的利益,我们也将发布我们的源代码。 |
[43] NOVA:通过以物体为中心的视觉自主导航实现高速度目标追踪于无结构的无GPS环境 标题: NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments 作者: Alessandro Saviolo / Giuseppe Loianno 原文: [英文] [中文] 备注: None 摘要: 在非结构化和无GPS环境中进行自主空中目标追踪仍然是机器人领域的一个基本挑战。许多现有方法依赖于运动捕捉系统、预先映射的场景或基于特征的定位来确保安全和控制,这限制了它们在现实条件下的部署。我们介绍了NOVA,这是一种完全基于机载的、以对象为中心的框架,仅使用立体相机和惯性测量单元(IMU)实现稳健的目标追踪和碰撞感知导航。NOVA不构建全局地图或依赖绝对定位,而是完全在目标的参考框架中进行感知、估计和控制。一个紧密集成的堆栈结合了轻量级对象检测器与立体深度补全,随后使用基于直方图的过滤器在遮挡和噪声下推断稳健的目标距离。这些测量结果输入到视觉惯性状态估计器中,恢复机器人相对于目标的完整六自由度姿态。一个非线性模型预测控制器(NMPC)在目标框架中规划动态可行的轨迹。为了确保安全,从深度中提取的一组高风险碰撞点在线构建高阶控制屏障函数,实现实时障碍物规避,无需地图或密集表示。我们在具有挑战性的现实场景中验证了NOVA,包括城市迷宫、森林小径以及通过建筑物的反复过渡,这些场景中存在间歇性GPS丢失和严重的光照变化,干扰了基于特征的定位。每个实验在类似条件下重复多次以评估弹性,显示出一致和可靠的性能。NOVA在超过50公里/小时的速度下实现了敏捷的目标跟踪。这些结果表明,仅使用机载传感器,在野外进行高速视觉跟踪是可能的,无需依赖外部定位或环境假设。 |
[44] 使用协作异构空中机器人进行自主砌体施工的安全感知最优调度 标题: Safety-Aware Optimal Scheduling for Autonomous Masonry Construction using Collaborative Heterogeneous Aerial Robots 作者: Marios-Nektarios Stamatopoulos / Shridhar Velhal / Avijit Banerjee / George Nikolakopoulos 原文: [英文] [中文] 备注: This paper has been accepted for publication at the 2025 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2025) 摘要: 本文提出了一种新颖的高层次任务规划和优化协调框架,用于自主砌体施工,采用一组异构的空中机器人工人团队,其中包括分别负责砖块放置和砂浆应用的代理。这引入了调度和协调方面的新挑战,特别是由于砂浆固化期限对结构粘结的要求,以及确保并行操作的无人机之间的安全约束。为了解决这些问题,一个自动化流程根据可用砖块生成墙体施工计划,同时识别静态结构依赖性和潜在冲突以确保安全操作。所提出的框架通过结合动态耦合的优先截止约束(考虑固化过程和静态结构依赖性约束),优化无人机任务分配和执行时间,同时实施时空约束以防止碰撞并确保安全。调度器的主要目标是最小化整体施工工期,同时减少物流、任务间的旅行时间和固化时间,以保持粘附质量和安全的工作空间分隔。通过Gazebo模拟任务,广泛验证了所提出方法在实现协调和高效的空中砌体施工方面的有效性。结果表明,该框架能够简化无人机操作,确保施工过程中的结构完整性和安全性。 |
[45] TDACloud:使用拓扑数据分析的点云识别 标题: TDACloud: Point Cloud Recognition Using Topological Data Analysis 作者: Anirban Ghosh / Ian Dahlin / Ayan Dutta 原文: [英文] [中文] 备注: None 摘要: 基于点云的物体/地点识别在自动驾驶、场景重建和定位等应用中仍然是一个备受关注的问题。从查询点云中提取有意义的局部描述符,并将其与已收集点云的描述符进行匹配,是一个具有挑战性的问题。此外,当查询点云存在噪声或经过变换(例如旋转)时,问题的复杂性会增加。为此,我们提出了一种新颖的方法,名为TDACloud,利用拓扑数据分析(TDA)从点云中提取局部描述符,该方法不需要资源密集型的基于GPU的机器学习训练。更具体地说,我们使用了ATOL矢量化方法来为点云生成矢量。与体素化不同,我们提出的技术可以将原始点云作为输入,并输出固定大小的TDA描述符矢量。为了测试所提出的TDACloud技术的质量,我们在多个真实世界(例如,Oxford RobotCar,KITTI-360)和逼真(例如,ShapeNet)的点云数据集上实现了该技术,用于物体和地点识别。我们还在噪声和变换的测试案例中测试了TDACloud,其中查询点云被缩放、平移或旋转。我们的结果表明,在噪声条件下和大规模真实世界地点识别中,TDACloud表现出较高的识别准确率,并且在某些情况下比基线方法高出约14%。 |
[46] DefFusionNet:通过基于扩散的概率模型学习可变形物体操作的多模态目标形状 标题: DefFusionNet: Learning Multimodal Goal Shapes for Deformable Object Manipulation via a Diffusion-based Probabilistic Model 作者: Bao Thach / Siyeon Kim / Britton Jordan / Mohanraj Shanthi / Tanner Watts / Shing-Hei Ho / James M. Ferguson / Tucker Hermans / Alan Kuntz 原文: [英文] [中文] 备注: None 摘要: 可变形物体的操控在许多现实世界的机器人应用中至关重要,从外科手术机器人和制造业中的软材料处理到家庭任务如折叠衣物。在这一重要的机器人领域的核心是形状伺服任务,其重点是将可变形物体控制到期望的形状。形状伺服的公式需要指定一个目标形状。然而,以往大多数关于形状伺服的研究依赖于不切实际的目标形状获取方法,例如繁琐的领域知识工程或手动操作。DefGoalNet曾提出解决这一问题的当前最先进的解决方案,该方案直接从少量人类演示中学习可变形物体的目标形状。然而,它在多模态环境中表现不佳,在这种环境中,多个不同的目标形状都可以导致任务成功。作为一个确定性模型,DefGoalNet将这些可能性压缩成一个单一的平均解决方案,通常导致不可用的目标。在本文中,我们通过开发DefFusionNet来解决这个问题,这是一种新颖的神经网络,利用扩散概率模型来学习所有有效目标形状的分布,而不是预测单一的确定性结果。这使得生成多样化的目标形状成为可能,并避免了平均化的伪影。我们在模拟和实际机器人上展示了我们的方法在受制造业和外科应用启发的机器人任务中的有效性。我们的工作是第一个能够为现实世界的机器人应用生成多样化、多模态的可变形物体目标的生成模型。 |
[47] 学习物理系统:通过狄拉克结构中的规范固定实现辛化 标题: Learning Physical Systems: Symplectification via Gauge Fixing in Dirac Structures 作者: Aristotelis Papatheodorou / Pranav Vaidhyanathan / Natalia Ares / Ioannis Havoutis 原文: [英文] [中文] 备注: Presented at Equivariant Systems: Theory and Applications in State Estimation, Artificial Intelligence and Control, Robotics: Science and Systems (RSS) 2025 Workshop, 6 Pages, 3 Figures 摘要: 物理信息深度学习通过将几何先验(如哈密顿对称性和变分原理)嵌入到神经网络中,取得了显著进展,从而实现了结构保持模型,可以高精度地进行外推。然而,在具有耗散和完整约束的系统中,这些系统在腿式运动和多体机器人中无处不在,典型的辛形式变得退化,削弱了保证稳定性和长期预测的不变量。在这项工作中,我们通过引入预辛化网络(PSNs)来解决这一基础性限制,这是第一个通过Dirac结构学习辛化提升的框架,通过将约束系统嵌入到更高维的流形中,恢复非退化的辛几何。我们的架构结合了一个递归编码器和一个流匹配目标,以端到端地学习增强的相空间动力学。然后,我们附加一个轻量级的辛网络(SympNet)来预测约束轨迹,同时保持能量、动量和约束的满足。我们在ANYmal四足机器人这一具有挑战性的接触丰富的多体系统的动力学上展示了我们的方法。据我们所知,这是第一个有效弥合约束耗散机械系统与辛学习之间差距的框架,开启了一类全新的几何机器学习模型,这些模型以第一性原理为基础,但可以从数据中进行适应。 |
[48] SViP:使用以物体为中心的运动原语对双手视觉运动策略进行排序 标题: SViP: Sequencing Bimanual Visuomotor Policies with Object-Centric Motion Primitives 作者: Yizhou Chen / Hang Xu / Dongjie Yu / Zeqing Zhang / Yi Ren / Jia Pan 原文: [英文] [中文] 备注: Project website: this https URL 摘要: 模仿学习(IL),特别是在利用高维视觉输入进行策略训练时,已被证明在复杂的双手操作任务中直观且有效。然而,视觉运动策略的泛化能力仍然有限,尤其是在可用的示范数据集较小时。视觉运动策略中累积的错误显著阻碍了其完成长时间任务的能力。为了解决这些限制,我们提出了SViP,一个将视觉运动策略无缝集成到任务和运动规划(TAMP)中的框架。SViP使用语义场景图监视器将人类示范划分为双手和单手操作。关键场景图中的连续决策变量用于训练切换条件生成器。该生成器产生参数化的脚本原语,即使在遇到分布外观察时也能确保可靠的性能。仅使用20个真实世界的示范,我们展示了SViP使视觉运动策略能够在不需要物体姿态估计器的情况下泛化到分布外的初始条件。对于以前未见过的任务,SViP自动发现有效的解决方案以实现目标,利用TAMP形式中的约束建模。在真实世界的实验中,SViP优于最先进的生成式模仿学习方法,表明其在更复杂任务中的更广泛适用性。项目网站:this https URL |
[49] 在实际环境中对相机自动曝光方法进行可重复性评估:平台、基准和经验教训 标题: Reproducible Evaluation of Camera Auto-Exposure Methods in the Field: Platform, Benchmark and Lessons Learned 作者: Olivier Gamache / Jean-Michel Fortin / Matěj Boxan / François Pomerleau / Philippe Giguère 原文: [英文] [中文] 备注: 19 pages, 11 figures, pre-print version of the accepted paper for IEEE Transactions on Field Robotics (T-FR) 摘要: 标准数据集通常存在局限性,特别是由于输入数据传感器的固定性质,这使得比较那些主动调整传感器参数以适应环境条件的方法变得困难。这种情况在自动曝光(AE)方法中尤为明显,因为这些方法依赖于环境因素来影响图像采集过程。因此,AE方法传统上以在线方式进行基准测试,使得实验无法重复。在我们之前工作的基础上,我们提出了一种利用模拟器的方法,该模拟器能够在任何曝光时间生成图像。这种方法利用了BorealHDR,一个独特的多曝光立体数据集,以及其新的扩展,其中数据是在一天中不同时间沿重复轨迹获取的,以评估光照变化的影响。总的来说,BorealHDR覆盖了13.4公里,涉及59条轨迹,处于具有挑战性的光照条件下。该数据集还包括基于激光雷达-惯性-里程计的地图,每个图像帧的位姿估计,以及用于比较的全球导航卫星系统(GNSS)数据。我们证明,通过使用在不同曝光时间获取的图像,我们可以模拟出与真实图像相比均方根误差(RMSE)低于1.78%的真实图像。使用这种离线方法,我们对八种AE方法进行了基准测试,得出结论认为经典的AE方法仍然是该领域表现最好的。为了进一步支持可重复性,我们提供了关于我们背包采集平台开发的详细信息,包括硬件、电气组件和性能规格。此外,我们分享了在超过25公里的各种环境中部署背包的宝贵经验。我们的代码和数据集可在此链接在线获取:this https URL BorealHDR |
[50] GRAND-SLAM:用于全局一致的大规模多智能体高斯SLAM的局部优化 标题: GRAND-SLAM: Local Optimization for Globally Consistent Large-Scale Multi-Agent Gaussian SLAM 作者: Annika Thomas / Aneesa Sonawalla / Alex Rose / Jonathan P. How 原文: [英文] [中文] 备注: None 摘要: 3D 高斯散点图已经成为 RGB-D 视觉 SLAM 的一种富有表现力的场景表示方法,但其在大规模、多智能体户外环境中的应用尚未被探索。多智能体高斯 SLAM 是一种快速探索和重建环境的有前途的方法,提供可扩展的环境表示,但现有方法仅限于小规模的室内环境。为此,我们提出了通过多智能体密集 SLAM 进行高斯重建的方法,简称 GRAND-SLAM,这是一种协作高斯散点 SLAM 方法,集成了 i) 基于子地图局部优化的隐式跟踪模块和 ii) 集成到位姿图优化框架中的机器人间和机器人内回环闭合方法。实验表明,GRAND-SLAM 在 Replica 室内数据集上提供了最先进的跟踪性能,比现有方法高出 28% 的 PSNR,并且在大规模户外 Kimera-Multi 数据集上比现有多智能体方法降低了 91% 的多智能体跟踪误差,并改善了渲染效果。 |
[51] MinD:通过分层世界模型实现统一的视觉想象与控制 标题: MinD: Unified Visual Imagination and Control via Hierarchical World Models 作者: Xiaowei Chi / Kuangzhi Ge / Jiaming Liu / Siyuan Zhou / Peidong Jia / Zichen He / Yuzhen Liu / Tingguang Li / Lei Han / Sirui Han / Shanghang Zhang / Yike Guo 原文: [英文] 备注: None 摘要: 视频生成模型(VGMs)通过整合模拟、预测和操作,为机器人领域的统一世界建模提供了一条有前景的途径。然而,由于(1)生成速度慢,限制了实时交互,以及(2)想象视频与可执行动作之间的一致性差,其实际应用仍然有限。为了解决这些挑战,我们提出了“梦中操控”(MinD),这是一种基于分层扩散的世界模型框架,采用视觉-语言操控的双系统设计。MinD在低频率下执行VGM以提取视频预测特征,同时利用高频扩散策略进行实时交互。该架构在操控中实现了低延迟、闭环控制,并提供连贯的视觉指导。为了更好地协调这两个系统,我们引入了视频-动作扩散匹配模块(DiffMatcher),并采用了一种新的联合训练策略,为每个扩散模型使用单独的调度器。具体来说,我们在DiffMatcher中引入了一种扩散强制机制,在训练期间对齐它们的中间表示,帮助快速动作模型更好地理解基于视频的预测。除了操控之外,MinD还可以作为世界模拟器,在执行前可靠地预测任务的成功或失败。可信分析进一步表明,VGMs可以预先评估任务的可行性并降低风险。跨多个基准的广泛实验表明,MinD在RL-Bench中实现了最先进的操控(63%+),推动了机器人领域统一世界建模的前沿。 |