scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.RO方向,2025年1月9日更新论文17
[1] 学习转移人类手部技能以用于机器人操作
标题: Learning to Transfer Human Hand Skills for Robot Manipulations
作者: Sungjae Park / Seungho Lee / Mingi Choi / Jiye Lee / Jeonghwan Kim / Jisoo Kim / Hanbyul Joo
原文:   [英文]  
备注: Preprint. Under Review
摘要:
我们提出了一种通过人类手部运动示范来教授机器人灵巧操作任务的方法。与现有方法仅依赖运动学信息而不考虑机器人和物体交互的合理性不同,我们的方法直接从人类运动示范中推断出合理的机器人操作动作。为了解决人类手部与机器人系统之间的体现差距,我们的方法学习了一个联合运动流形,将人类手部运动、机器人手部动作和物体运动在三维空间中进行映射,使我们能够从其他运动组件中推断出一个运动组件。我们的关键思想是生成伪监督三元组,合成配对人类、物体和机器人运动轨迹。通过机器人手部操作的真实世界实验,我们证明了我们基于数据驱动的重定向方法显著优于传统的重定向技术,有效地弥合了人类和机器人手之间的体现差距。网站链接为此 https URL。

[2] 用于估计和地面分割杂乱楼梯的贝叶斯建模框架
标题: A Bayesian Modeling Framework for Estimation and Ground Segmentation of Cluttered Staircases
作者: Prasanna Sriganesh / Burhanuddin Shirose / Matthew Travers
原文:   [英文]  
备注: This work has been submitted to the IEEE for possible publication
摘要:
在复杂环境中进行自主机器人导航需要稳健的感知能力以及高级别的场景理解能力,因为感知挑战(如遮挡)和机器人运动带来的不确定性。例如,一个机器人在攀爬杂乱的楼梯时,可能会误将杂物识别为台阶,从而错误地表示状态并危及安全。这需要稳健的状态估计方法,即使在传感器数据不完整的情况下,也能推断出环境的基本结构。在本文中,我们介绍了一种用于楼梯稳健状态估计的新方法。为了解决感知超出机器人视野的遮挡楼梯的挑战,我们的方法结合了无限宽度楼梯表示和有限端点状态,以捕捉整体楼梯结构。这种表示被集成到贝叶斯推理框架中,以融合噪声测量,从而即使在部分观测和遮挡的情况下也能准确估计楼梯位置。此外,我们提出了一种分割算法,与楼梯估计流程结合使用,以准确识别楼梯上的无杂物区域。我们的方法在各种楼梯上对真实机器人进行了广泛评估,与基线方法相比,显著提高了估计精度和分割性能。

[3] 基于图神经网络的多机器人系统去中心化感知用于预测工人动作
标题: GNN-based Decentralized Perception in Multirobot Systems for Predicting Worker Actions
作者: Ali Imran / Giovanni Beltrame / David St-Onge
原文:   [英文]  
备注: Submitted to RA-L
摘要:
在工业环境中,预测人类行为对于确保人类与机器人之间的安全和有效协作至关重要。本文介绍了一种感知框架,使移动机器人能够以去中心化的方式理解和共享有关人类行为的信息。该框架首先允许每个机器人构建一个表示其周围环境的空间图,然后与其他机器人共享。这个共享的空间数据与时间信息相结合,以跟踪人类行为随时间的变化。采用了一种受群体启发的决策过程,以确保所有机器人对人类行为的统一解释达成一致。结果表明,增加更多的机器人和结合更长的时间序列可以提高预测准确性。此外,共识机制提高了系统的弹性,使多机器人设置在动态工业环境中更加可靠。

[4] STLCG++:一种用于可微信号时序逻辑规范的掩码方法
标题: STLCG++: A Masking Approach for Differentiable Signal Temporal Logic Specification
作者: Parv Kapoor / Kazuki Mizuta / Eunsuk Kang / Karen Leung
原文:   [英文]  
备注: To be submitted to robotics journal for review
摘要:
信号时序逻辑(STL)提供了一个简洁而富有表现力的框架,用于指定和推理机器人系统的时空行为。吸引人的是,STL引入了鲁棒性的概念,即输入信号满足或违反STL规范的程度,从而提供了对系统性能的细致评估。值得注意的是,STL鲁棒性的可微性使其能够直接集成到依赖于基于梯度优化的机器人工作流程中,例如轨迹优化和深度学习。然而,现有的评估和微分STL鲁棒性的方法依赖于递归计算,这在处理较长序列时效率低下,限制了其在时间敏感应用中的使用。在本文中,我们提出了STLCG++,这是一种基于掩码的方法,可以在时间步长上并行化STL鲁棒性评估和反向传播,比递归方法快1000倍以上。我们还引入了一种通过时间间隔边界进行微分的平滑技术,扩展了STL在基于梯度优化任务中对空间和时间变量的适用性。最后,我们通过三个机器人应用案例展示了STLCG++的优势,并提供了在JAX和PyTorch中的开源Python库,以便无缝集成到现代机器人工作流程中。

[5] 将约束视为奖励:无奖励函数的机器人强化学习
标题: Constraints as Rewards: Reinforcement Learning for Robots without Reward Functions
作者: Yu Ishihara / Noriaki Takasugi / Kotaro Kawakami / Masaya Kinoshita / Kazumi Aoyama
原文:   [英文]  
备注: None
摘要:
强化学习已成为生成复杂机器人行为的重要算法。然而,要学习这些行为,必须设计一个描述任务的奖励函数,该函数通常由需要平衡的多个目标组成。这个调试过程被称为奖励工程,通常涉及大量的试错。在本文中,为了避免这种试错过程,我们提出了“约束即奖励”(Constraints as Rewards, CaR)的概念。CaR使用多个约束函数而不是奖励函数来表述任务目标,并使用拉格朗日方法解决带有约束的强化学习问题。通过采用这种方法,不同的目标会自动平衡,因为拉格朗日乘数作为目标之间的权重。此外,我们将展示以不等式形式表达的约束为任务设计的优化目标提供了直观的解释。我们将所提出的方法应用于六轮伸缩腿机器人站立运动生成任务,并证明即使在手动设计奖励函数学习困难的情况下,所提出的方法也能成功获得目标行为。

[6] KN-LIO:几何运动学与神经场耦合的激光雷达-惯性测程
标题: KN-LIO: Geometric Kinematics and Neural Field Coupled LiDAR-Inertial Odometry
作者: Zhong Wang / Lele Ren / Yue Wen / Hesheng Wang
原文:   [英文]  
备注: None
摘要:
最近在激光雷达-惯性里程计(LIO)方面的进展推动了大量应用。然而,传统的LIO系统往往更注重定位而非建图,生成的地图主要由稀疏的几何元素组成,这对于后续任务来说并不理想。最近新兴的神经场技术在密集建图方面具有巨大潜力,但纯粹的激光雷达建图在高动态车辆上难以实现。为了解决这一挑战,我们提出了一种新的解决方案,将几何运动学与神经场紧密结合,以增强同时状态估计和密集建图的能力。我们提出了半耦合和紧耦合的运动学-神经LIO(KN-LIO)系统,利用在线SDF解码和迭代误差状态卡尔曼滤波来融合激光和惯性数据。我们的KN-LIO最大限度地减少了信息损失,提高了状态估计的准确性,同时也支持异步多激光雷达输入。在各种高动态数据集上的评估表明,我们的KN-LIO在姿态估计方面的性能与现有最先进的解决方案相当或更优,并在密集建图精度上优于纯激光雷达方法。相关代码和数据集将会在https://**上提供。

[7] 机器人程序员:用于机器人操作的视频指导策略代码生成
标题: Robotic Programmer: Video Instructed Policy Code Generation for Robotic Manipulation
作者: Senwei Xie / Hongyu Wang / Zhanqi Xiao / Ruiping Wang / Xilin Chen
原文:   [英文]  
备注: None
摘要:
在不同机器人、任务和环境中实现零样本泛化仍然是机器人操作中的一个重大挑战。策略代码生成方法使用可执行代码连接高级任务描述和低级动作序列,利用大型语言模型和原子技能库的泛化能力。在这项工作中,我们提出了机器人程序员(RoboPro),这是一种机器人基础模型,能够感知视觉信息并遵循自由形式的指令,以零样本的方式使用策略代码执行机器人操作。为了解决在收集机器人任务的运行时代码数据时效率低和成本高的问题,我们设计了Video2Code,通过现成的视觉语言模型和代码领域的大型语言模型,从大量的野外视频中合成可执行代码。大量实验表明,RoboPro在模拟器和现实环境中的机器人操作上实现了最先进的零样本性能。具体来说,RoboPro在RLBench上的零样本成功率比最先进的模型GPT-4o高出11.6%,甚至可以与一个强大的监督训练基线相媲美。此外,RoboPro对API格式和技能集的变化具有鲁棒性。

[8] 弥合适应性与安全性:学习跨越不同物理环境的敏捷无碰撞运动
标题: Bridging Adaptivity and Safety: Learning Agile Collision-Free Locomotion Across Varied Physics
作者: Yichao Zhong / Chong Zhang / Tairan He / Guanya Shi
原文:   [英文]  
备注: 11 Pages, 6 Figures
摘要:
现实世界中的腿式运动系统通常需要在不同场景中协调敏捷性和安全性。此外,其底层动力学通常是未知且随时间变化的(例如,负载、摩擦)。在本文中,我们介绍了BAS(Bridging Adaptivity and Safety),它基于先前工作的管道“敏捷但安全”(ABS)(He等人)并旨在即使在具有不确定性的动态环境中也能提供自适应安全性。BAS包括一个快速避障的敏捷策略和一个防止碰撞的恢复策略,一个与敏捷策略同时训练的物理参数估计器,以及一个学习的控制理论RA(到达-避免)值网络来管理策略切换。此外,敏捷策略和RA网络都以物理参数为条件,使其具有适应性。为缓解分布转移问题,我们进一步引入了一个针对估计器的在线策略微调阶段,以增强其鲁棒性和准确性。仿真结果表明,BAS在动态环境中比基线提高了50%的安全性,同时平均保持更高的速度。在现实世界的实验中,BAS展示了其在复杂环境中处理未知物理特性(例如,具有未知摩擦的滑地板,未知负载高达8公斤)的能力,而基线缺乏适应性,导致碰撞或敏捷性下降。因此,BAS在现实世界中实现了速度提高19.8%,碰撞率比ABS低2.36倍。视频:此https URL。

[9] OpenIN:动态家庭环境中的开放词汇实例导向导航
标题: OpenIN: Open-Vocabulary Instance-Oriented Navigation in Dynamic Domestic Environments
作者: Yujie Tang / Meiling Wang / Yinan Deng / Zibo Zheng / Jingchuan Deng / Yufeng Yue
原文:   [英文]  
备注: arXiv admin note: substantial text overlap with arXiv:2409.18743
摘要:
在日常家庭环境中,像杯子这样的常用物品通常没有固定的位置,并且在同一类别中可能有多个实例,它们的承载物也经常变化。因此,机器人很难高效地导航到特定的实例。为了解决这个问题,机器人必须不断捕捉和更新场景变化并进行规划。然而,目前的物体导航方法主要集中在语义层面,缺乏动态更新场景表示的能力。相比之下,本文捕捉了常用物品与其静态承载物之间的关系。它构建了一个开放词汇的承载关系场景图(CRSG),并在机器人导航过程中更新承载状态,以反映场景的动态变化。基于CRSG,我们进一步提出了一种实例导航策略,将导航过程建模为马尔可夫决策过程。在每一步中,决策由大型语言模型的常识知识和视觉-语言特征相似性提供信息。我们在Habitat模拟器中为常用日常物品设计了一系列长序列导航任务。结果表明,通过更新CRSG,机器人可以高效地导航到移动的目标。此外,我们在真实机器人上部署了我们的算法,并验证了其实际有效性。项目页面可以在这里找到:this https URL。

[10] 聚集与分散:一种使用无监督学习的通用空中冲突解决启发式方法
标题: Cluster & Disperse: a general air conflict resolution heuristic using unsupervised learning
作者: Mirmojtaba Gharibi / John-Paul Clarke
原文:   [英文]  
备注: None
摘要:
我们为空中冲突解决问题提供了一种通用且可塑的启发式方法。该启发式方法基于一种新的邻域结构,用于搜索轨迹和飞行高度的解空间。通过无监督学习,我们启发式方法的核心思想是对冲突点进行聚类,并将它们分散到不同的飞行高度。我们的第一个算法称为“聚类与分散”,在每次迭代中,它将每个聚类中最具问题的航班分配到另一个飞行高度。实际上,我们在飞行高度之间对它们进行重新分配,直到实现一个平衡良好的配置。然后,“聚类与分散”算法使用任何水平面冲突解决算法作为子程序来解决这些平衡良好的实例。尽管如此,我们为水平面开发了一种基于类似思想的新算法。即我们在同一飞行高度中使用梯度下降和社会力对冲突点进行空间聚类和分散。我们使用一种新颖的机动方式,使航班沿弧线而非直线路径飞行,这基于航空常规的“半径到固定点”航段。我们的算法能够在合理的计算时间内处理高密度的航班。我们将其性能与文献中的一些著名算法进行比较。作为一个通用框架,“聚类与分散”的一个特别优势在于其可塑性,能够轻松整合关于飞机或环境的各种约束。这与基于混合整数规划的模型形成对比。

[11] 野生动物观察系统的实施
标题: Implementation Of Wildlife Observation System
作者: Neethu K N / Rakshitha Y Nayak / Rashmi / Meghana S
原文:   [英文]  
备注: None
摘要:
通过进入野生动物的栖息地,野生动物观察者可以与它们进行近距离接触。然而,有些野生动物并不总是安全可接近的。因此,我们建议使用这个系统来观察野生动物。用户可以使用安卓手机观看实时事件。通过使用这个机器人车辆,野生动物观察者可以近距离观察野生动物。命令通过Wi-Fi模块传递给系统。在我们开发技术以使我们的机器人能够应对持续监控目标的挑战时,我们发现我们的机器人在监控自然目标时需要能够安静且有目的地移动而不被发现。数据处理后,计算机向电机发送命令以启动。驱动电机现在负责驱动电机,提供驱动车辆运动所需的信号输出。

[12] 滚动接触路径规划问题的综述:方法、应用和未来挑战
标题: A Survey on Path Planning Problem of Rolling Contacts: Approaches, Applications and Future Challenges
作者: Seyed Amir Tafrishi / Mikhail Svinin / Kenji Tahara
原文:   [英文]  
备注: 38 pages, 8 figures
摘要:
本文探讨了一系列为滚动表面设计的路径规划方法。我们的重点是通过运动规划的视角研究滚动接触系统的运动学复杂性。除了总结单接触旋转表面的方法外,我们还探索了旋转滚动多接触系统这一具有挑战性的领域。我们的工作为多个旋转物体接触的高维问题提出了解决方案。超越运动学,这些方法在多个领域中得到了应用,包括滚动机器人、可重构群体机器人、微/纳米操控和非抓取操控。通过细致地审视已建立的规划策略,我们揭示了它们在各种现实场景中的实际应用,从复杂的灵巧操作任务到滚动机器人的灵活机动,甚至到多接触粒子群的形状规划。本研究介绍了与路径规划和机制设计密切相关的机器人领域中持续存在的挑战和未探索的前沿。在阐明现有解决方案的同时,我们也为该动态且快速发展的领域中的未来突破奠定了基础,强调了解决滚动接触问题的关键重要性。

[13] 机器人运动控制中的网络物理隐写术
标题: Cyber-Physical Steganography in Robotic Motion Control
作者: Ching-Chun Chang / Yijie Lin / Isao Echizen
原文:   [英文]  
备注: None
摘要:
隐写术,即信息隐藏的艺术,已经在视觉、听觉和语言领域不断演变,适应隐写隐藏与隐写分析揭示之间的持续互动。本研究旨在通过引入机器人运动控制中的隐写范式,扩展可行隐写媒介的范围。基于对机器人对环境变化的固有敏感性的观察,我们提出了一种方法,将信息编码为影响机器人代理运动的环境刺激,并从生成的运动轨迹中解码信息。最大限度地保持机器人完整性和最小化运动偏差的约束被确立为保密性的基本原则。作为概念验证,我们在模拟环境中进行了一系列实验,涉及各种操作任务,并结合了配备通用多模态策略的机器人化身。

[14] 理解对视障人士机器人导盲犬的期望
标题: Understanding Expectations for a Robotic Guide Dog for Visually Impaired People
作者: J. Taery Kim / Morgan Byrd / Jack L. Crandell / Bruce N. Walker / Greg Turk / Sehoon Ha
原文:   [英文]  
备注: 12 pages, 4 figures, Proceedings of the 2025 ACM/IEEE International Conference on Human-Robot Interaction (HRI'25)
摘要:
机器人导盲犬在提高盲人或视障人士的自主性和移动性方面具有显著潜力,因为它们可以在非结构化地形上以可负担的成本提供普遍的帮助。然而,机器人导盲犬的设计仍然缺乏深入研究,特别是在步态控制器、导航行为、交互方法和语言解释等系统性方面。我们的研究通过对18名视障参与者(包括15名手杖用户和3名导盲犬用户)进行用户研究来填补这一空白。参与者与四足机器人互动,并提供了定量和定性的反馈。我们的研究揭示了若干设计启示,例如对基于学习的控制器和刚性手柄的偏好、具有不对称速度的渐进转弯、语义通信方法和可解释性。研究还强调了定制化的重要性,以支持具有不同背景和偏好的用户,以及电池寿命、维护和天气问题等实际考虑。这些发现为未来机器人导盲犬的研究和开发提供了宝贵的见解和设计启示。

[15] MobileH2R:仅从可扩展和多样化的合成数据中学习可推广的人与移动机器人交接
标题: MobileH2R: Learning Generalizable Human to Mobile Robot Handover Exclusively from Scalable and Diverse Synthetic Data
作者: Zifan Wang / Ziqing Chen / Junyu Chen / Jilong Wang / Yuxin Yang / Yunze Liu / Xueyi Liu / He Wang / Li Yi
原文:   [英文]  
备注: None
摘要:
本文介绍了MobileH2R,这是一种学习可推广的基于视觉的人与移动机器人(H2MR)交接技能的框架。与传统的固定基座交接不同,这项任务要求移动机器人能够在其移动性所支持的大型工作空间中可靠地接收物体。我们的关键见解是,可以在模拟器中使用高质量的合成数据开发可推广的交接技能,而无需真实世界的示范。为此,我们提出了一种可扩展的流程,用于生成多样化的合成全身人体运动数据,一种用于创建安全且易于模仿的示范的自动化方法,以及一种高效的4D模仿学习方法,用于将大规模示范提炼为具有底座和手臂协调的闭环策略。在模拟器和现实世界中的实验评估显示,在所有情况下,与基线方法相比,成功率显著提高(至少提高15%)。实验还验证了大规模和多样化的合成数据极大地增强了机器人学习,突显了我们可扩展的框架。

[16] FrontierNet:学习视觉线索以探索
标题: FrontierNet: Learning Visual Cues to Explore
作者: Boyang Sun / Hanzhi Chen / Stefan Leutenegger / Cesar Cadena / Marc Pollefeys / Hermann Blum
原文:   [英文]  
备注: None
摘要:
探索未知环境对于自主机器人至关重要;这使得机器人能够主动推理并决定获取哪些新数据以完成诸如地图绘制、物体发现和环境评估等任务。现有的方法,如基于前沿的探索方法,严重依赖于3D地图操作,这受限于地图质量,并且常常忽视视觉线索中有价值的上下文信息。本文旨在利用2D视觉线索进行高效的自主探索,以解决从3D地图中提取目标位置的局限性。我们提出了一种仅基于图像的前沿探索系统,其中FrontierNet是本研究开发的核心组件。FrontierNet是一个基于学习的模型,它能够从增强了单目深度先验的RGB图像中(i)检测前沿,并(ii)预测其信息增益。我们的方法为现有依赖3D的探索系统提供了一种替代方案,通过广泛的模拟和实际实验验证,在早期探索效率上提高了16%。

[17] 超越视觉:通过语言基础利用异构传感器微调通用机器人策略
标题: Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding
作者: Joshua Jones / Oier Mees / Carmelo Sferrazza / Kyle Stachowicz / Pieter Abbeel / Sergey Levine
原文:   [英文]  
备注: None
摘要:
与世界互动是一个多感官的体验:要实现有效的通用交互,需要利用所有可用的感官模式——包括视觉、触觉和音频——来弥补部分观察的不足。例如,当视觉被遮挡时,机器人在伸手进入袋子时应依赖其触觉和听觉。然而,最先进的通用机器人策略通常是在大型数据集上训练的,仅根据视觉和本体感受观察来预测机器人动作。在这项工作中,我们提出了FuSe,这是一种新颖的方法,通过利用自然语言作为通用的跨模态基础,能够在异构传感器模态上微调视觉运动通用策略,而无需现成的大型数据集。我们结合了多模态对比损失和感官基础的语言生成损失来编码高层语义。在机器人操作的背景下,我们展示了FuSe能够在零样本设置中执行需要联合推理多种模态(如视觉、触觉和声音)的挑战性任务,例如多模态提示、组合跨模态提示以及对其交互对象的描述。我们展示了相同的方法适用于广泛不同的通用策略,包括基于扩散的通用策略和大型视觉-语言-动作(VLA)模型。大量的现实世界实验表明,与所有考虑的基线相比,FuSe能够将成功率提高超过20%。