scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CV方向,2025年1月27日更新论文78
[1] DEFEND:一个用于预防烟草成瘾的大规模百万级数据集和基础模型
标题: DEFEND: A Large-scale 1M Dataset and Foundation Model for Tobacco Addiction Prevention
作者: Naga VS Raviteja Chappa / Matthew Shepard / Connor McCurtain / Charlotte McCormick / Page Daniel Dobbs / Khoa Luu
原文:   [英文]   [中文]  
备注: 11 pages, 5 figures, 5 tables
摘要:
尽管烟草广告以空前的速度创新,传统的监测方法却停滞不前,尤其是在社交媒体的背景下。缺乏大规模、全面的数据集和复杂的监测系统,导致行业进步与公共健康监管之间的差距不断扩大。本文通过引入Tobacco-1M这一包含一百万张烟草产品图像的综合数据集(具有75个产品类别的层次标签)以及DEFEND这一新颖的烟草产品理解基础模型,来应对这一关键挑战。我们的方法整合了用于丰富多模态表示学习的特征增强模块、用于详细特征区分的局部-全局视觉一致性机制,以及用于精确产品表征的增强图像-文本对齐策略。实验结果表明,DEFEND在产品分类中达到了83.1%的准确率,在视觉问答任务中达到了73.8%的准确率,显著优于现有方法。此外,该模型在新产品类别上表现出强大的零样本学习能力,准确率达到45.6%。这项工作为监管机构和公共健康研究人员提供了强大的工具,用于监测新兴烟草产品和营销策略,可能彻底改变烟草控制和公共健康监测的方法。

[2] 一种快速、可扩展且稳健的基于深度学习的迭代重建框架,用于加速工业锥束X射线计算机断层扫描
标题: A Fast, Scalable, and Robust Deep Learning-based Iterative Reconstruction Framework for Accelerated Industrial Cone-beam X-ray Computed Tomography
作者: Aniket Pramanik / Obaidullah Rahman / Singanallur V. Venkatakrishnan / Amirkoushyar Ziabari
原文:   [英文]   [中文]  
备注: None
摘要:
锥束X射线计算机断层扫描(XCT)结合大探测器和相应的大规模3D重建,在各个行业中对材料和部件进行微米级表征方面起着关键作用。在这项工作中,我们提出了一种新颖的基于深度神经网络的迭代算法,该算法将经过伪影减少训练的卷积神经网络(CNN)作为先验模型,并结合自动正则化参数选择,专为大规模工业锥束XCT数据设计。我们的方法即使在极其密集的厚金属部件上——这些传统上对工业CT图像构成挑战——也能在仅仅几次迭代中实现高质量的3D重建。此外,我们展示了我们的方法在不同扫描条件下获得的分布外扫描中的普适性。我们的方法能够有效处理显著的噪声和条纹伪影,超越了在相同数据上训练的最先进的监督学习方法。

[3] 从激光雷达数据程序化生成三维玉米植株结构
标题: Procedural Generation of 3D Maize Plant Architecture from LIDAR Data
作者: Mozhgan Hadadi / Mehdi Saraeian / Jackson Godbersen / Talukder Jubery / Yawei Li / Lakshmi Attigala / Aditya Balu / Soumik Sarkar / Patrick S. Schnable / Adarsh Krishnamurthy / Baskar Ganapathysubramanian
原文:   [英文]   [中文]  
备注: None
摘要:
本研究介绍了一种稳健的框架,用于从LiDAR点云数据生成玉米(Zea mays)植物的程序化3D模型,提供了一种可扩展的替代方案来替代传统的基于田间的表型分析。我们的框架利用非均匀有理B样条(NURBS)曲面来建模玉米植物的叶片,结合粒子群优化(PSO)进行曲面的初步近似,并使用可微分编程框架对曲面进行精确的细化以适应点云数据。在第一个优化阶段,PSO通过优化控制点生成一个近似的NURBS曲面,使曲面与LiDAR数据对齐,并为后续的细化提供可靠的起点。第二阶段使用NURBS-Diff,一个可微分编程框架,通过细化曲面几何形状和捕捉复杂的叶片细节来提高初始拟合的准确性。我们的结果表明,虽然PSO建立了一个稳健的初始拟合,但可微分NURBS的集成显著提高了重建曲面的整体质量和保真度。这种分层优化策略能够在不同基因型中实现玉米叶片的精确3D重建,促进了复杂性状如叶序的后续提取。我们在田间种植的多种玉米基因型上展示了我们的方法。我们所有的代码都是开源的,以便普及这些表型分析方法。

[4] 增强对增强现实生成场景的理解与评估:当视觉-语言模型大放异彩与遇到挑战时
标题: Advancing the Understanding and Evaluation of AR-Generated Scenes: When Vision-Language Models Shine and Stumble
作者: Lin Duan / Yanming Xiu / Maria Gorlatova
原文:   [英文]   [中文]  
备注: 6 pages
摘要:
增强现实(AR)通过整合虚拟内容来提升现实世界,但确保AR体验的质量、可用性和安全性仍然面临重大挑战。视觉语言模型(VLMs)能否为AR生成场景的自动评估提供解决方案?在本研究中,我们评估了三种最先进的商业VLMs——GPT、Gemini和Claude——在识别和描述AR场景方面的能力。为此,我们使用了DiverseAR,这是第一个专门设计用于评估VLMs分析各种复杂AR场景的虚拟内容能力的数据集。我们的研究结果表明,VLMs通常能够感知和描述AR场景,在感知方面的真实阳性率(TPR)可达93%,在描述方面可达71%。虽然它们在识别明显的虚拟对象(如发光的苹果)方面表现出色,但在面对无缝集成的内容(如带有真实阴影的虚拟花盆)时则显得力不从心。我们的结果突出了VLMs在理解AR场景方面的优势和局限性。我们识别了影响VLM性能的关键因素,包括虚拟内容的放置、渲染质量和物理合理性。本研究强调了VLMs作为评估AR体验质量工具的潜力。

[5] FedDAG:面向可推广医学图像分析的联邦领域对抗生成
标题: FedDAG: Federated Domain Adversarial Generation Towards Generalizable Medical Image Analysis
作者: Haoxuan Che / Yifei Wu / Haibo Jin / Yong Xia / Hao Chen
原文:   [英文]   [中文]  
备注: None
摘要:
联邦域泛化旨在从多个源域中训练一个全局模型,并确保其对未见目标域的泛化能力。由于目标域存在未知的域偏移,尝试通过源域来逼近这些差距可能是提高模型泛化能力的关键。现有的工作主要集中在共享和重组本地特定域属性,以增加数据多样性并模拟潜在的域偏移。然而,这些方法可能不足,因为仅靠本地属性重组可能难以触及全局数据的分布外情况。在本文中,我们提出了一个简单而高效的框架,称为联邦域对抗生成(FedDAG)。它旨在通过对抗性地生成与本地和全局源域不同的新颖域来模拟域偏移并提高模型泛化能力。具体来说,它通过最大化原始图像和生成图像之间的实例级特征差异来生成新颖风格的图像,并通过最小化它们的特征差异来训练一个可泛化的任务模型。此外,我们观察到FedDAG可能会对本地模型造成不同的性能提升。这可能是由于客户端之间固有的数据隔离和异质性,加剧了它们对全局模型泛化贡献的不平衡。忽视这种不平衡可能导致全局模型的泛化能力次优,进一步限制新颖域生成过程。因此,为了缓解这种不平衡,FedDAG通过使用锐度概念来评估客户端模型的泛化贡献,在客户端内部和跨客户端层次上聚合本地模型。跨越四个医学基准的广泛实验表明,FedDAG在联邦医学场景中增强泛化能力的能力。

[6] 通过反事实图像生成增强组合图像检索的三元组合成
标题: Triplet Synthesis For Enhancing Composed Image Retrieval via Counterfactual Image Generation
作者: Kenta Uesugi / Naoki Saito / Keisuke Maeda / Takahiro Ogawa / Miki Haseyama
原文:   [英文]   [中文]  
备注: 4 pages, 4 figures
摘要:
组合图像检索(CIR)提供了一种有效的方式来管理和访问大规模视觉数据。CIR模型的构建利用了由参考图像、描述所需更改的修改文本和反映这些更改的目标图像组成的三元组。为了有效地训练CIR模型,需要进行广泛的人工标注以构建高质量的训练数据集,这可能既耗时又费力。为了解决这个问题,本文提出了一种通过利用反事实图像生成的新颖三元组合成方法。通过控制反事实图像生成中的视觉特征修改,我们的方法可以在无需任何人工干预的情况下自动生成多样化的训练三元组。这种方法有助于创建更大且更具表现力的数据集,从而提高CIR模型的性能。

[7] InsTex:室内场景风格化纹理合成
标题: InsTex: Indoor Scenes Stylized Texture Synthesis
作者: Yunfan Zhang / Zhiwei Xiong / Zhiqi Shen / Guosheng Lin / Hao Wang / Nicolas Vun
原文:   [英文]   [中文]  
备注: None
摘要:
为3D场景生成高质量的纹理对于室内设计、游戏以及增强/虚拟现实(AR/VR)应用至关重要。尽管最近在3D生成模型方面的进展提升了内容创作,但在实现广泛的泛化能力和在多个视角之间保持风格一致性方面仍然存在重大挑战。目前的方法,如为3D纹理化改编的2D扩散模型,存在处理时间长和视觉伪影的问题,而基于3D数据的方法往往难以有效泛化。为了解决这些挑战,我们引入了InsTex,这是一种两阶段架构,旨在为3D室内场景生成高质量、风格一致的纹理。InsTex在粗到细的流程中利用深度到图像的扩散先验,首先使用预训练的2D扩散模型生成多视角图像,然后精细化纹理以保持一致性。我们的方法支持文本和视觉提示,在视觉质量和定量指标上达到了最先进的结果,并展示了其在各种3D纹理化应用中的有效性。

[8] GS-LiDAR:使用全景高斯喷溅生成真实感LiDAR点云
标题: GS-LiDAR: Generating Realistic LiDAR Point Clouds with Panoramic Gaussian Splatting
作者: Junzhe Jiang / Chun Gu / Yurui Chen / Li Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
LiDAR新视角合成(NVS)已成为LiDAR模拟中的一项新任务,通过从新视角提供有价值的模拟点云数据来支持自动驾驶系统。然而,现有的LiDAR NVS方法通常依赖于神经辐射场(NeRF)作为其三维表示,这在训练和渲染中会产生显著的计算成本。此外,NeRF及其变体是为对称场景设计的,因此不适合驾驶场景。为了解决这些挑战,我们提出了GS-LiDAR,这是一种通过全景高斯喷溅生成逼真LiDAR点云的新框架。我们的方法采用具有周期性振动特性的二维高斯基元,能够精确地重建驾驶场景中的静态和动态元素。我们进一步引入了一种新的全景渲染技术,具有显式的光线-喷溅交叉,由全景LiDAR监督指导。通过将强度和光线丢弃球谐(SH)系数纳入高斯基元,我们增强了渲染点云的真实感。在KITTI-360和nuScenes上的大量实验表明,我们的方法在定量指标、视觉质量以及训练和渲染效率方面具有优越性。

[9] 一种允许不完整轨迹输入的行人轨迹预测时空图网络
标题: A Spatio-temporal Graph Network Allowing Incomplete Trajectory Input for Pedestrian Trajectory Prediction
作者: Juncen Long / Gianluca Bardaro / Simone Mentasti / Matteo Matteucci
原文:   [英文]   [中文]  
备注: None
摘要:
行人轨迹预测在移动机器人导航研究中具有重要意义,尤其是在有行人的环境中。大多数行人轨迹预测算法要求输入的历史轨迹是完整的。如果某个行人在过去的任何帧中不可观测,那么其历史轨迹就会变得不完整,算法将无法预测其未来轨迹。为了解决这一限制,我们提出了STGN-IT,一种允许不完整轨迹输入的时空图网络,可以预测历史轨迹不完整的行人的未来轨迹。STGN-IT使用时空图和一种额外的编码方法来表示行人的历史轨迹和观测状态。此外,STGN-IT将环境中可能影响未来轨迹的静态障碍物引入为节点,以进一步提高预测精度。在时空图的构建中还应用了聚类算法。公共数据集上的实验表明,STGN-IT在这些指标上优于现有的最先进算法。

[10] 3DGS$^2$: 近乎二阶收敛的三维高斯点绘
标题: 3DGS$^2$: Near Second-order Converging 3D Gaussian Splatting
作者: Lei Lan / Tianjia Shao / Zixuan Lu / Yu Zhang / Chenfanfu Jiang / Yin Yang
原文:   [英文]   [中文]  
备注: 11 pages, submit on SIGGRAPH 2025
摘要:
3D高斯散点(3DGS)已成为新视图合成和3D重建的主流解决方案。通过使用一组高斯核显式编码3D场景,3DGS以卓越的效率实现高质量渲染。作为一种基于学习的方法,3DGS的训练通常采用标准的随机梯度下降(SGD)方法,该方法最多提供线性收敛。因此,即使在GPU加速下,训练通常也需要几十分钟。本文介绍了一种针对3DGS的(近似)二阶收敛训练算法,利用其独特的性质。我们的方法受到两个关键观察的启发。首先,高斯核的属性独立地对图像空间损失做出贡献,这支持孤立和局部优化算法。我们通过在单个核属性级别上分割优化,分析性地构建每个参数组的小规模牛顿系统,并在GPU线程上高效地解决这些系统,从而实现每个训练图像的类牛顿收敛,而不依赖于全局Hessian。其次,核在输入图像之间表现出稀疏和结构化的耦合。这一特性使我们能够有效利用空间信息来缓解随机训练期间的过冲。我们的方法比标准的基于GPU的3DGS训练快一个数量级的收敛,所需迭代次数减少超过10倍,同时保持或超越与基于SGD的3DGS重建相比的质量。

[11] 增强型PEC-YOLO用于检测电力线工人不当佩戴安全装备
标题: Enhanced PEC-YOLO for Detecting Improper Safety Gear Wearing Among Power Line Workers
作者: Chen Zuguo / Kuang Aowei / Huang Yi / Jin Jie
原文:   [英文]   [中文]  
备注: None
摘要:
为了解决在复杂电力线环境中因安全装备使用不当而带来的高风险问题,该环境中目标遮挡和大幅度变化普遍存在,本文提出了一种增强的PEC-YOLO目标检测算法。该方法结合了深度感知与多尺度特征融合,利用PConv和EMA注意力机制来提高特征提取效率并减少模型复杂性。在SPPF模块中引入了CPCA注意力机制,提高了模型聚焦关键信息的能力,并在具有挑战性的条件下增强了检测精度。此外,引入的BiFPN颈部架构优化了低级和高级特征的利用,通过自适应融合和上下文感知机制增强了特征表示。实验结果表明,所提出的PEC-YOLO在检测精度上比YOLOv8s提高了2.7%,同时减少了42.58%的模型参数。在相同条件下,PEC-YOLO在检测速度上优于其他模型,满足了建筑工地安全装备检测的严格精度要求。本研究为开发高效且准确的智能监控系统以确保危险环境中的工人安全做出了贡献。

[12] 基于属性的视觉重编程用于使用CLIP进行图像分类
标题: Attribute-based Visual Reprogramming for Image Classification with CLIP
作者: Chengyi Cai / Zesheng Ye / Lei Feng / Jianzhong Qi / Feng Liu
原文:   [英文]   [中文]  
备注: None
摘要:
视觉重编程(VR)通过在输入中添加可训练的噪声模式,重用预训练的视觉模型以用于下游图像分类任务。当应用于视觉-语言模型(例如,CLIP)时,现有的VR方法遵循在视觉模型(例如,ResNet, ViT)中使用的相同流程,其中将真实类别标签插入到固定的文本模板中,以指导VR模式的优化。然而,这种基于标签的方法忽视了CLIP可以利用的丰富信息和多样的属性引导的文本表示,这可能导致样本的错误分类。在本文中,我们为CLIP提出了基于属性的视觉重编程(AttrVR),利用描述性属性(DesAttrs)和独特性属性(DistAttrs),分别代表不同类别的共同和独特特征描述。此外,由于同一类别的图像在VR后可能反映出不同的属性,AttrVR为每个图像样本使用$k$-最近的DesAttrs和DistAttrs迭代地优化模式,从而实现更动态和样本特定的优化。从理论上讲,AttrVR被证明可以减少类内方差并增加类间分离。从经验上看,它在12个下游任务中对基于ViT和基于ResNet的CLIP都取得了优异的性能。AttrVR的成功促进了从单模态视觉模型到视觉-语言模型的VR更有效的整合。我们的代码可在此https URL获取。

[13] CGI:通过示例图像识别条件生成模型
标题: CGI: Identifying Conditional Generative Models with Example Images
作者: Zhi Zhou / Hao-Zhe Tan / Peng-Xiao Song / Lan-Zhe Guo
原文:   [英文]   [中文]  
备注: None
摘要:
生成模型最近取得了显著的性能提升,因此模型中心应运而生。现有的模型中心通常假设基本的文本匹配足以搜索模型。然而,实际上,由于不同的抽象层次和模型中心中大量的模型,用户很难审阅模型描述和示例图像,从而选择最符合他们需求的模型。因此,有必要明智地描述模型功能,以便未来的用户能够高效地搜索到最适合他们需求的模型。解决这一问题的努力仍然有限。在本文中,我们提出了条件生成模型识别(CGI),旨在提供一种有效的方法,通过用户提供的示例图像来识别最合适的模型,而不是要求用户手动审阅大量带有示例图像的模型。为了解决这个问题,我们提出了基于提示的模型识别(PMI),它可以充分描述模型功能,并精确地将需求与规格匹配。为了评估PMI方法并促进相关研究,我们提供了一个基准,包括65个模型和9100个识别任务。广泛的实验和人工评估结果表明,PMI是有效的。例如,当提供四个示例图像时,92%的模型被正确识别,并且FID分数显著更好。

[14] CSAOT:用于主动目标跟踪的协作多智能体系统
标题: CSAOT: Cooperative Multi-Agent System for Active Object Tracking
作者: Hy Nguyen / Bao Pham / Hung Du / Srikanth Thudumu / Rajesh Vasa / Kon Mouzakis
原文:   [英文]   [中文]  
备注: None
摘要:
物体跟踪在许多计算机视觉应用中至关重要,例如自动导航、监控和机器人技术。与依赖静态摄像机视角在连续帧中检测和跟踪物体的被动物体跟踪(POT)不同,主动物体跟踪(AOT)需要控制代理主动调整其视角,以在复杂环境中保持与移动目标的视觉接触。现有的AOT解决方案主要基于单一代理,在动态和复杂场景中由于信息收集和处理能力的限制,往往导致次优决策。为缓解这些限制,需要开发一个多代理系统,其中不同的代理执行不同的角色,并协作以增强在动态和复杂环境中的学习和鲁棒性。尽管一些多代理方法存在于AOT中,但它们通常依赖于外部辅助代理,这需要额外的设备,从而增加了成本。相比之下,我们引入了主动物体跟踪协作系统(CSAOT),这是一种利用多代理深度强化学习(MADRL)和专家混合(MoE)框架的方法,使多个代理能够在单一设备上运行,从而提高跟踪性能并降低成本。我们的方法增强了对遮挡和快速运动的鲁棒性,同时优化摄像机运动以延长跟踪时间。我们在具有动态和静态障碍物的各种交互式地图上验证了CSAOT的有效性。

[15] 将波斯语唇读集成到Surena-V人形机器人中以实现人机交互
标题: Integrating Persian Lip Reading in Surena-V Humanoid Robot for Human-Robot Interaction
作者: Ali Farshian Abbasi / Aghil Yousefi-Koma / Soheil Dehghani Firouzabadi / Parisa Rashidi / Alireza Naeini
原文:   [英文]   [中文]  
备注: None
摘要:
唇读在社交环境中的机器人中至关重要,能够提高它们理解人类交流的能力。这项技能使它们在拥挤的环境中更容易交流,尤其是在护理和客户服务角色中。本文通过生成一个波斯语唇读数据集,将波斯语唇读技术集成到Surena-V人形机器人中,以提高其语音识别能力。研究探讨了两种互补的方法:一种是使用面部标志跟踪的间接方法,另一种是利用卷积神经网络(CNNs)和长短期记忆网络(LSTM)的直接方法。间接方法侧重于跟踪面部关键标志,特别是唇部周围的标志,以推断运动,而直接方法则处理原始视频数据以进行动作和语音识别。表现最佳的模型LSTM实现了89%的准确率,并已成功应用于Surena-V机器人,实现实时的人机交互。研究强调了这些方法的有效性,特别是在语言交流受限的环境中。

[16] 使用混合视觉变换器和ConvNeXt分割模型结合众包标签增强遥感图像中的海带森林检测
标题: Enhancing kelp forest detection in remote sensing images using crowdsourced labels with Mixed Vision Transformers and ConvNeXt segmentation models
作者: Ioannis Nasios
原文:   [英文]   [中文]  
备注: None
摘要:
海带森林作为基础物种,对海洋生态系统至关重要,为众多生物提供了必要的食物和栖息地。本研究探讨了将众包标签与先进的人工智能模型相结合,以开发一种使用Landsat影像的快速且准确的海带冠层检测流程。基于一次机器学习竞赛的成功经验(该方法在竞赛中排名第三,并在本地验证以及公共和私人排行榜上表现稳定),研究突出了将混合视觉变换器(MIT)与ConvNeXt模型结合的有效性。在不同图像尺寸上训练这些模型显著提高了集成结果的准确性。U-Net成为最佳分割架构,UpperNet也对最终集成结果有所贡献。关键的Landsat波段,如短波红外(SWIR1)和近红外(NIR),在检测中至关重要,而海拔数据在后处理过程中用于消除陆地上的误报。该方法实现了较高的检测率,准确识别出约四分之三包含海带冠层的像素,同时保持较低的误报率。尽管Landsat卫星的分辨率为中等,但其广泛的历史覆盖使其在研究海带森林方面非常有效。这项工作还强调了将机器学习模型与众包数据相结合以进行有效且可扩展的环境监测的潜力。所有用于训练和推理的代码可以在此https URL找到。

[17] ME-CPT:用于城市三维变化检测的多任务增强跨时间点变换器
标题: ME-CPT: Multi-Task Enhanced Cross-Temporal Point Transformer for Urban 3D Change Detection
作者: Luqi Zhang / Haiping Wang / Chong Liu / Zhen Dong / Bisheng Yang
原文:   [英文]   [中文]  
备注: None
摘要:
机载激光扫描(ALS)系统收集的点云提供了城市地表的精确三维信息。通过利用多时相的ALS点云,可以捕捉到城市区域的语义变化,这在城市规划、应急管理和基础设施维护中展现出显著潜力。现有的三维变化检测方法在高效提取多类别语义信息和变化特征方面存在困难,仍面临以下挑战:(1)难以准确建模跨时相点云的空间关系以有效提取变化特征;(2)变化样本的类别不平衡阻碍了语义特征的可区分性;(3)缺乏用于三维语义变化检测的真实世界数据集。为了解决这些挑战,我们提出了多任务增强跨时相点变换器(ME-CPT)网络。ME-CPT在不同时间点的点云之间建立时空对应关系,并采用注意力机制联合提取语义变化特征,促进信息交换和变化比较。此外,我们结合了语义分割任务,并通过多任务训练策略,进一步增强语义特征的可区分性,减少变化类型中类别不平衡的影响。此外,我们发布了一个22.5平方公里的三维语义变化检测数据集,提供多样化的场景以供全面评估。在多个数据集上的实验表明,所提出的MT-CPT相比现有的最先进方法表现出更优越的性能。源代码和数据集将在被接受后发布于\url{this https URL}。

[18] 面向便携式投影仪-相机系统的设备感知光学对抗攻击
标题: Device-aware Optical Adversarial Attack for a Portable Projector-camera System
作者: Ning Jiang / Yanhong Liu / Dingheng Zeng / Yue Feng / Weihong Deng / Ying Li
原文:   [英文]   [中文]  
备注: None
摘要:
基于深度学习的人脸识别(FR)系统在数字和物理领域都容易受到对抗样本的攻击。物理攻击对已部署的系统构成更大的威胁,因为攻击者可以轻松访问输入通道,从而提供恶意输入以冒充受害者。本文解决了现有基于投影仪-相机的对抗性光攻击在实际FR设置中的局限性。通过在数字攻击算法中加入设备感知的调整,例如分辨率感知和颜色感知的调整,我们减轻了从数字域到物理域的退化。实验验证展示了我们提出的算法在对抗真实和伪装攻击者时的有效性,在FR模型和最先进的商业系统中实现了高物理相似性得分。平均而言,从数字到物理攻击的得分仅减少14%,在白盒和黑盒场景中都具有高攻击成功率。

[19] INDIGO+: 一种用于盲图像修复和非盲图像修复的统一INN引导概率扩散算法
标题: INDIGO+: A Unified INN-Guided Probabilistic Diffusion Algorithm for Blind and Non-Blind Image Restoration
作者: Di You / Pier Luigi Dragotti
原文:   [英文]   [中文]  
备注: Accepted by IEEE Journal of Selected Topics in Signal Processing (JSTSP)
摘要:
生成扩散模型因其生成逼真自然图像的卓越能力,正成为图像修复(IR)任务中最受欢迎的先验之一。尽管取得了令人满意的结果,基于扩散模型的图像修复方法仍存在若干局限性。首先,大多数非盲方法需要退化模型的解析表达式来指导采样过程。其次,大多数现有的盲方法依赖于预定义的退化模型族来训练其深度网络。上述问题限制了这些方法的灵活性,从而限制了它们处理真实世界退化任务的能力。在本文中,我们提出了一种新颖的INN引导的概率扩散算法用于非盲和盲图像修复,分别命名为INDIGO和BlindINDIGO,该算法结合了可逆神经网络(INN)的完美重建特性与预训练扩散模型的强大生成能力。具体而言,我们训练INN的正向过程以模拟任意退化过程,并使用逆向过程获得一个中间图像,通过梯度步骤引导反向扩散采样过程。我们还引入了一种初始化策略,以进一步提高算法的性能和推理速度。实验表明,与最近领先的方法相比,我们的算法在合成和真实世界的低质量图像上,无论是定量还是视觉效果都取得了具有竞争力的结果。

[20] 隐式神经表面变形与显式速度场
标题: Implicit Neural Surface Deformation with Explicit Velocity Fields
作者: Lu Sang / Zehranaz Canfes / Dongliang Cao / Florian Bernard / Daniel Cremers
原文:   [英文]   [中文]  
备注: ICLR 2025, 10 pages
摘要:
在这项工作中,我们介绍了第一个无监督的方法,该方法能够同时预测时间变化的神经隐式曲面和点云对之间的变形。我们提出使用显式速度场来建模点的运动,并通过修改后的水平集方程直接变形时间变化的隐式场。该方程在紧凑的公式中利用了带有Eikonal约束的等值面演化,确保了符号距离场的完整性。通过对速度场应用平滑的、体积保持的约束,我们的方法成功地恢复了物理上合理的中间形状。我们的方法能够处理刚性和非刚性变形,而无需任何中间形状的监督。我们的实验结果表明,我们的方法在质量和效率上显著优于现有的工作,提供了更优越的结果。

[21] 基于扩散 U-Net 交叉注意力图的LLM引导实例级图像操作
标题: LLM-guided Instance-level Image Manipulation with Diffusion U-Net Cross-Attention Maps
作者: Andrey Palaev / Adil Khan / Syed M. Ahsan Kazmi
原文:   [英文]   [中文]  
备注: Presented at BMVC 2024
摘要:
文本到图像合成技术的进步引入了强大的生成模型,这些模型能够从文本提示中创建逼真的图像。然而,精确控制图像属性仍然具有挑战性,尤其是在实例级别。尽管现有方法通过微调或辅助信息提供了一定的控制,但它们在灵活性和准确性方面往往面临限制。为了解决这些挑战,我们提出了一种利用大型语言模型(LLMs)、开放词汇检测器、交叉注意力图和扩散 U-Net 的中间激活进行实例级图像操作的流程。我们的方法检测提示中提到的并存在于生成图像中的对象,从而实现精确操作,而无需大量训练或输入掩码。通过结合交叉注意力图,我们的方法在控制对象位置的同时确保了操作图像的一致性。我们的方法无需微调或诸如掩码或边界框之类的辅助信息,即可实现实例级的精确操作。代码可在此 https URL 获取。

[22] 重新审视CLIP:使用领域特定基础模型高效对齐3D MRI和表格数据
标题: Revisiting CLIP: Efficient Alignment of 3D MRI and Tabular Data using Domain-Specific Foundation Models
作者: Jakob Krogh Petersen / Valdemar Licht / Mads Nielsen / Asbjørn Munk
原文:   [英文]   [中文]  
备注: 10 pages, 2 figures. To be published in ISBI 2025
摘要:
多模态模型需要对齐的、共享的嵌入空间。然而,常见的基于CLIP的方法需要大量样本,并且本身不支持3D或表格数据,而这两者在医学领域至关重要。为了解决这些问题,我们通过训练一个领域特定的3D基础模型作为图像编码器,重新审视了CLIP风格的对齐,并证明仅使用62个MRI扫描就可以实现模态对齐。我们的方法通过一种简单的嵌入累积策略得以实现,该策略在3D训练中是必需的,通过在批次之间扩展负样本对的数量来稳定训练。我们对各种设计选择进行了全面评估,包括骨干网络和损失函数的选择,并在零样本分类和图像检索任务上评估了所提出的方法。尽管零样本图像检索仍然具有挑战性,但零样本分类结果表明,所提出的方法可以有效地对齐3D MRI与表格数据的表示。

[23] 将先验知识注入深度学习模型以预测全切片图像中的基因表达
标题: Prior Knowledge Injection into Deep Learning Models Predicting Gene Expression from Whole Slide Images
作者: Max Hallemeesch / Marija Pizurica / Paloma Rabaey / Olivier Gevaert / Thomas Demeester / Kathleen Marchal
原文:   [英文]   [中文]  
备注: None
摘要:
癌症的诊断和预后主要依赖于年龄和肿瘤分级等临床参数,并越来越多地辅以来自肿瘤测序的分子数据,如基因表达。然而,测序成本高昂且会延迟肿瘤学工作流程。深度学习的最新进展使得可以从全切片图像(WSIs)的形态特征中预测分子信息,提供了一种具有成本效益的分子标记替代方法。尽管前景可观,但当前的方法缺乏足够的稳健性,无法完全替代直接测序。在此,我们旨在通过引入一个模型无关的框架来改进现有方法,该框架允许将基因-基因相互作用的先验知识注入深度学习架构,从而提高准确性和稳健性。我们设计的框架具有通用性,并能灵活适应多种架构。在乳腺癌的案例研究中,我们的策略在所有18个实验中平均增加了983个显著基因(在25,761个基因中),其中14个在独立数据集上也表现出增加。我们的研究结果显示,将先验知识注入深度学习架构中以提高从WSIs中预测基因表达性能具有很高的潜力。

[24] 扩展BRIAR数据集:极端距离和真实场景下的综合全身生物识别资源(集合1-4)
标题: Expanding on the BRIAR Dataset: A Comprehensive Whole Body Biometric Recognition Resource at Extreme Distances and Real-World Scenarios (Collections 1-4)
作者: Gavin Jager / David Cornett III / Gavin Glenn / Deniz Aykac / Christi Johnson / Robert Zhang / Ryan Shivers / David Bolme / Laura Davies / Scott Dolvin / Nell Barber / Joel Brogan / Nick Burchfield / Carl Dukes / Andrew Duncan / Regina Ferrell / Austin Garrett / Jim Goddard / Jairus Hines / Bart Murphy / Sean Pharris / Brandon Stockwell / Leanne Thompson / Matthew Yohe
原文:   [英文]   [中文]  
备注: 10 pages, 11 figures, 2 tables, submitted to CVPR
摘要:
近年来,生物识别算法和操作系统的最新技术发展迅速,在更具挑战性的采集环境和消费应用中提供了高精度和鲁棒性。然而,当技术应用于非常规环境时,如在极远距离进行识别或从建筑物上的高架摄像头或安装在无人机上的摄像头进行识别时,仍然存在很大问题。本文总结了目前针对这些操作挑战的最大数据集的扩展,并描述了其组成以及收集、整理和注释的方法。

[25] StreamingRAG:实时上下文检索与生成框架
标题: StreamingRAG: Real-time Contextual Retrieval and Generation Framework
作者: Murugan Sankaradas / Ravi K.Rajendran / Srimat T.Chakradhar
原文:   [英文]   [中文]  
备注: Accepted and Presented at AI4Sys, HPDC 2024
摘要:
从医疗保健、智能交通和卫星遥感等各个领域的多模态数据流中提取实时洞察仍然是一个挑战。高计算需求和有限的知识范围限制了多模态大型语言模型(MM-LLMs)在这些数据流中的适用性。传统的检索增强生成(RAG)系统虽然解决了这些模型的知识限制,但由于预处理速度慢,使其不适合实时分析。我们提出了StreamingRAG,这是一种为流数据设计的新型RAG框架。StreamingRAG构建了实时捕捉场景-对象-实体关系的动态知识图谱。该知识图谱通过MM-LLMs实现时间感知的场景表示,并能够对特定事件或用户查询做出及时响应。StreamingRAG解决了现有方法的局限性,在实时分析(提高5-6倍的吞吐量)、上下文准确性(通过时间知识图谱)和资源消耗减少(使用轻量级模型减少2-3倍)方面取得了显著的改进。

[26] SelfPrompt:面向鲁棒视觉-语言模型适应的置信感知半监督调优
标题: SelfPrompt: Confidence-Aware Semi-Supervised Tuning for Robust Vision-Language Model Adaptation
作者: Shuvendu Roy / Ali Etemad
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了SelfPrompt,这是一种用于视觉语言模型(VLMs)的新颖提示调优方法,适用于半监督学习设置。现有的VLMs调优方法在半监督设置中面临伪标签误校准的负面影响以及噪声伪标签积累的问题。SelfPrompt通过引入一种集群引导的伪标签方法来提高伪标签的准确性,并通过结合监督学习和弱监督学习的信心感知半监督学习模块来最大化未标记数据的利用率,从而解决了这些挑战。此外,我们在主动半监督学习设置中研究了我们的方法,其中标记集经过战略性选择以确保有限标记预算的最佳利用。为此,我们提出了一种弱监督采样技术,该技术选择多样且具有代表性的标记集,可以无缝集成到现有方法中以增强其性能。我们在13个数据集上进行了广泛的评估,在标准半监督学习中平均提高6.23%,在主动半监督学习中提高6.25%,在基础到新颖泛化中提高4.9%,使用2-shot设置。此外,SelfPrompt在单次设置中表现出卓越的泛化能力,平均提高11.78%。

[27] 使用实例分割进行有效缺陷检测的无损检测
标题: Effective Defect Detection Using Instance Segmentation for NDI
作者: Ashiqur Rahman / Venkata Devesh Reddy Seethi / Austin Yunker / Zachary Kral / Rajkumar Kettimuthu / Hamed Alhoori
原文:   [英文]   [中文]  
备注: 6 pages, 2 figures, 2 tables. Published at AI2ASE 2025 workshop at AAAI2025. Accepted publication is available at this https URL
摘要:
超声检测是一种常见的无损检测(NDI)方法,广泛应用于航空航天制造业。然而,超声扫描的复杂性和规模使得通过目视检查或机器学习模型识别缺陷变得具有挑战性。利用计算机视觉技术从超声扫描中识别缺陷是一个不断发展的研究领域。在本研究中,我们使用实例分割技术来识别复合材料面板超声扫描图像中的缺陷,这些面板代表了航空航天制造的真实组件。我们分别使用了基于Mask-RCNN(Detectron 2)和YOLO 11的两个模型。此外,我们实施了一种简单的统计预处理技术,减少了对定制预处理技术的需求。我们的研究表明,在NDI流程中使用实例分割是可行且有效的,因为它显著减少了数据预处理时间、检查时间和总体成本。

[28] 推进MRI重建:深度学习与压缩感知集成的系统综述
标题: Advancing MRI Reconstruction: A Systematic Review of Deep Learning and Compressed Sensing Integration
作者: Mojtaba Safari / Zach Eidex / Chih-Wei Chang / Richard L.J. Qiu / Xiaofeng Yang
原文:   [英文]   [中文]  
备注: None
摘要:
磁共振成像(MRI)是一种非侵入性的成像方式,能够提供人体的全面解剖和功能信息。然而,其较长的采集时间可能导致患者不适、运动伪影,并限制实时应用。为了解决这些问题,已经应用了诸如并行成像等策略,该策略利用多个接收线圈来加速数据采集过程。此外,压缩感知(CS)是一种从稀疏数据中重建图像的方法,通过减少所需的数据采集量显著缩短图像采集时间。近年来,深度学习(DL)作为一种强大的工具在改进MRI重建方面崭露头角。它已与并行成像和CS原理相结合,以实现更快更准确的MRI重建。本文综述全面审视了基于DL的MRI重建技术。我们对各种基于DL的方法进行了分类和讨论,包括端到端方法、展开优化和联邦学习,突出了它们的潜在优势。我们的系统综述强调了重要的贡献,并强调了DL在MRI重建中的潜力。此外,我们总结了基于DL的MRI重建中的关键结果和趋势,包括定量指标、数据集、加速因子,以及DL技术随时间的进展和研究兴趣。最后,我们讨论了未来可能的方向以及基于DL的MRI重建在推进医学成像中的重要性。为了促进该领域的进一步研究,我们提供了一个GitHub仓库,其中包括最新的基于DL的MRI重建出版物和公共数据集。

[29] 通过基于杰卡德距离的条件对比学习和上下文视觉增强提升多模态实体链接
标题: Enhancing Multimodal Entity Linking with Jaccard Distance-based Conditional Contrastive Learning and Contextual Visual Augmentation
作者: Cong-Duy Nguyen / Xiaobao Wu / Thong Nguyen / Shuai Zhao / Khoi Le / Viet-Anh Nguyen / Feng Yichao / Anh Tuan Luu
原文:   [英文]   [中文]  
备注: None
摘要:
以往关于多模态实体链接(MEL)的研究主要采用对比学习作为主要目标。然而,这些研究在没有仔细考虑的情况下使用批次中的其余部分作为负样本,可能会利用简单特征,并可能忽视使实体独特的重要细节。在这项工作中,我们提出了JD-CCL(基于Jaccard距离的条件对比学习),这是一种旨在增强多模态实体链接模型匹配能力的新方法。JD-CCL利用元信息选择具有相似属性的负样本,使链接任务更具挑战性和鲁棒性。此外,为了解决提及和实体之间视觉模态变化带来的局限性,我们引入了一种新方法,CVaCPT(上下文视觉辅助可控补丁变换)。它通过结合多视图合成图像和上下文文本表示来缩放和移动补丁表示,从而增强视觉表示。在基准MEL数据集上的实验结果证明了我们方法的强大效果。

[30] Dreamweaver:从像素中学习组合世界表示
标题: Dreamweaver: Learning Compositional World Representations from Pixels
作者: Junyeob Baek / Yi-Fu Wu / Gautam Singh / Sungjin Ahn
原文:   [英文]   [中文]  
备注: None
摘要:
人类具有一种天生的能力,可以将他们对世界的感知分解为对象及其属性,如颜色、形状和运动模式。这种认知过程使我们能够通过重新组合熟悉的概念来想象新的未来。然而,在人工智能系统中复制这种能力一直是一个挑战,特别是在将视频建模为组合概念并在不依赖辅助数据(如文本、掩码或边界框)的情况下生成未见过的、重新组合的未来方面。在本文中,我们提出了Dreamweaver,这是一种神经架构,旨在从原始视频中发现层次和组合表示,并生成组合的未来模拟。我们的方法利用了一种新颖的递归块槽单元(RBSU)来将视频分解为其组成对象和属性。此外,Dreamweaver使用多未来帧预测目标来更有效地捕捉动态概念以及静态概念的解耦表示。在实验中,我们展示了我们的模型在多个数据集上根据DCI框架评估时,在世界建模方面优于当前最先进的基线。此外,我们展示了我们的模型的模块化概念表示如何实现组合想象,允许通过重新组合不同对象的属性来生成新的视频。

[31] 使用单权重虚拟类别去学习进行事后虚假相关性中和
标题: Post-hoc Spurious Correlation Neutralization with Single-Weight Fictitious Class Unlearning
作者: Shahin Hakemi / Naveed Akhtar / Ghulam Mubashar Hassan / Ajmal Mian
原文:   [英文]   [中文]  
备注: None
摘要:
神经网络训练倾向于利用最简单的特征作为捷径,以贪婪地最小化训练损失。然而,其中一些特征可能与目标标签存在虚假相关性,导致模型做出错误的预测。为了解决这个问题,已经提出了几种方法。这些方法专注于通过模型训练抑制虚假相关性,不仅增加了额外的训练成本,而且在实际应用中效用有限,因为模型由于虚假关系导致的错误行为通常是在部署后才被发现的。此外,虚假性是一个主观概念,这一点常常被忽视。因此,必须探讨的精确问题是:一个特征在多大程度上是虚假的,以及我们如何能够适当地分散模型对其的注意力以实现可靠的预测。为此,我们提出了一种方法,能够在事后中和虚假特征的影响,并且可以任意程度地控制。我们将虚假特征概念化为原始类别中的虚构子类,可以通过类别移除方案来消除。然后,我们提出了一种独特的精确类别移除技术,该技术通过单一权重修改实现,对剩余类别的性能影响可以忽略不计。我们进行了广泛的实验,结果表明,通过事后仅编辑一个权重,我们的方法在性能上与最先进的方法相比具有很强的竞争力,甚至更优。

[32] 通过自适应形状卷积和大核空间建模实现高精度织物缺陷检测
标题: High-Precision Fabric Defect Detection via Adaptive Shape Convolutions and Large Kernel Spatial Modeling
作者: Shuai Wang / Yang Xu / Hui Zheng / Baotian Li
原文:   [英文]   [中文]  
备注: 8 pages, 9 figures
摘要:
在纺织行业中检测织物缺陷仍然是一项具有挑战性的任务,因为缺陷模式多样且复杂。传统方法通常在推理速度、准确性和识别率方面存在局限,尤其是在涉及复杂或细微缺陷的场景中。为克服这些限制,我们引入了Fab-ASLKS,这是一种基于YOLOv8s架构的先进织物缺陷检测框架。Fab-ASLKS包含两个关键模块:(1)自适应形状卷积模块(ASCM),该模块在Neck中利用自适应形状卷积,通过扩展标准C2f结构的能力来增强特征融合并提高效率;(2)大核移位卷积模块(LKSCM),旨在在Backbone中模拟大核效果,从而实现卓越的空间信息提取。这些模块协同优化了网络中的特征提取和信息整合。在天池织物缺陷检测数据集上进行的大量实验表明,Fab-ASLKS在mAP@50方面比基线提高了5%,展示了其提供高精度和高效率的能力。

[33] ENTER:基于事件的可解释推理用于视频问答
标题: ENTER: Event Based Interpretable Reasoning for VideoQA
作者: Hammad Ayyubi / Junzhang Liu / Ali Asgarov / Zaber Ibn Abdul Hakim / Najibul Haque Sarker / Zhecan Wang / Chia-Wei Tang / Hani Alomari / Md. Atabuzzaman / Xudong Lin / Naveen Reddy Dyava / Shih-Fu Chang / Chris Thomas
原文:   [英文]   [中文]  
备注: None
摘要:
在本文中,我们介绍了基于事件图的可解释视频问答(VideoQA)系统ENTER。事件图将视频转换为图形表示,其中视频事件构成节点,事件-事件关系(时间/因果/层次)构成边。这种结构化表示提供了许多好处:1)通过生成的解析事件图的代码实现可解释的视频问答;2)通过事件图在推理过程中(代码生成)结合上下文视觉信息;3)通过事件图的层次迭代更新实现稳健的视频问答。现有的可解释视频问答系统通常是自上而下的,在生成推理计划时忽略了低级视觉信息,并且较为脆弱。而自下而上的方法虽然从视觉数据中生成响应,但缺乏可解释性。NExT-QA、IntentQA和EgoSchema的实验结果表明,我们的方法不仅在性能上优于现有的自上而下方法,并在与自下而上方法的竞争中表现出色,更重要的是,在推理过程中提供了更优越的可解释性和可说明性。

[34] VideoShield:通过水印调控基于扩散的视频生成模型
标题: VideoShield: Regulating Diffusion-based Video Generation Models via Watermarking
作者: Runyi Hu / Jie Zhang / Yiming Li / Jiwei Li / Qing Guo / Han Qiu / Tianwei Zhang
原文:   [英文]   [中文]  
备注: International Conference on Learning Representations (ICLR) 2025
摘要:
人工智能生成内容(AIGC)取得了显著进展,特别是在文本生成视频(T2V)模型和图像生成视频(I2V)模型等视频生成模型的发展方面。然而,与其他AIGC类型一样,视频生成需要强大的内容控制。常见的方法是嵌入水印,但大多数研究集中在图像上,对视频的关注较少。传统方法通常以逐帧后处理的方式嵌入水印,这往往会降低视频质量。在本文中,我们提出了VideoShield,这是一种专为流行的基于扩散的视频生成模型设计的新型水印框架。与后处理方法不同,VideoShield在视频生成过程中直接嵌入水印,无需额外训练。为了确保视频的完整性,我们引入了一种篡改定位功能,可以检测时间上(跨帧)和空间上(单帧内)的变化。我们的方法将水印位映射到模板位,然后在去噪过程中用于生成带水印的噪声。使用DDIM反演,我们可以将视频反转到其原始的带水印噪声,从而实现简单的水印提取。此外,模板位允许精确检测潜在的时间和空间修改。通过对各种视频模型(包括T2V和I2V模型)的广泛实验表明,我们的方法能够有效提取水印并检测篡改,而不影响视频质量。此外,我们还展示了这种方法适用于图像生成模型,从而实现对生成图像的篡改检测。代码和模型可在\href{this https URL}{this https URL}获取。

[35] 生成过程中动态令牌缩减用于视觉语言模型
标题: Dynamic Token Reduction during Generation for Vision Language Models
作者: Xiaoyu Liang / Chaofeng Guan / Jiaying Lu / Huiyao Chen / Huan Wang / Haoji Hu
原文:   [英文]   [中文]  
备注: None
摘要:
视觉-语言模型(VLMs)在多模态任务中取得了显著的成功,但由于解码器注意机制的二次复杂性和自回归生成,面临实际限制。现有的方法如FASTV和VTW在减少冗余视觉标记方面取得了显著成果,但这些方法专注于在单次前向传递中修剪标记,而没有系统地分析整个生成过程中的视觉标记冗余。在本文中,我们引入了一种为VLMs量身定制的动态修剪策略,称为动态速率(DyRate),它在生成过程中逐步调整压缩率。我们对注意力分布的分析表明,视觉标记的重要性在整个生成过程中逐渐降低,这启发我们采用更激进的压缩率。通过整合基于注意力分布的轻量级预测器,我们的方法能够根据注意力分布灵活调整修剪率。我们的实验结果表明,我们的方法不仅降低了计算需求,还保持了响应的质量。

[36] PuzzleGPT:模拟人类解谜能力进行时间和地点预测
标题: PuzzleGPT: Emulating Human Puzzle-Solving Ability for Time and Location Prediction
作者: Hammad Ayyubi / Xuande Feng / Junzhang Liu / Xudong Lin / Zhecan Wang / Shih-Fu Chang
原文:   [英文]   [中文]  
备注: NAACL 2025 Findings
摘要:
从图像中预测时间和地点的任务具有挑战性,需要复杂的人类般的解谜能力来处理不同的线索。在这项工作中,我们将这种能力形式化为核心技能,并通过一个名为PuzzleGPT的专家管道中的不同模块来实现它们。PuzzleGPT包括一个感知器,用于识别视觉线索;一个推理器,用于推导预测候选项;一个组合器,用于组合不同线索的信息;一个网络检索器,用于在任务无法在本地解决时获取外部知识;以及一个噪声过滤器,以增强鲁棒性。这种方法实现了零样本、可解释且鲁棒的性能,并在两个数据集——TARA和WikiTilo上记录了最先进的表现。PuzzleGPT的表现优于大型视觉语言模型(VLMs),如BLIP-2、InstructBLIP、LLaVA,甚至GPT-4V,以及自动生成的推理管道如VisProg,分别至少高出32%和38%。它甚至可以媲美或超越经过微调的模型。

[37] 利用深度迁移学习检测和分类急性淋巴细胞白血病
标题: Detection and Classification of Acute Lymphoblastic Leukemia Utilizing Deep Transfer Learning
作者: Md. Abu Ahnaf Mollick / Md. Mahfujur Rahman / D.M. Asadujjaman / Abdullah Tamim / Nosin Anjum Dristi / Md. Takbir Hossen
原文:   [英文]  
备注: 4 pages, 4 figures, Submitted to UCICS
摘要:
单个细胞的DNA突变会损害其功能,从而引发白血病,导致未成熟白细胞的过度生成,这些细胞侵占了生成健康血液所需的空间。如果在初期阶段识别出白血病,它是可以治疗的。然而,其诊断过程既艰难又耗时。本研究提出了一种新的方法,通过深度学习诊断白血病的四个阶段:良性、早期、预期和专业阶段。我们采用了两个卷积神经网络(CNN)模型:一个是修改过的MobileNetV2,另一个是自定义模型。自定义模型由多个卷积层组成,每个卷积层都配有相应的最大池化层。我们使用了带有ImageNet权重的MobileNetV2,并调整了其头部以整合最终结果。所使用的数据集是公开可用的“急性淋巴细胞白血病(ALL)图像数据集”,我们应用了合成少数类过采样技术(SMOTE)来增强和平衡训练数据。自定义模型达到了98.6%的准确率,而MobileNetV2则取得了更高的99.69%的准确率。预训练模型显示出良好的结果,表明其在实际应用中的可能性增加。

[38] GreedyPixel:通过贪心算法进行细粒度黑箱对抗攻击
标题: GreedyPixel: Fine-Grained Black-Box Adversarial Attack Via Greedy Algorithm
作者: Hanrui Wang / Ching-Chun Chang / Chun-Shien Lu / Christopher Leckie / Isao Echizen
原文:   [英文]   [中文]  
备注: None
摘要:
深度学习模型的一个关键要求是确保其对抗对抗性攻击的鲁棒性。这些攻击通常会引入明显的扰动,损害对抗性样本的视觉保真度。另一个主要挑战是,尽管白盒算法可以生成有效的对抗性扰动,但它们需要访问模型的梯度,这在许多现实场景中限制了其实用性。现有的攻击机制在没有这些梯度的情况下难以达到类似的效果。在本文中,我们介绍了GreedyPixel,这是一种新颖的逐像素贪婪算法,旨在仅使用目标模型的查询反馈生成高质量的对抗性样本。GreedyPixel通过依次扰动单个像素,并由像素优先级图指导,从而提高了通常是暴力计算过程的计算效率。这个优先级图是通过对从替代模型获得的梯度进行排序构建的,为扰动提供了一个结构化的路径。我们的结果表明,GreedyPixel在不需要梯度信息的情况下实现了与白盒方法相当的攻击成功率,并在黑盒环境中超越了现有算法,提供了更高的成功率、减少的计算时间和不可察觉的扰动。这些发现强调了GreedyPixel在攻击效果、时间效率和视觉质量方面的优势。

[39] 基于微宏观小波的高斯散射用于从无约束图像进行3D重建
标题: Micro-macro Wavelet-based Gaussian Splatting for 3D Reconstruction from Unconstrained Images
作者: Yihui Li / Chengxin Lv / Hongyu Yang / Di Huang
原文:   [英文]   [中文]  
备注: 11 pages, 6 figures,accepted by AAAI 2025
摘要:
从不受约束的图像集合中进行3D重建,由于外观变化和瞬时遮挡,面临着巨大的挑战。在本文中,我们介绍了一种基于微-宏小波的高斯喷射(MW-GS)方法,这是一种通过将场景表示分解为全局、精细和内在组件来增强3D重建的新方法。该方法具有两个关键创新:微-宏投影,使高斯点能够从多个尺度的特征图中捕捉细节,并增强多样性;以及基于小波的采样,利用频域信息来优化特征表示,并显著改善场景外观的建模。此外,我们还引入了一个分层残差融合网络,以无缝整合这些特征。大量实验表明,MW-GS提供了最先进的渲染性能,超越了现有的方法。

[40] Point-LN:一种使用非参数位置编码进行高效点云分类的轻量级框架
标题: Point-LN: A Lightweight Framework for Efficient Point Cloud Classification Using Non-Parametric Positional Encoding
作者: Marzieh Mohammadi / Amir Salarpour / Pedram MohajerAnsari
原文:   [英文]   [中文]  
备注: This paper has been accepted for presentation at the 29th International Computer Conference, Computer Society of Iran (CSICC) 2025
摘要:
我们介绍了Point-LN,这是一种新颖的轻量级框架,专为高效的3D点云分类而设计。Point-LN结合了基本的非参数组件,如最远点采样(FPS)、k近邻(k-NN)和不可学习的位置编码,并配以简化的可学习分类器,在保持最小参数量的同时显著提高了分类准确性。这种混合架构确保了低计算成本和快速推理速度,使Point-LN成为实时和资源受限应用的理想选择。在包括ModelNet40和ScanObjectNN在内的基准数据集上的全面评估表明,Point-LN在与最先进的方法相比时实现了具有竞争力的性能,同时提供了卓越的效率。这些结果确立了Point-LN作为多样化点云分类任务的强大且可扩展的解决方案,突显了其在各种计算机视觉应用中广泛采用的潜力。

[41] 用于图像增强中一对多映射的贝叶斯神经网络
标题: Bayesian Neural Networks for One-to-Many Mapping in Image Enhancement
作者: Guoxi Huang / Nantheera Anantrasirichai / Fei Ye / Zipeng Qi / RuiRui Lin / Qirui Yang / David Bull
原文:   [英文]   [中文]  
备注: None
摘要:
在图像增强任务中,例如低光和水下图像增强,由于摄影条件的动态变化(如光照变化),一个退化的图像可能对应多个合理的目标图像。这自然导致了一个一对多映射的挑战。为了解决这个问题,我们提出了一种贝叶斯增强模型(BEM),该模型结合了贝叶斯神经网络(BNNs)以捕捉数据不确定性并生成多样化的输出。为了实现实时推理,我们引入了一个两阶段的方法:第一阶段使用BNN在低维空间中建模一对多映射,而第二阶段使用确定性神经网络(DNN)细化图像的细粒度细节。为了加速BNN的训练和收敛,我们引入了一种动态动量先验。对多个低光和水下图像增强基准的广泛实验表明,我们的方法优于确定性模型。

[42] 高分辨率大型视觉语言模型中的全局语义引导子图像特征权重分配
标题: Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models
作者: Yuxuan Liang / Xu Li / Xiaolei Chen / Haotian Chen / Yi Zheng / Chenghang Lai / Bin Li / Xiangyang Xue
原文:   [英文]   [中文]  
备注: 10 pages, 10 figures and tables
摘要:
随着大规模视觉语言模型(LVLMs)中对高分辨率图像处理需求的增长,子图像分割已成为一种流行的方法,用于缓解与固定分辨率处理相关的视觉信息损失。然而,现有的分割方法对子图像进行统一处理,导致图像理解效果不佳。在这项工作中,我们揭示了与整个图像具有更高语义相关性的子图像包含更丰富的视觉信息,有助于保持模型的视觉理解能力。因此,我们提出了全局语义引导权重分配器(GSWA)模块,该模块根据子图像的相对信息密度动态分配权重,模拟人类视觉注意机制。此方法使模型能够专注于更具信息量的区域,克服统一处理的局限性。我们将GSWA集成到InternVL2-2B框架中,创建了SleighVL,一个轻量级但性能优异的模型。大量实验表明,SleighVL优于具有可比参数的模型,并在与更大模型的竞争中保持竞争力。我们的工作为LVLMs中更高效和具有上下文感知的高分辨率图像处理提供了一个有前途的方向,推动了多模态系统的发展。

[43] Dense-SfM:具有密集一致匹配的运动结构
标题: Dense-SfM: Structure from Motion with Dense Consistent Matching
作者: JongMin Lee / Sungjoo Yoo
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了Dense-SfM,这是一种新颖的运动结构(SfM)框架,旨在从多视图图像中进行密集且精确的3D重建。传统SfM方法通常依赖稀疏关键点匹配,这限制了精度和点密度,尤其是在无纹理区域。Dense-SfM通过集成密集匹配和基于高斯喷溅(GS)的轨迹扩展来解决这一限制,从而提供更一致、更长的特征轨迹。为了进一步提高重建精度,Dense-SfM配备了一个多视图核化匹配模块,利用变压器和高斯过程架构,实现跨多视图的鲁棒轨迹优化。在ETH3D和Texture-Poor SfM数据集上的评估表明,Dense-SfM在精度和密度方面相较于最先进的方法有显著提升。

[44] TD-RD:用于道路损坏检测的自上而下基准与实时框架
标题: TD-RD: A Top-Down Benchmark with Real-Time Framework for Road Damage Detection
作者: Xi Xiao / Zhengji Li / Wentao Wang / Jiacheng Xie / Houjie Lin / Swalpa Kumar Roy / Tianyang Wang / Min Xu
原文:   [英文]   [中文]  
备注: None
摘要:
在过去的十年中,目标检测取得了显著的进展,这主要得益于深度学习的突破和大规模数据集的普及。然而,道路损坏检测领域相对较少被探索,尽管其对于基础设施维护和道路安全等应用具有重要意义。本文通过引入一个新颖的自上而下的基准来填补这一空白,该基准为现有数据集提供了一个互补的视角,专门针对道路损坏检测。我们提出的自上而下道路损坏检测数据集(TDRD)包括从自上而下视角捕获的三类主要道路损坏:裂缝、坑洞和补丁。该数据集包含7,088张高分辨率图像,涵盖了12,882个标注的道路损坏实例。此外,我们提出了一种新颖的实时目标检测框架,TDYOLOV10,旨在应对TDRD数据集所带来的独特挑战。与最先进的模型进行的比较研究显示了具有竞争力的基线结果。通过发布TDRD,我们希望加速这一关键领域的研究。数据集的一个样本将在论文被接受后公开提供。

[45] 利用X射线计算机断层扫描数据通过人工智能预测增材制造工艺协议
标题: Additive Manufacturing Processes Protocol Prediction by Artificial Intelligence using X-ray Computed Tomography data
作者: Sunita Khod / Akshay Dvivedi / Mayank Goswami
原文:   [英文]  
备注: 21 pages, 21 figures, 5 tables
摘要:
增材制造(AM)过程中制造的零件质量取决于所使用的工艺参数,因此需要优化以获得适当的质量。本文提出了一种方法,可以在无需人工干预的情况下非迭代地设置这些参数。该方法利用人工智能(AI)来完全自动化这一过程,并具备通过进一步整合训练数据来自我训练任何适当AI模型的能力。本研究包括三台基于材料挤出(MEX)AM工艺的商用软材料3D打印机。通过改变层高和喷嘴速度,3D打印了六种不同AM工艺参数的样品。该方法的新颖之处在于在决策阶段引入了基于AI的图像分割步骤,该步骤使用来自无损检测(NDT)方法的质量检测训练数据。训练后的AI模型的性能与基于经典阈值法的两种软件工具进行了比较。基于AI的人工神经网络(ANN)模型从NDT评估和AI分割的数据中训练,以自动选择优化的工艺参数。基于AI的模型准确率为99.3%,而最佳的商用经典图像方法的准确率为83.44%。训练ANN的最佳整体R值为0.82。MEX工艺相对于设计给出了22.06%的孔隙率误差。提出并通过经典优化和机械测试方法验证了集成在一系列管道中的两个NDT数据训练的AI模型,以获得最佳工艺参数。

[46] 学习原始关系以进行组合零样本学习
标题: Learning Primitive Relations for Compositional Zero-Shot Learning
作者: Insu Lee / Jiseob Kim / Kyuhong Shim / Byonghyo Shim
原文:   [英文]   [中文]  
备注: Accepted to ICASSP 2025
摘要:
组合零样本学习(Compositional Zero-Shot Learning, CZSL)旨在通过利用从已见组合中学习到的知识来识别未见的状态-对象组合。现有的方法通常独立地预测状态和对象,忽视了它们之间的关系。在本文中,我们提出了一种新颖的框架,称为学习原始关系(Learning Primitive Relations, LPR),旨在以概率方式捕捉状态和对象之间的关系。通过采用交叉注意力机制,LPR 考虑了状态和对象之间的依赖关系,使模型能够推断未见组合的可能性。实验结果表明,LPR 在所有三个 CZSL 基准数据集的封闭世界和开放世界设置中均优于最新的方法。通过定性分析,我们展示了 LPR 如何利用状态-对象关系进行未见组合的预测。

[47] BrainGuard:基于脑活动的多主体图像重建隐私保护
标题: BrainGuard: Privacy-Preserving Multisubject Image Reconstructions from Brain Activities
作者: Zhibo Tian / Ruijie Quan / Fan Ma / Kun Zhan / Yi Yang
原文:   [英文]   [中文]  
备注: AAAI 2025 oral
摘要:
从人类大脑活动中重建感知图像,通过脑机接口在人类和机器学习之间形成了一个关键的联系。早期的方法主要集中在为每个人单独训练模型,以应对大脑活动的个体差异性,而忽视了跨个体的共同特性。最近的进展探索了多主体方法,但这些方法面临重大挑战,特别是在数据隐私和有效管理个体差异性方面。为了解决这些挑战,我们引入了BrainGuard,这是一种隐私保护的协作训练框架,旨在增强从多主体fMRI数据中重建图像的能力,同时保护个体隐私。BrainGuard采用协作的全局-局部架构,其中个体模型在每个主体的本地数据上进行训练,并与一个共享的全局模型协同工作,该全局模型捕捉并利用跨主体的模式。该架构消除了跨主体聚合fMRI数据的需要,从而确保了隐私保护。为了应对fMRI数据的复杂性,BrainGuard集成了一种混合同步策略,使个体模型能够动态地整合全局模型的参数。通过建立一个安全和协作的训练环境,BrainGuard不仅保护了敏感的大脑数据,还提高了图像重建的准确性。大量实验表明,BrainGuard在高层次和低层次指标上都设立了新的基准,通过其创新设计推进了脑解码的最新技术。

[48] PAID:以产品为中心的广告图像设计框架
标题: PAID: A Framework of Product-Centric Advertising Image Design
作者: Hongyu Chen / Min Zhou / Jing Jiang / Jiale Chen / Yang Lu / Bo Xiao / Tiezheng Ge / Bo Zheng
原文:   [英文]   [中文]  
备注: None
摘要:
在电子商务平台上,一幅完整的广告图像由背景图像和营销标语组成。自动广告图像设计可以降低人工成本,并发挥关键作用。为了方便用户,本文提出了一种新颖的自动化框架,称为以产品为中心的广告图像设计(PAID)。PAID以产品前景图像、所需标语和目标尺寸为输入,自动创建广告图像。PAID由四个连续阶段组成:提示生成、布局生成、背景图像生成和图形渲染。不同的专家模型被训练来执行这些子任务。一个基于视觉语言模型(VLM)的提示生成模型被用来生成与产品匹配的背景提示。布局生成模型根据背景提示、产品和标语共同预测文本和图像布局,以实现最佳和谐。一个基于SDXL的布局控制修复模型被训练来生成美观的背景图像。之前的广告图像设计方法以背景图像为输入,然后预测标语的布局,这由于图像内容固定而限制了空间布局。创新地,我们的PAID调整了阶段以产生不受限制的布局。为了完成PAID框架,我们创建了两个高质量的数据集,PITA和PIL。大量实验结果表明,PAID比以往的方法创造出更具视觉吸引力的广告图像。

[49] 鹦鹉螺:面向可扩展网格生成的局部性感知自编码器
标题: Nautilus: Locality-aware Autoencoder for Scalable Mesh Generation
作者: Yuxuan Wang / Xuanyu Yi / Haohan Weng / Qingshan Xu / Xiaokang Wei / Xianghui Yang / Chunchao Guo / Long Chen / Hanwang Zhang
原文:   [英文]   [中文]  
备注: 14 pages
摘要:
三角网格是3D应用的基础,能够在保持与标准渲染管线兼容的同时,实现高效的修改和光栅化。然而,目前的自动网格生成方法通常依赖于中间表示,这些表示缺乏网格固有的连续表面质量。将这些表示转换为网格会产生密集且次优的输出。尽管最近的自回归方法在直接建模网格顶点和面方面显示出前景,但它们受到面数限制、可扩展性和结构保真度的制约。为了解决这些挑战,我们提出了Nautilus,这是一种面向局部性的自动编码器,用于艺术家风格的网格生成,利用流形网格的局部特性来实现结构保真度和高效表示。我们的方法引入了一种新颖的标记化算法,该算法保留了面邻近关系,并通过局部共享的顶点和边压缩序列长度,从而能够生成规模高达5,000个面的网格。此外,我们开发了一种双流点条件器,提供多尺度几何指导,通过捕捉细粒度的几何特征,确保全局一致性和局部结构保真度。大量实验表明,Nautilus在保真度和可扩展性方面显著优于最先进的方法。

[50] 可扩展的基准测试与稳健学习:从噪声视频中实现无噪声自运动和三维重建
标题: Scalable Benchmarking and Robust Learning for Noise-Free Ego-Motion and 3D Reconstruction from Noisy Video
作者: Xiaohao Xu / Tianyi Zhang / Shibo Zhao / Xiang Li / Sibo Wang / Yongqi Chen / Ye Li / Bhiksha Raj / Matthew Johnson-Roberson / Sebastian Scherer / Xiaonan Huang
原文:   [英文]   [中文]  
备注: Accepted by ICLR 2025; 92 Pages; Project Repo: this https URL. arXiv admin note: substantial text overlap with arXiv:2406.16850
摘要:
我们旨在通过解决一个关键限制来重新定义稳健的自我运动估计和逼真的3D重建:现有模型对无噪声数据的依赖。虽然这种理想化的条件简化了评估,但它们未能捕捉到现实世界环境中不可预测的、嘈杂的复杂性。动态运动、传感器缺陷和同步扰动在这些模型实际应用时会导致性能急剧下降,揭示了迫切需要能够在现实世界噪声下表现出色的框架。为弥合这一差距,我们解决了三个核心挑战:可扩展的数据生成、全面的基准测试和模型稳健性增强。首先,我们引入了一个可扩展的噪声数据合成管道,该管道生成模拟复杂运动、传感器缺陷和同步错误的多样化数据集。其次,我们利用这一管道创建了Robust-Ego3D,这是一个严格设计的基准,旨在揭示噪声引起的性能下降,突出当前基于学习的方法在自我运动精度和3D重建质量方面的局限性。第三,我们提出了对应引导的高斯喷溅(CorrGS),这是一种新颖的测试时自适应方法,通过将噪声观测与来自干净3D地图的渲染RGB-D帧对齐,逐步优化内部干净3D表示,从而通过视觉对应增强几何对齐和外观恢复。对合成和真实数据的广泛实验表明,CorrGS在涉及快速运动和动态照明的场景中始终优于先前的最先进方法。

[51] 基于相关性的高光谱图像分类波段选择
标题: Correlation-Based Band Selection for Hyperspectral Image Classification
作者: Dibyabha Deb / Ujjwal Verma
原文:   [英文]   [中文]  
备注: 5 pages, 1 figure
摘要:
高光谱图像在多个光谱波段上提供了关于地面物体的丰富光谱信息。然而,大量的数据在处理过程中可能会带来挑战。通常,高光谱数据中的相邻波段高度相关,因此在各种应用中只使用少数选定的波段。在这项工作中,我们提出了一种基于相关性的波段选择方法用于高光谱图像分类。我们的方法通过相关系数计算波段之间的平均相关性,以识别不同波段之间的关系。随后,我们通过分析平均相关性并应用基于阈值的方法来选择一部分波段。这使我们能够隔离并保留那些表现出较低波段间依赖性的波段,确保所选波段提供多样且非冗余的信息。我们在两个标准基准数据集上评估了我们提出的方法:Pavia University (PA) 和 Salinas Valley (SA),重点关注图像分类任务。实验结果表明,我们的方法在性能上与其他标准波段选择方法具有竞争力。

[52] 基于因果启发的多任务学习用于视频中的人体姿态估计
标题: Causal-Inspired Multitask Learning for Video-Based Human Pose Estimation
作者: Haipeng Chen / Sifan Wu / Zhigang Wang / Yifang Yin / Yingying Jiao / Yingda Lyu / Zhenguang Liu
原文:   [英文]   [中文]  
备注: 9 pages, 3 figures
摘要:
基于视频的人体姿态估计一直是计算机视觉领域一个基础但具有挑战性的问题。以往的研究主要集中在通过增强架构设计和优化策略来进行时空建模。然而,它们忽视了关节之间的因果关系,导致模型可能过于定制化,从而在处理具有挑战性的场景时表现不佳。因此,充分的因果推理能力以及良好的模型可解释性是实现可靠结果的不可或缺的前提条件。在本文中,我们首次从因果的角度研究姿态估计,并引入一个受因果启发的多任务学习框架,该框架由两个阶段组成。**在第一阶段**,我们通过引入两个自监督辅助任务,尝试赋予模型因果时空建模能力。具体来说,这些辅助任务使网络能够根据观察到的关键点信息推断出具有挑战性的关键点,从而将因果推理能力注入模型,使其在处理具有挑战性的场景时更加稳健。**在第二阶段**,我们认为并非所有特征标记对姿态估计都有同等贡献。优先考虑因果(与关键点相关的)标记对于实现可靠结果至关重要,这可以提高模型的可解释性。为此,我们提出了一个标记因果重要性选择模块,以识别因果标记和非因果标记(例如,背景和物体)。此外,非因果标记可能提供潜在的有益线索,但可能是冗余的。我们进一步引入了一个非因果标记聚类模块,以合并相似的非因果标记。大量实验表明,我们的方法在三个大规模基准数据集上优于最先进的方法。

[53] 低秩提示交互用于持续视觉-语言检索
标题: Low-rank Prompt Interaction for Continual Vision-Language Retrieval
作者: Weicai Yan / Ye Wang / Wang Lin / Zirun Guo / Zhou Zhao / Tao Jin
原文:   [英文]   [中文]  
备注: None
摘要:
多模态任务中的持续学习研究正受到越来越多的关注。然而,大多数现有工作忽视了显式的跨模态和跨任务交互。在本文中,我们创新性地提出了低秩提示交互(LPI),以解决多模态理解中的这一普遍问题,该方法同时考虑了跨模态和跨任务的交互。具体来说,对于前者,我们在相应的Transformer层中采用多模态相关模块。考虑到训练参数的规模与层数和任务数相关,我们提出了低秩交互增强分解,以避免内存爆炸,同时通过共享和分离通用特定的低秩因子来增强跨模态关联。此外,由于低秩初始化所携带的多模态语义差异,我们采用分层低秩对比学习以确保训练的鲁棒性。对于后者,我们最初进行视觉分析并识别出不同任务在接近度上有明显区别。因此,我们在提示学习过程中基于任务语义距离引入了显式任务对比约束。在两个检索任务上的实验表明,引入极少量参数后性能有所提升,证明了我们方法的有效性。代码可在此https URL获取。

[54] CVOCSemRPL:基于类方差优化聚类、语义信息注入和限制伪标签的改进半监督少样本学习
标题: CVOCSemRPL: Class-Variance Optimized Clustering, Semantic Information Injection and Restricted Pseudo Labeling based Improved Semi-Supervised Few-Shot Learning
作者: Rhythm Baghel / Souvik Maji / Pratik Mazumder
原文:   [英文]   [中文]  
备注: None
摘要:
小样本学习已经被广泛研究,以解决某些类别的标记样本数量非常有限的问题。在半监督小样本学习环境中,可以获得大量未标记样本。这些未标记样本通常更容易获取,并且可以用于提高模型的小样本学习性能。在这种环境下,一些最新的方法依赖于聚类来为未标记样本生成伪标签。由于模型学习到的表示质量会严重影响聚类的有效性,这可能也会导致未标记样本的错误标记,从而导致小样本学习性能下降。我们提出了一种用于半监督小样本学习的方法,该方法执行类方差优化聚类,以提高在这种环境下对标记和未标记样本进行聚类的有效性。它还通过一种受限的伪标签方法优化基于聚类的伪标签过程,并进行语义信息注入,以提高模型的半监督小样本学习性能。我们的实验结果表明,我们提出的方法在基准数据集上显著优于最近的最新方法。

[55] 用于从现场观测中缩小和校正气象场的柯尔莫哥洛夫-阿诺德神经插值器
标题: Kolmogorov Arnold Neural Interpolator for Downscaling and Correcting Meteorological Fields from In-Situ Observations
作者: Zili Liu / Hao Chen / Lei Bai / Wenyuan Li / Zhengxia Zou / Zhenwei Shi
原文:   [英文]   [中文]  
备注: None
摘要:
由于多尺度、连续的大气特性与其离散的网格化表示之间的不匹配,导致系统性偏差,在站点位置获取准确的天气预报是一项关键挑战。以往的研究主要集中于对网格化气象数据的建模,本质上忽略了大气状态的非网格、连续特性,从而未能解决这些偏差。为了解决这个问题,我们提出了Kolmogorov Arnold神经插值器(KANI),这是一种新颖的框架,将气象场表示重新定义为从离散网格导出的连续神经函数。基于Kolmogorov Arnold定理,KANI捕捉了大气状态的固有连续性,并利用稀疏的现场观测系统地校正这些偏差。此外,KANI引入了一种创新的零样本降尺度能力,通过高分辨率地形纹理引导,而无需高分辨率气象场的监督。在美国大陆三个子区域的实验结果表明,KANI在温度方面实现了40.28%的精度提升,在风速方面实现了67.41%的精度提升,突显了其相较于传统插值方法的显著改进。这使得通过神经网络实现气象变量的连续神经表示,超越了传统基于网格的表示的局限性。

[56] Context-CrackNet:一种用于精确分割路面图像中微小裂缝的上下文感知框架
标题: Context-CrackNet: A Context-Aware Framework for Precise Segmentation of Tiny Cracks in Pavement images
作者: Blessing Agyei Kyem / Joshua Kofi Asamoah / Armstrong Aboah
原文:   [英文]   [中文]  
备注: None
摘要:
准确检测和分割路面病害,特别是微小裂缝,对于交通基础设施的早期干预和预防性维护至关重要。传统的人工检查方法劳动强度大且不一致,而现有的深度学习模型在细粒度分割和计算效率方面存在困难。为了解决这些挑战,本研究提出了Context-CrackNet,这是一种新颖的编码器-解码器架构,具有区域聚焦增强模块(RFEM)和上下文感知全局模块(CAGM)。这些创新分别增强了模型捕捉细粒度局部细节和全局上下文依赖性的能力。Context-CrackNet在十个公开可用的裂缝分割数据集上进行了严格评估,涵盖了多种路面病害场景。该模型在9个最先进的分割框架中表现出色,取得了优异的性能指标,如mIoU和Dice得分,同时保持了竞争力的推理效率。消融研究证实了RFEM和CAGM的互补作用,当两个模块集成时,mIoU和Dice得分显著提高。此外,模型在精度和计算效率之间的平衡突显了其在大规模路面监测系统中实时部署的潜力。

[57] 通过聚焦人体和关节区域优化人体姿态估计
标题: Optimizing Human Pose Estimation Through Focused Human and Joint Regions
作者: Yingying Jiao / Zhigang Wang / Zhenguang Liu / Shaojing Fan / Sifan Wu / Zheqi Wu / Zhuoyue Xu
原文:   [英文]   [中文]  
备注: None
摘要:
人体姿态估计催生了一系列新颖且引人注目的应用,包括动作识别、体育分析以及监控。然而,准确的视频姿态估计仍然是一个未解决的挑战。目前被忽视的一个方面是,现有方法从所有像素中学习运动线索,而不是专注于目标人体,这使得它们容易被背景变化或其他人的运动等不重要的信息误导和干扰。此外,尽管当前基于Transformer的姿态估计方法在全局建模方面表现出色,但它们在局部上下文感知和精确位置识别方面存在困难。在本文中,我们尝试从三个方面解决这些挑战:(1)我们提出了一种双层人体关键点掩码模块,进行由粗到细的视觉标记细化,逐步聚焦于目标人体和关键点,同时屏蔽不重要的图像区域。(2)我们进一步引入了一种新颖的可变形交叉注意机制和双向分离策略,以自适应地从受限的周围上下文中聚合空间和时间运动线索。(3)我们在数学上对可变形交叉注意进行公式化,限制模型仅关注以目标人体为中心的区域。实验证明,我们的方法在三个大规模基准数据集上达到了最先进的性能。一个显著的亮点是,我们的方法在具有挑战性的手腕关节上实现了84.8的平均精度(mAP),显著优于当前最先进方法在PoseTrack2017数据集上实现的81.5 mAP。

[58] 三路径增强神经架构搜索用于多模态假新闻检测
标题: Triple Path Enhanced Neural Architecture Search for Multimodal Fake News Detection
作者: Bo Xu / Qiujie Xie / Jiahui Zhou / Linlin Zong
原文:   [英文]   [中文]  
备注: This paper has been accepted into the IEEE International Conference on Acoustics, Speech, and Signal Processing(ICASSP 2024)
摘要:
多模态假新闻检测已成为社交媒体平台上最关键的问题之一。尽管现有方法已取得先进的性能,但仍存在两个主要挑战:(1)由于模型架构的固化,多模态新闻信息融合表现不佳,以及(2)在包含部分模态的假新闻上的泛化能力较弱。为应对这些挑战,我们提出了一种新颖且灵活的三路径增强神经架构搜索模型MUSE。MUSE包括两个用于检测包含部分模态假新闻的动态路径和一个用于挖掘潜在多模态关联的静态路径。实验结果表明,MUSE在基准测试中实现了稳定的性能提升。

[59] BILLNET:一种具有逻辑门控残差架构的二值化Conv3D-LSTM网络,用于硬件高效的视频推理
标题: BILLNET: A Binarized Conv3D-LSTM Network with Logic-gated residual architecture for hardware-efficient video inference
作者: Van Thien Nguyen / William Guicquero / Gilles Sicard
原文:   [英文]   [中文]  
备注: Published at IEEE SiPS 2022
摘要:
长短期记忆(LSTM)和三维卷积(Conv3D)在许多基于视频的应用中表现出色,但需要大量内存和密集计算。受近期在硬件算法协同设计以实现高效推理的工作启发,我们提出了一种紧凑的二值化Conv3D-LSTM模型架构,称为BILLNET,该架构与资源极为有限的硬件兼容。首先,BILLNET建议通过两个逐点卷积和中间的分组卷积来分解代价高昂的标准Conv3D。其次,BILLNET通过MUX-OR门控残差架构实现了二值化的权重和激活。最后,为了高效地训练BILLNET,我们提出了一种多阶段训练策略,使LSTM层能够完全量化。在Jester数据集上的结果表明,与现有的Conv3D资源高效模型相比,我们的方法可以在极低的内存和计算预算下获得高精度。

[60] Deep-BrownConrady:使用深度学习和合成数据预测相机校准和畸变参数
标题: Deep-BrownConrady: Prediction of Camera Calibration and Distortion Parameters Using Deep Learning and Synthetic Data
作者: Faiz Muhammad Chaudhry / Jarno Ralli / Jerome Leudet / Fahad Sohrab / Farhad Pakdaman / Pierre Corbani / Moncef Gabbouj
原文:   [英文]   [中文]  
备注: None
摘要:
本研究通过深度学习模型解决了从单张图像进行相机校准和畸变参数预测的挑战。本文的主要贡献包括:(1) 证明了一个在真实和合成图像混合数据上训练的深度学习模型可以准确地从单张图像中预测相机和镜头参数;(2) 使用AILiveSim仿真平台开发了一个全面的合成数据集。该数据集包含焦距和镜头畸变参数的变化,为模型训练和测试提供了坚实的基础。训练过程主要依赖于这些合成图像,并辅以一小部分真实图像,以探索在合成数据上训练的模型在真实世界图像上执行校准任务的能力。传统的校准方法需要从多个方向拍摄校准物体的多张图像,而由于公开可用数据集中缺乏此类图像,这通常不可行。基于ResNet架构的深度学习网络在此合成数据集上进行了训练,以根据Brown-Conrady镜头模型预测相机校准参数。经过调整以适应回归任务的ResNet架构能够预测连续值,这对于在自动驾驶、机器人技术和增强现实等应用中实现精确的相机校准至关重要。 关键词:相机校准,畸变,合成数据,深度学习,残差网络(ResNet),AILiveSim,水平视场,主点,Brown-Conrady模型。

[61] PARASIDE:一种用于MRI的自动鼻窦分割和结构分析工具
标题: PARASIDE: An Automatic Paranasal Sinus Segmentation and Structure Analysis Tool for MRI
作者: Hendrik Möller / Lukas Krautschick / Matan Atad / Robert Graf / Chia-Jung Busch / Achim Beule / Christian Scharf / Lars Kaderali / Bjoern Menze / Daniel Rueckert / Jan Kirschke / Fabian Schwitzing
原文:   [英文]   [中文]  
备注: None
摘要:
慢性鼻窦炎(CRS)是一种常见且持久的鼻窦炎症,影响着5%到12%的普通人群。它显著影响生活质量,并且由于其在临床评估中的主观性,常常难以评估。我们介绍了PARASIDE,这是一种用于在T1 MRI中分割上颌窦、额窦、蝶窦和筛窦结构的空气和软组织体积的自动工具。通过利用这种分割,我们可以量化之前仅通过手动和主观观察到的特征关系。我们进行了一项示范性研究,展示了结构与放射学报告之间的体积和强度关系。虽然软组织分割效果良好,但空气体积的自动注释非常出色。空气结构的平均强度始终低于软组织,接近完美的可分离性。健康个体表现出较低的软组织体积和较低的强度。我们开发的系统是第一个针对16个结构的全鼻自动分割系统,能够计算医学相关特征,如Lund-Mackay评分。

[62] 通过利用稳定扩散2.*中的U-Net跳跃连接实现无训练的风格和内容迁移
标题: Training-Free Style and Content Transfer by Leveraging U-Net Skip Connections in Stable Diffusion 2.*
作者: Ludovica Schaerf / Andrea Alfarano / Fabrizio Silvestri / Leonardo Impett
原文:   [英文]   [中文]  
备注: None
摘要:
尽管扩散模型在图像生成方面取得了显著的进展,但其内部潜在表示仍然理解不足。现有的研究主要集中在Stable Diffusion的U-Net的瓶颈层(h-space),或利用交叉注意力、自注意力或解码层。我们的模型SkipInject利用了U-Net的跳跃连接。我们对跳跃连接的作用进行了深入分析,发现第三个编码器块传递的残差连接携带了重建图像的大部分空间信息,将内容与风格分离。我们展示了从这个块注入表示可以用于基于文本的编辑、精确修改和风格迁移。我们将我们的方法与最先进的风格迁移和图像编辑方法进行了比较,证明我们的方法在内容对齐和结构保留的最佳权衡方面取得了最佳效果。

[63] CheapNVS:实时设备上的窄基线新视图合成
标题: CheapNVS: Real-Time On-Device Narrow-Baseline Novel View Synthesis
作者: Konstantinos Georgiadis / Mehmet Kerim Yucel / Albert Saa-Garriga
原文:   [英文]   [中文]  
备注: Accepted to ICASSP 2025
摘要:
单视图新视图合成(NVS)由于其病态性质而被认为是一个著名的难题,通常需要大型且计算成本高的方法来产生实际结果。在本文中,我们提出了CheapNVS:一种完全端到端的窄基线单视图NVS方法,该方法基于一种新颖且高效的多编码器/解码器设计,并通过多阶段方式进行训练。CheapNVS首先使用轻量级的可学习模块来近似繁琐的3D图像变形,这些模块依赖于目标视图的相机姿态嵌入,然后对遮挡区域进行并行修复,以实现显著的性能提升。在Open Images数据集的一个子集上进行训练后,CheapNVS尽管速度快10倍且内存消耗减少6%,但仍优于最先进的方法。此外,CheapNVS在移动设备上可以流畅地实时运行,在三星Tab 9+上达到超过30帧每秒。

[64] Trick-GS:高效高斯散点的平衡技巧集
标题: Trick-GS: A Balanced Bag of Tricks for Efficient Gaussian Splatting
作者: Anil Armagan / Albert Saà-Garriga / Bruno Manganelli / Mateusz Nowak / Mehmet Kerim Yucel
原文:   [英文]   [中文]  
备注: Accepted at ICASSP'25
摘要:
高斯散点(GS)用于3D重建因其快速的训练和推理速度以及高质量的重建效果而变得相当流行。然而,基于GS的重建通常由数百万个高斯组成,这使得它们在计算能力受限的设备(如智能手机)上难以使用。在本文中,我们首先对高效GS方法的进展进行了系统分析。然后,我们提出了Trick-GS,这是一种精心组合的策略,包括:(1) 逐步训练分辨率、噪声和高斯尺度,(2) 学习根据重要性修剪和屏蔽基元和SH频带,以及(3) 加速的GS训练框架。Trick-GS在资源受限的GS方面迈出了重要一步,其中更快的运行时间、更小的模型和更快的收敛速度是至关重要的。我们在三个数据集上的结果表明,Trick-GS在训练速度上比普通GS快2倍,磁盘大小减少40倍,渲染速度提高2倍,同时保持了相当的准确性。

[65] 通过共享结构重新思考编码器-解码器流
标题: Rethinking Encoder-Decoder Flow Through Shared Structures
作者: Frederik Laboyrie / Mehmet Kerim Yucel / Albert Saa-Garriga
原文:   [英文]   [中文]  
备注: None
摘要:
密集预测任务的编码器架构复杂性日益增加,而解码器却基本保持不变。解码器依赖于单个模块顺序解码中间特征图。我们引入了“银行”这一共享结构,每个解码模块在解码过程中使用它来提供额外的上下文信息。通过重采样和特征融合应用这些结构,在自然和合成图像的大规模数据集上训练时,它们提高了基于最新变压器架构的深度估计性能。

[66] 利用ChatGPT的多模态视觉能力按贫困水平对卫星图像进行排序:推进社会科学研究工具
标题: Leveraging ChatGPT's Multimodal Vision Capabilities to Rank Satellite Images by Poverty Level: Advancing Tools for Social Science Research
作者: Hamid Sarmadi / Ola Hall / Thorsteinn Rögnvaldsson / Mattias Ohlsson
原文:   [英文]   [中文]  
备注: None
摘要:
本文研究了具有视觉能力的大型语言模型(LLMs)在分析卫星图像以进行村级贫困预测方面的新应用。尽管LLMs最初是为自然语言理解而设计的,但它们在多模态任务(包括地理空间分析)中的适应性为数据驱动研究开辟了新领域。通过利用具有视觉功能的LLMs的进步,我们评估了它们从卫星图像中提供可解释、可扩展和可靠的人类贫困洞察的能力。使用成对比较的方法,我们证明了ChatGPT可以以与领域专家相当的准确性根据贫困水平对卫星图像进行排序。这些发现突显了LLMs在社会经济研究中的潜力和局限性,为其整合到贫困评估工作流程中提供了基础。本研究为探索非常规数据源进行福利分析做出了贡献,并为成本效益高的大规模贫困监测开辟了途径。

[67] 大规模和细粒度的视觉语言预训练以增强CT图像理解
标题: Large-scale and Fine-grained Vision-language Pre-training for Enhanced CT Image Understanding
作者: Zhongyi Shui / Jianpeng Zhang / Weiwei Cao / Sinuo Wang / Ruizhe Guo / Le Lu / Lin Yang / Xianghua Ye / Tingbo Liang / Qi Zhang / Ling Zhang
原文:   [英文]   [中文]  
备注: Accepted by ICLR 2025
摘要:
人工智能(AI)在帮助放射科医生提高医学图像解读和诊断的效率和准确性方面显示出巨大潜力。然而,一个多功能的AI模型需要大规模的数据和全面的注释,这在医疗环境中往往是不切实际的。最近的研究利用放射学报告作为医学图像的自然高质量监督,使用对比语言-图像预训练(CLIP)来开发用于放射学图像解读的语言知晓模型。然而,这些方法通常将整个图像与报告进行对比,忽略了成像区域与报告句子之间的局部关联,这可能会削弱模型的性能和互操作性。在本文中,我们提出了一种用于解剖级CT图像解读的细粒度视觉语言模型(fVLM)。具体来说,我们明确地将CT图像的解剖区域与放射学报告中的相应描述进行匹配,并对每个解剖部位单独进行对比预训练。然而,细粒度对齐面临着相当大的假阴性挑战,主要来自于解剖级健康样本和相似病变异常的丰富性。为了解决这个问题,我们提出识别正常和异常样本的假阴性,并从患者级到疾病感知配对校准对比学习。我们策划了迄今为止最大的CT数据集,包括来自69,086名患者的成像和报告数据,并对15个主要解剖部位的54个主要和重要疾病诊断任务进行了全面评估。实验结果表明,fVLM在多功能医学图像解读中具有巨大的潜力。在零样本分类任务中,我们在54个诊断任务中实现了平均AUC为81.3%,分别超过CLIP和监督方法12.9%和8.0%。

[68] 通过语义结构在自主光伏电站检查中的视觉定位
标题: Visual Localization via Semantic Structures in Autonomous Photovoltaic Power Plant Inspection
作者: Viktor Kozák / Karel Košnar / Jan Chudoba / Miroslav Kulich / Libor Přeučil
原文:   [英文]   [中文]  
备注: 47 pages, 22 figures
摘要:
利用配备热成像相机的无人机(UAV)的检测系统在光伏(PV)电站的维护中越来越受欢迎。然而,检测任务的自动化是一个具有挑战性的问题,因为它需要精确的导航以从最佳距离和视角捕捉图像。本文提出了一种新颖的定位流程,将光伏模块检测直接与无人机导航相结合,从而在检测过程中实现精确定位。检测结果用于识别图像中的电站结构,并将其与电站模型关联。我们定义了视觉上可识别的锚点用于初始关联,并使用目标跟踪来识别全局关联。我们提出了三种基于传统计算机视觉、深度学习及其融合的光伏模块视觉分割方法,并评估了它们在所提定位流程中的性能。所提出的方法通过定制的空中检测数据集进行了验证和评估,展示了其在实时导航中的稳健性和适用性。此外,我们还评估了电站模型精度对定位方法的影响。

[69] 几何平均提升了小样本学习的损失表现
标题: Geometric Mean Improves Loss For Few-Shot Learning
作者: Tong Wu / Takumi Kobayashi
原文:   [英文]   [中文]  
备注: None
摘要:
小样本学习(FSL)是机器学习中的一项具有挑战性的任务,要求模型仅使用少量标记样本进行判别分类。在FSL的文献中,深度模型以度量学习的方式进行训练,以在特征空间中提供度量,该空间能够很好地泛化以对新类别的样本进行分类;在这个空间中,即使只有少量的标记训练样本也可以构建一个有效的分类器。在本文中,我们提出了一种基于几何平均的新颖FSL损失,以将判别度量嵌入到深度特征中。与其他损失(如在基于softmax的公式中使用算术平均)相比,所提出的方法利用几何平均来聚合样本之间的成对关系,以增强跨类别的判别度量。所提出的损失不仅形式简单,而且在理论上进行了全面分析,以揭示其有利于FSL中学习特征度量的优良特性。在小样本图像分类任务的实验中,该方法与其他损失相比表现出竞争力。

[70] 3DLabelProp:用于自动驾驶中激光雷达语义分割的几何驱动域泛化
标题: 3DLabelProp: Geometric-Driven Domain Generalization for LiDAR Semantic Segmentation in Autonomous Driving
作者: Jules Sanchez / Jean-Emmanuel Deschaud / François Goulette
原文:   [英文]   [中文]  
备注: None
摘要:
领域泛化旨在寻找方法,使深度学习模型在训练和推理数据集之间存在显著领域转移的情况下仍能保持其性能。这对于需要具有鲁棒性或训练成本高昂的模型尤为重要。自动驾驶中的LiDAR感知受到这两个问题的影响,导致各种方法的出现。本文通过提出一种基于几何的方法来应对这一挑战,该方法利用了LiDAR传感器的序列结构,这使其有别于文献中常见的基于学习的方法。所提出的方法称为3DLabelProp,应用于LiDAR语义分割(LSS)任务。通过对七个数据集的广泛实验,证明该方法是一种最先进的方法,优于简单和其他领域泛化方法。

[71] ReferDINO:基于视觉定位基础的指代视频对象分割
标题: ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations
作者: Tianming Liang / Kun-Yu Lin / Chaolei Tan / Jianguo Zhang / Wei-Shi Zheng / Jian-Fang Hu
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
指代视频对象分割(RVOS)旨在根据文本描述对视频中的目标对象进行分割。尽管近年来取得了显著进展,但当前的RVOS模型在处理复杂的对象描述时仍然存在困难,这是由于其有限的视频语言理解能力。为了解决这一限制,我们提出了\textbf{ReferDINO},这是一种端到端的RVOS模型,它继承了预训练视觉定位基础模型的强大视觉语言理解能力,并进一步具备有效的时间理解和对象分割能力。在ReferDINO中,我们贡献了三项技术创新,以有效地将基础模型适应于RVOS:1)一个对象一致的时间增强器,利用预训练的对象-文本表示来增强时间理解和对象一致性;2)一个基于定位引导的可变形掩码解码器,整合文本和定位条件以生成准确的对象掩码;3)一种基于置信度的查询剪枝策略,在不影响性能的情况下显著提高对象解码效率。我们在五个公共RVOS基准上进行了广泛的实验,证明我们提出的ReferDINO显著优于最先进的方法。项目页面:\url{this https URL}

[72] SyncAnimation:一种用于音频驱动的人体姿态和说话头部动画的实时端到端框架
标题: SyncAnimation: A Real-Time End-to-End Framework for Audio-Driven Human Pose and Talking Head Animation
作者: Yujian Liu / Shidang Xu / Jing Guo / Dingbin Wang / Zairan Wang / Xianfeng Tan / Xiaoli Liu
原文:   [英文]  
备注: 11 pages, 7 figures
摘要:
生成由音频驱动的会说话的虚拟形象仍然是一个重大挑战。现有的方法通常需要高计算成本,并且往往缺乏足够的面部细节和真实感,使其不适合需要高实时性能和视觉质量的应用。此外,尽管一些方法可以同步唇部运动,但在面部表情和上半身运动的一致性上仍然存在问题,特别是在静默期间。在本文中,我们介绍了SyncAnimation,这是第一个基于NeRF的方法,通过结合广义的音频到姿势匹配和音频到表情同步,实现了由音频驱动的、稳定的、实时的会说话虚拟形象生成。通过集成AudioPose Syncer和AudioEmotion Syncer,SyncAnimation实现了高精度的姿势和表情生成,逐步生成音频同步的上半身、头部和唇部形状。此外,高同步人类渲染器确保了头部和上半身的无缝集成,并实现了音频同步的唇部。项目页面可以在这个https URL找到。

[73] 走向统一的结构光优化
标题: Towards Unified Structured Light Optimization
作者: Tinglei Wan / Tonghua Su / Zhongjie Wang
原文:   [英文]   [中文]  
备注: None
摘要:
结构光(SL)三维重建能够捕捉物体的精确表面形状,提供工业检测和机器人视觉系统所需的高精度三维数据。然而,目前在SL三维重建中优化投影模式的研究面临两个主要限制:每个场景需要单独训练校准参数,并且优化仅限于特定类型的SL,这限制了其应用范围。为了解决这些限制,我们提出了一个统一的SL优化框架,该框架可适应多种光照条件、物体类型和不同类型的SL。我们的框架仅需使用一张投影图像即可快速确定最佳投影模式。主要贡献包括一种新颖的投影仪全局匹配方法,使得仅通过一张投影图像即可实现精确的投影仪-相机对齐,以及一种新的投影补偿模型,配备光度调整模块以减少超出色域剪裁带来的伪影。实验结果表明,我们的方法在各种物体、SL模式和光照条件下实现了卓越的解码精度,显著优于以往的方法。

[74] MatAnyone:具有一致记忆传播的稳定视频抠图
标题: MatAnyone: Stable Video Matting with Consistent Memory Propagation
作者: Peiqing Yang / Shangchen Zhou / Jixin Zhao / Qingyi Tao / Chen Change Loy
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
无辅助的人体视频抠图方法仅依赖输入帧,通常在处理复杂或模糊背景时表现不佳。为了解决这个问题,我们提出了MatAnyone,一个为目标指定视频抠图量身定制的强大框架。具体来说,基于记忆范式,我们通过区域自适应记忆融合引入了一种一致的记忆传播模块,该模块自适应地整合来自前一帧的记忆。这确保了核心区域的语义稳定性,同时保留了物体边界的细粒度细节。为了实现稳健的训练,我们提供了一个更大、更高质量和多样化的视频抠图数据集。此外,我们引入了一种新颖的训练策略,能够有效利用大规模分割数据,提升抠图的稳定性。通过这种新的网络设计、数据集和训练策略,MatAnyone在各种真实场景中提供了稳健且准确的视频抠图结果,优于现有方法。

[75] 表面视觉曼巴:利用双向状态空间模型实现高效球面流形表示
标题: Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation
作者: Rongzhao He / Weihao Zheng
原文:   [英文]  
备注: None
摘要:
基于注意力的方法在球形皮层表面上建模长程依赖性方面表现出色,超越了传统的几何深度学习(GDL)模型。然而,其较长的推理时间和高内存需求对在计算资源有限的大型数据集上的应用构成了挑战。受计算机视觉中状态空间模型的启发,我们将无注意力的Vision Mamba(Vim)引入球形表面,提出了一种与领域无关的架构,用于分析球面流形上的数据。我们的方法通过将球面数据表示为从细分的二十面体中导出的三角形补丁序列来实现表面补丁。所提出的Surface Vision Mamba(SiM)在使用新生儿大脑皮层表面指标的多种神经发育表型回归任务中进行了评估。实验结果表明,SiM优于基于注意力和GDL的方法,在Ico-4网格分区下,其推理速度快4.8倍,内存消耗比Surface Vision Transformer(SiT)低91.7%。敏感性分析进一步强调了SiM识别细微认知发育模式的潜力。代码可在此https URL获取。

[76] 面向医疗应用的计算机视觉系统设计方法:数据、架构与人工智能
标题: Approach to Designing CV Systems for Medical Applications: Data, Architecture and AI
作者: Dmitry Ryabtsev / Boris Vasilyev / Sergey Shershakov
原文:   [英文]   [中文]  
备注: 9 pages, 3 figures
摘要:
本文介绍了一种创新的软件系统用于眼底图像分析,该系统有意偏离传统的筛查方法,不预测具体的诊断。相反,我们的方法通过全面分析眼底结构的正常和病理特征来模拟诊断过程,将最终决策权交给医疗专业人员。我们的倡议解决了客观临床分析的需求,并旨在自动化和增强眼底图像检查的临床工作流程。该系统从其总体架构到由人工智能(AI)模型驱动的模块化分析设计,都与眼科实践完美契合。我们独特的方法结合了最先进的深度学习方法和传统的计算机视觉算法,以提供对眼底结构的全面和细致的分析。我们提出了一种设计医疗应用的独特方法,并以我们的系统作为示例进行说明。全面的验证和确认结果证明了我们的方法在革新眼底图像分析方面的有效性,并在各个医学领域具有潜在应用。

[77] 可重光全身高斯编解码器化身
标题: Relightable Full-Body Gaussian Codec Avatars
作者: Shaofei Wang / Tomas Simon / Igor Santesteban / Timur Bagautdinov / Junxuan Li / Vasu Agrawal / Fabian Prada / Shoou-I Yu / Pace Nalbone / Matt Gramlich / Roman Lubachersky / Chenglei Wu / Javier Romero / Jason Saragih / Michael Zollhoefer / Andreas Geiger / Siyu Tang / Shunsuke Saito
原文:   [英文]   [中文]  
备注: 14 pages, 9 figures. Project page: this https URL
摘要:
我们提出了一种新的方法,称为可重光全身高斯编码化身,用于建模具有精细细节(包括面部和手部)的可重光全身化身。重光全身化身的独特挑战在于身体关节引起的大变形以及光传输对外观的影响。身体姿势的变化会显著改变身体表面相对于光源的方向,导致由于局部光传输函数变化引起的局部外观变化,以及由于身体部位之间遮挡引起的非局部变化。为了解决这个问题,我们将光传输分解为局部和非局部效应。局部外观变化使用可学习的区域谐波来建模漫射辐射传输。与球谐波不同,区域谐波在关节运动下旋转非常高效。这使我们能够在局部坐标系中学习漫射辐射传输,从而将局部辐射传输与身体的关节运动解耦。为了考虑非局部外观变化,我们引入了一个阴影网络,该网络在基础网格上给定预计算的入射辐照度后预测阴影。这有助于学习身体部位之间的非局部遮挡。最后,我们使用延迟着色方法来建模镜面辐射传输,更好地捕捉反射和高光,如眼睛闪光。我们证明了我们的方法成功地建模了可重光全身化身所需的局部和非局部光传输,在新颖的光照条件和未见过的姿势下具有优越的泛化能力。

[78] HERMES:用于同时进行3D场景理解和生成的统一自动驾驶世界模型
标题: HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation
作者: Xin Zhou / Dingkang Liang / Sifan Tu / Xiwu Chen / Yikang Ding / Dingyuan Zhang / Feiyang Tan / Hengshuang Zhao / Xiang Bai
原文:   [英文]   [中文]  
备注: Work in progress. The code will be available at this https URL
摘要:
驾驶世界模型(DWMs)通过实现未来场景预测,已成为自动驾驶的关键。然而,现有的DWMs仅限于场景生成,未能融入场景理解,这涉及对驾驶环境的解释和推理。在本文中,我们提出了一种统一的驾驶世界模型,名为HERMES。我们在驾驶场景中通过一个统一的框架无缝整合了3D场景理解和未来场景演化(生成)。具体而言,HERMES利用鸟瞰图(BEV)表示来整合多视角空间信息,同时保留几何关系和交互。我们还引入了世界查询,通过大型语言模型(LLM)中的因果注意力将世界知识融入BEV特征,从而实现对理解和生成任务的上下文丰富。我们在nuScenes和OmniDrive-nuScenes数据集上进行了全面研究,以验证我们方法的有效性。HERMES实现了最先进的性能,将生成误差减少了32.4%,并将理解指标如CIDEr提高了8.0%。模型和代码将在此https URL公开发布。