scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.LG方向,2024年9月26日更新论文47
[1] GenCAD:基于图像条件的计算机辅助设计生成,采用基于Transformer的对比表示和扩散先验
标题: GenCAD: Image-Conditioned Computer-Aided Design Generation with Transformer-Based Contrastive Representation and Diffusion Priors
作者: Md Ferdous Alam / Faez Ahmed
原文:   [英文]  
备注: 24 pages, 13 figures
摘要:
通过计算机辅助设计(CAD)创建可制造和可编辑的3D形状仍然是一个高度手动且耗时的任务,这受到3D实体边界表示的复杂拓扑结构和不直观的设计工具的阻碍。本文介绍了GenCAD,这是一种生成模型,采用自回归变压器和潜在扩散模型,将图像输入转换为参数化的CAD命令序列,从而生成可编辑的3D形状表示。GenCAD结合了基于自回归变压器的架构和对比学习框架,增强了从输入图像生成CAD程序的能力,并为与工程设计相关的多种数据模态提供了表示学习框架。广泛的评估表明,GenCAD在生成3D形状的精度和可修改性方面显著优于现有的最先进方法。值得注意的是,GenCAD在长序列3D形状生成的准确性方面表现出显著改进,支持其在复杂设计任务中的应用。此外,GenCAD的对比嵌入特性有助于使用图像查询从数据库中检索CAD模型,这是CAD社区内的一个关键挑战。尽管3D形状生成文献中的大多数工作集中在网格、体素或点云等表示上,实际的工程应用需要可修改性和多模态条件生成的能力。我们的结果在这一方向上提供了重要的进展,突显了生成模型在加速整个设计到生产流程并无缝集成不同设计模态方面的潜力。

[2] 在计算预算下高效训练自监督语音基础模型
标题: Efficient Training of Self-Supervised Speech Foundation Models on a Compute Budget
作者: Andy T. Liu / Yi-Cheng Lin / Haibin Wu / Stefan Winkler / Hung-yi Lee
原文:   [英文]   [中文]  
备注: To appear in SLT 2024
摘要:
尽管基础模型在训练中取得了显著成功,但其计算成本依然很高。本文研究了如何在有限的计算预算下,通过自监督学习(SSL)高效地训练语音基础模型。我们考察了SSL中影响预算的关键因素,包括模型架构、模型大小和数据大小。我们的目标是通过分析步骤来理解语音基础模型的训练动态。我们在完全可比的环境中对SSL目标进行了基准测试,发现其他因素对SSL的成功贡献更大。我们的结果显示,在相同的计算和参数预算下,较瘦的模型架构优于常见的小型架构。我们证明了即使在SSL训练期间进行数据增强,预训练数据的大小仍然至关重要,因为在有限数据上迭代时性能会下降。最后,我们确定了模型大小和数据大小之间的权衡,突出了在给定计算预算下的最佳模型大小。

[3] 语音表示模型中Transformer堆栈的冗余性有多大?
标题: How Redundant Is the Transformer Stack in Speech Representation Models?
作者: Teresa Dorszewski / Albert Kjøller Jacobsen / Lenka Tětková / Lars Kai Hansen
原文:   [英文]  
备注: None
摘要:
自监督语音表示模型,特别是那些利用变压器架构的模型,在语音识别、说话人识别和情感检测等各种任务中表现出色。最近对变压器模型的研究揭示了层之间的高度冗余性和显著的剪枝潜力,我们将在此研究基于变压器的语音表示模型。我们使用三种相似性度量方法对语音表示模型中的层相似性进行了详细分析:余弦相似性、中心核对齐和互相最近邻对齐。我们的研究结果揭示了一个高相似性的块状结构,表明存在两个主要的处理步骤和显著的层冗余。我们展示了在不需要训练后处理的情况下,剪枝基于变压器的语音表示模型的有效性,实现了变压器层数最多减少40%,同时保持了模型超过95%的预测能力。此外,我们采用知识蒸馏方法,用模仿层替代整个变压器堆栈,将网络规模减少95-98%,推理时间减少最多94%。这种计算负载的显著减少没有带来显著的性能损失,表明变压器堆栈对于语音表示模型的下游应用几乎完全是冗余的。

[4] 基于随机Volterra级数的不确定非线性梁损伤检测:实验应用
标题: Damage detection in an uncertain nonlinear beam based on stochastic Volterra series: an experimental application
作者: Luis Gustavo Gioacon Villani / Samuel da Silva / Americo Cunha Jr / Michael D. Todd
原文:   [英文]   [中文]  
备注: None
摘要:
当在分析中考虑结构的内在非线性行为和自然数据变化时,损伤检测问题变得更加困难,因为如果采用线性和确定性方法,这两种现象都可能与损伤混淆。因此,本研究旨在实验应用随机版本的Volterra级数结合新颖的检测方法,在考虑由于不确定性存在而导致的测量数据变化的情况下,检测初始非线性系统中的损伤。实验装置由一个悬臂梁组成,即使在健康状态下,由于靠近自由端的磁铁的存在,也在非线性运动状态下运行。通过比较参考和损伤条件下总响应中随机Volterra核的线性和非线性贡献,检测与螺栓连接(螺母松动)中的质量变化相关的损伤。实验测量在不同的日子进行,以增加测量数据的自然变化。通过所提出的随机方法获得的结果与通过确定性版本的Volterra级数获得的结果进行比较,显示了在考虑实验数据变化时使用随机模型的优势,能够以统计置信度检测损伤的存在。此外,与线性度量相比,所使用的非线性度量对损伤的发生表现出更高的敏感性,证明了当系统表现出内在非线性行为时应用非线性度量的合理性。

[5] 乌尔都语关键词识别技术的文献综述
标题: A Literature Review of Keyword Spotting Technologies for Urdu
作者: Syed Muhammad Aqdas Rizvi
原文:   [英文]   [中文]  
备注: None
摘要:
这篇文献综述调查了关键词识别(KWS)技术的进展,特别关注巴基斯坦的低资源语言(LRL)——乌尔都语,该语言具有复杂的语音特征。尽管全球在语音技术方面取得了长足进步,乌尔都语却提出了独特的挑战,需要更为定制化的解决方案。综述追溯了从基础的高斯混合模型到复杂的神经架构(如深度神经网络和变压器)的演变过程,突出了诸如整合多任务学习和利用未标记数据的自监督方法等重要里程碑。它还探讨了新兴技术在多语言和资源受限环境中提升KWS系统性能的作用,强调了需要针对乌尔都语等语言进行创新。因此,这篇综述强调了需要进行特定语境的研究,以应对乌尔都语及类似低资源语言的固有复杂性,并探讨通过这些语言进行交流的地区的手段,以实现语音技术的更包容性方法。

[6] 利用Himawari-8卫星影像和深度学习模型开发泰国太阳辐照度地图
标题: Developing a Thailand solar irradiance map using Himawari-8 satellite imageries and deep learning models
作者: Suwichaya Suwanwimolkul / Natanon Tongamrak / Nuttamon Thungka / Naebboon Hoonchareon / Jitkomut Songsiri
原文:   [英文]   [中文]  
备注: 23 pages, 14 figures
摘要:
本文介绍了一个在线平台,每30分钟显示一次泰国的太阳辐照度地图。该平台可在https://www.cusolarforecast.com访问。估算泰国全球水平辐照度(GHI)的方法依赖于从Himawari-8卫星图像中提取的云指数、使用本地调优的Linke浊度的Ineichen晴空模型以及机器学习模型。这些方法将晴空辐照度、云指数、从MERRA-2数据库重新分析的GHI和温度数据以及日期时间作为GHI估算模型的输入,包括LightGBM、LSTM、Informer和Transformer。这些模型通过评估2022-2023年间来自53个地面站点的1.5年15分钟地面GHI数据,与SolCast服务的估算结果进行基准测试。结果显示,这四个模型具有竞争力的性能,并且优于SolCast服务。最佳模型是LightGBM,其MAE为78.58 W/平方米,RMSE为118.97 W/平方米。获取泰国的MERRA-2数据进行重新分析在经济上不可行。当去除这些特征时,Informer模型在MAE为78.67 W/平方米时表现最佳。所获得的性能与现有文献一致,考虑了气候区和数据的时间粒度。由于地图显示了93,000个网格上的GHI估算,并且频繁更新,本文还描述了显示整个地图的计算框架,并测试了深度学习模型在GHI估算过程中的运行性能。

[7] 从自发言语中检测阿尔茨海默病的类内变异
标题: Towards Within-Class Variation in Alzheimer's Disease Detection from Spontaneous Speech
作者: Jiawen Kang / Dongrui Han / Lingwei Meng / Jingyan Zhou / Jinchao Li / Xixin Wu / Helen Meng
原文:   [英文]   [中文]  
备注: None
摘要:
阿尔茨海默病(AD)检测已成为一个有前景的研究领域,该领域利用机器学习分类模型来区分患有AD的个体和未患AD的个体。与传统的分类任务不同,我们将类内变异识别为AD检测中的一个关键挑战:患有AD的个体表现出一系列认知障碍。鉴于许多AD检测任务缺乏细粒度标签,简单的二元分类可能会忽略两个关键方面:类内差异和实例级别的不平衡。前者迫使模型将具有不同程度障碍的AD样本映射到单一的诊断标签,忽视了某些认知功能的变化。而后者则使模型偏向于过度代表的严重程度水平。本文提出了应对这些挑战的早期努力。我们提出了两种新方法:软目标蒸馏(SoTD)和实例级重新平衡(InRe),分别针对两个问题。对ADReSS和ADReSSo数据集的实验表明,所提出的方法显著提高了检测准确性。进一步的分析表明,SoTD有效地利用了多个组件模型的优势,而InRe则大大缓解了模型的过拟合。这些发现为开发更健壮和可靠的AD检测模型提供了见解。

[8] 基于MRI影像组学的胶质母细胞瘤IDH基因型预测
标题: MRI Radiomics for IDH Genotype Prediction in Glioblastoma Diagnosis
作者: Stanislav Kozák
原文:   [英文]  
备注: 8 pages, 1 figure
摘要:
放射组学是一个相对较新的领域,它利用从放射扫描中自动识别的特征。它在肿瘤学中得到了广泛应用,因为许多重要的肿瘤学生物标志物肉眼不可见。最近大数据的出现,包括在医学影像中的应用,以及新机器学习技术的发展,使得更快、更准确的肿瘤诊断成为可能。此外,基于放射组学的标准化数学特征提取有助于消除可能的放射科医生偏见。本文回顾了MRI放射组学特征在肿瘤学中的最新发展,重点关注异柠檬酸脱氢酶(IDH)突变状态的识别,这是诊断胶质母细胞瘤和IV级星形细胞瘤的重要生物标志物。

[9] 使用大型语言模型预测距离矩阵
标题: Predicting Distance matrix with large language models
作者: Jiaxing Yang
原文:   [英文]   [中文]  
备注: None
摘要:
结构预测在RNA研究中一直被认为是至关重要的,特别是在AlphaFold2在蛋白质研究中取得成功之后,这引起了人们对该领域的极大关注。尽管最近在机器学习和数据积累方面的进展有效地解决了许多生物学任务,特别是在蛋白质相关研究中,但由于数据限制,RNA结构预测仍然是一个重大挑战。获取RNA结构数据是困难的,因为传统方法如核磁共振光谱、X射线晶体学和电子显微镜既昂贵又耗时。尽管已经提出了几种RNA三维结构预测方法,但它们的准确性仍然有限。在另一个层次上预测RNA结构信息,如距离图,仍然具有很高的价值。距离图提供了核苷酸之间空间约束的简化表示,捕捉到基本关系而不需要完整的三维模型。这种中间层次的结构信息可以指导更准确的三维建模,并且计算量较小,使其成为改进结构预测的有用工具。在这项工作中,我们展示了仅使用初级序列信息,通过利用一个大型预训练的RNA语言模型结合一个训练良好的下游变压器,我们可以准确推断出RNA碱基之间的距离。

[10] 质量至关重要:评估用于工具使用的大型语言模型的合成数据
标题: Quality Matters: Evaluating Synthetic Data for Tool-Using LLMs
作者: Shadi Iskander / Nachshon Cohen / Zohar Karnin / Ori Shapira / Sofia Tolmach
原文:   [英文]   [中文]  
备注: None
摘要:
训练大型语言模型(LLMs)以使用外部工具是一个快速扩展的领域,最近的研究集中在生成合成数据以解决可用数据短缺的问题。然而,缺乏系统的数据质量检查给模型的正确训练和测试带来了复杂性。为此,我们提出了两种评估用于训练LLMs使用外部工具的数据可靠性的方法。第一种方法使用直观的、由人定义的正确性标准。第二种方法使用基于模型的评估,并在上下文中进行评估。我们对两个流行的基准进行了全面的数据质量评估,随后进行了一次外在评估,展示了数据质量对模型性能的影响。我们的结果表明,即使在数据量较少的情况下,使用高质量数据训练的模型也优于使用未经验证数据训练的模型。这些发现从经验上支持了评估和确保用于工具使用的LLMs训练数据可靠性的重要性。

[11] 开发和应用哨兵-2卫星影像数据集用于深度学习驱动的森林火灾检测
标题: Development and Application of a Sentinel-2 Satellite Imagery Dataset for Deep-Learning Driven Forest Wildfire Detection
作者: Valeria Martin / K. Brent Venable / Derek Morgan
原文:   [英文]  
备注: None
摘要:
由于自然事件(如野火)导致的森林损失,已成为一个日益严重的全球性挑战,需要先进的分析方法来进行有效的检测和缓解。为此,将卫星影像与深度学习(DL)方法相结合变得至关重要。然而,这种方法需要大量标注数据才能产生准确的结果。在本研究中,我们使用来自Google Earth Engine(GEE)的双时相Sentinel-2卫星影像,构建了加利福尼亚野火地理成像数据集(CWGID),这是一个高分辨率的标注卫星影像数据集,包含超过10万对标注的森林野火前后影像对,用于通过DL进行野火检测。我们的方法包括从权威来源获取数据、数据处理以及使用三种预训练卷积神经网络(CNN)架构进行初步数据集分析。我们的结果显示,EF EfficientNet-B0模型在检测森林野火方面达到了超过92%的最高准确率。CWGID及其构建方法被证明是训练和测试用于森林野火检测的DL架构的宝贵资源。

[12] 基于补丁的对比学习和记忆巩固用于在线无监督持续学习
标题: Patch-Based Contrastive Learning and Memory Consolidation for Online Unsupervised Continual Learning
作者: Cameron Taylor / Vassilis Vassiliades / Constantine Dovrolis
原文:   [英文]  
备注: Published in Conference on Lifelong Learning Agents (COLLAS) 2024
摘要:
我们关注一个相对未被充分探索的学习范式,称为{\em 在线无监督持续学习} (O-UCL),在这种范式中,代理接收一个非平稳的、未标记的数据流,并逐步学习识别越来越多的类别。这个范式旨在模拟现实世界中的应用场景,在这些场景中,遇到新奇事物是常态,例如探索一个包含多个未知且随时间变化的实体的地形。与之前在无监督、持续或在线学习中的工作不同,O-UCL将这三个领域结合成一个具有挑战性且现实的学习范式。在这种设置中,代理会被频繁评估,并且必须在数据流的任何时刻都尽可能保持最佳表示,而不是在预先指定的离线任务结束时。所提出的方法称为\textbf{基于补丁的对比学习和记忆巩固} (PCMC),通过识别和聚类补丁级特征来构建数据的组合理解。这些补丁级特征的嵌入通过一个通过基于补丁的对比学习训练的编码器提取。PCMC在避免灾难性遗忘的同时,将新数据纳入其分布,并在“睡眠”期间巩固记忆示例。我们在由ImageNet和Places365数据集创建的数据流上评估了PCMC的性能。此外,我们探索了PCMC算法的各种版本,并将其性能与几种现有方法和简单基线进行了比较。

[13] 现代霍普菲尔德网络遇上编码神经表示——解决实际问题
标题: Modern Hopfield Networks meet Encoded Neural Representations -- Addressing Practical Considerations
作者: Satyananda Kashyap / Niharika S. D'Souza / Luyao Shi / Ken C. L. Wong / Hongzhi Wang / Tanveer Syeda-Mahmood
原文:   [英文]   [中文]  
备注: 17 pages, 8 figures, workshop submission to Neurips
摘要:
内容可寻址存储器,如现代Hopfield网络(MHN),已被研究作为人类陈述性记忆中自联想和存储/检索的数学模型,但其在大规模内容存储中的实际应用面临挑战。主要问题是亚稳态的出现,特别是在处理大量高维内容时。本文介绍了Hopfield编码网络(HEN),这是一个将编码的神经表示集成到MHN中的框架,以提高模式的可分性并减少亚稳态。我们展示了HEN还可以用于图像与自然语言查询的异质联想检索,从而消除了在同一领域中需要访问部分内容的限制。实验结果表明,HEN显著减少了亚稳态并增加了存储容量,同时仍能完美回忆大量输入,提升了联想记忆网络在实际任务中的实用性。

[14] 利用局部结构提升模型解释:一种信息传播方法
标题: Leveraging Local Structure for Improving Model Explanations: An Information Propagation Approach
作者: Ruo Yang / Binghui Wang / Mustafa Bilgic
原文:   [英文]   [中文]  
备注: None
摘要:
最近开发了许多解释方法来解释深度神经网络(DNN)模型所做的决策。对于图像分类器,这些方法通常为图像中的每个像素提供一个归因分数,以量化其对预测的贡献。然而,大多数这些解释方法独立地为像素分配归因分数,尽管人类和DNN都是通过同时分析一组密切相关的像素来做出决策的。因此,像素的归因分数应该通过考虑其自身及其结构相似的像素来共同评估。我们提出了一种称为IProp的方法,该方法将每个像素的个体归因分数建模为解释信息的来源,并通过所有像素之间的信息动态传播来解释图像预测。为了制定信息传播,IProp采用了马尔可夫奖励过程,保证了收敛性,最终状态表示所需像素的归因分数。此外,IProp与任何现有的基于归因的解释方法兼容。在各种解释方法和DNN模型上的大量实验验证了IProp在多种可解释性指标上显著改进了它们。

[15] 从参数高效迁移学习(PETL)在视觉识别中的统一实证研究中汲取的经验教训
标题: Lessons Learned from a Unifying Empirical Study of Parameter-Efficient Transfer Learning (PETL) in Visual Recognition
作者: Zheda Mai / Ping Zhang / Cheng-Hao Tu / Hong-You Chen / Li Zhang / Wei-Lun Chao
原文:   [英文]   [中文]  
备注: Code is available at https://github.com/OSU-MLB/PETL_Vision
摘要:
参数高效的迁移学习(PETL)由于预训练模型规模的不断增加以及需要对其进行微调(FT)以获得更好的下游性能,最近引起了广泛关注。这种社区范围内的热情引发了大量新方法的出现。然而,缺乏系统的研究来理解它们的性能和适用场景,导致何时应用PETL以及使用哪种方法等问题大多未得到解答。在本文中,我们在视觉变换器的背景下对代表性的PETL方法进行了统一的实证研究。我们系统地调整了它们的超参数,以公平地比较它们在下游任务中的准确性。我们的研究不仅提供了有价值的用户指南,还揭示了几个新的见解。首先,如果仔细调整,不同的PETL方法在低样本基准VTAB-1K中可以获得相当相似的准确性。这包括一些被认为较差的简单方法,如微调偏置项。其次,尽管准确性相似,我们发现PETL方法会犯不同的错误并做出高置信度的预测,这可能是由于它们不同的归纳偏差。这种不一致性(或互补性)为集成方法提供了机会,我们对此进行了初步尝试。第三,超越常用的低样本任务,我们发现PETL在多样本任务中也很有用——它使用更少的可学习参数,达到了与完全微调相当甚至更好的准确性。最后但同样重要的是,我们研究了PETL在保持预训练模型对分布偏移(例如,CLIP骨干)鲁棒性方面的能力。也许并不令人惊讶,PETL方法单独优于完全微调。然而,通过权重空间集成,完全微调模型可以在下游和分布外性能之间实现更好的平衡,这为PETL的未来研究方向提供了建议。

[16] 一个用于脊髓损伤定位和解剖分割的具有深度学习基准的全新开源超声数据集
标题: A novel open-source ultrasound dataset with deep learning benchmarks for spinal cord injury localization and anatomical segmentation
作者: Avisha Kumar / Kunal Kotkar / Kelly Jiang / Meghana Bhimreddy / Daniel Davidar / Carly Weber-Levine / Siddharth Krishnan / Max J. Kerensky / Ruixing Liang / Kelley Kempski Leadingham / Denis Routkevitch / Andrew M. Hersh / Kimberly Ashayeri / Betty Tyler / Ian Suk / Jennifer Son / Nicholas Theodore / Nitish Thakor / Amir Manbachi
原文:   [英文]   [中文]  
备注: None
摘要:
尽管深度学习在众多领域催生了突破性进展,但其在临床环境中的广泛应用受到数据获取和标注成本高昂且耗时的限制。为了进一步促进医学机器学习的发展,我们提供了一个包含10,223张亮度模式(B-mode)图像的超声数据集,这些图像由25只猪的脊髓在挫伤前后进行的矢状切片组成。我们还对几种最先进的目标检测算法的性能指标进行了基准测试,以定位损伤部位,并对语义分割模型进行基准测试,以标注解剖结构,从而进行比较和创建特定任务的架构。最后,我们评估了分割模型在人体超声脊髓图像上的零样本泛化能力,以确定在我们的猪数据集上训练是否足以准确解释人体数据。我们的结果显示,YOLOv8检测模型在损伤定位方面优于所有评估的模型,达到了0.606的平均精度(mAP50-95)得分。分割指标表明,DeepLabv3分割模型在未见过的猪解剖结构上达到了最高的准确性,平均Dice得分为0.587,而SAMed在泛化到人体解剖结构时达到了最高的平均Dice得分(0.445)。据我们所知,这是目前公开提供给研究人员和医疗专业人员的最大标注脊髓超声图像数据集,也是首个公开报告的用于评估脊髓解剖标志物的目标检测和分割架构,以用于方法学开发和临床应用。

[17] 扩散模型在增强显微镜图像分辨率中的应用:教程
标题: Diffusion Models to Enhance the Resolution of Microscopy Images: A Tutorial
作者: Harshith Bachimanchi / Giovanni Volpe
原文:   [英文]   [中文]  
备注: 45 pages, 8 figures
摘要:
扩散模型已经成为生成建模中一种突出的技术,特别是在文本到图像翻译和超分辨率等任务中表现出色。在本教程中,我们提供了一个从零开始构建去噪扩散概率模型(DDPMs)的全面指南,特别关注将低分辨率显微镜图像转换为相应的高分辨率版本。我们提供了理论背景、数学推导以及使用PyTorch的详细Python代码实现,并介绍了提升模型性能的技术。

[18] 在导师-学生对话中探索知识追踪
标题: Exploring Knowledge Tracing in Tutor-Student Dialogues
作者: Alexander Scarlatos / Andrew Lan
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,大型语言模型(LLMs)的进展促使了人工智能(AI)驱动的辅导聊天机器人的发展,这些机器人在提供高质量个性化教育方面显示出很大的潜力。现有的研究主要集中在如何使LLMs遵循辅导原则,而不是如何在对话中模拟学生行为。然而,分析学生的对话轮次可以作为形成性评估,因为开放式的学生对话可能表明他们的知识水平并揭示具体的误解。在这项工作中,我们首次尝试在导师-学生对话中进行知识追踪(KT)。我们提出了LLM提示方法,以识别每个对话轮次中涉及的知识组件/技能,并诊断学生是否正确回应导师,并通过专家人类评估验证LLM的有效性。然后,我们在生成的标记数据上应用一系列KT方法,以跟踪整个对话过程中学生的知识水平。我们在两个辅导对话数据集上进行了实验,结果表明一种新颖而简单的基于LLM的方法,LLMKT,在预测对话中学生回应的正确性方面显著优于现有的KT方法。我们进行了广泛的定性分析,以突出对话KT中的挑战,并概述了未来工作的多个方向。

[19] GSplatLoc:将关键点描述符嵌入3D高斯散点以改进视觉定位
标题: GSplatLoc: Grounding Keypoint Descriptors into 3D Gaussian Splatting for Improved Visual Localization
作者: Gennady Sidorov / Malik Mohrat / Ksenia Lebedeva / Ruslan Rakhimov / Sergey Kolyubin
原文:   [英文]  
备注: Project website at https://gsplatloc.github.io/
摘要:
尽管存在各种视觉定位方法,如场景坐标和姿态回归,这些方法通常面临高内存消耗或广泛的优化需求。为了解决这些挑战,我们利用了新视图合成的最新进展,特别是3D高斯点(3DGS),来增强定位。3DGS允许通过其空间特征紧凑地编码3D几何和场景外观。我们的方法利用了XFeat的轻量级关键点检测和描述模型生成的密集描述图。我们提出将这些密集的关键点描述符蒸馏到3DGS中,以提高模型的空间理解,从而通过2D-3D对应关系更准确地预测相机姿态。在估计初始姿态后,我们使用光度变形损失对其进行优化。在流行的室内和室外数据集上的基准测试表明,我们的方法超越了最先进的神经渲染姿态(NRP)方法,包括NeRFMatch和PNeRFLoc。

[20] 无源域适应的YOLO目标检测
标题: Source-Free Domain Adaptation for YOLO Object Detection
作者: Simon Varailhon / Masih Aminbeidokhti / Marco Pedersoli / Eric Granger
原文:   [英文]  
备注: ECCV 2024: European Conference on Computer Vision - Workshop on Out-of-Distribution Generalization in Computer Vision Foundation Models, Milan Italy
摘要:
无源域适应(SFDA)是目标检测中的一个具有挑战性的问题,其中预训练的源模型被适应到一个新的目标域,而不使用任何源域数据,以保护隐私和提高效率。大多数最先进的用于目标检测的SFDA方法都是为Faster-RCNN提出的,这是一种已知计算复杂度高的检测器。本文重点研究了适用于现实世界视觉系统的域适应技术,特别是针对以快速基线和实际应用著称的YOLO系列单次检测器。我们提出的SFDA方法——无源YOLO(SF-YOLO)——依赖于一个教师-学生框架,其中学生接收带有学习的、特定于目标域的增强图像,从而使模型仅使用未标记的目标数据进行训练,而无需特征对齐。使用均值教师架构进行自我训练时,在没有标签的情况下,准确性会因噪声或漂移的伪标签而迅速下降。为了解决这个问题,引入了一种教师到学生的通信机制,以帮助稳定训练并减少对标注目标数据进行模型选择的依赖。尽管方法简单,我们的方法在几个具有挑战性的基准数据集上与最先进的检测器竞争,甚至有时优于使用源数据进行适应的方法。

[21] FLaRe:通过大规模强化学习微调实现高超且自适应的机器人策略
标题: FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning
作者: Jiaheng Hu / Rose Hendrix / Ali Farhadi / Aniruddha Kembhavi / Roberto Martin-Martin / Peter Stone / Kuo-Hao Zeng / Kiana Ehsan
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,机器人领域通过大规模多任务行为克隆发起了多项构建通用机器人策略的努力。然而,这些策略的直接部署导致了不理想的性能,策略在面对未见过的状态和任务时表现不佳。我们如何突破这些模型的性能瓶颈,并将其能力提升到新的高度?在本文中,我们提出了FLaRe,一种大规模强化学习微调框架,该框架集成了稳健的预训练表示、大规模训练和梯度稳定化技术。我们的方法将预训练策略对齐到任务完成上,在先前展示的任务和全新任务及实施中均达到了最先进的(SoTA)性能。具体来说,在一组长时间跨度的移动操作任务中,FLaRe在未见过的环境中达到了79.5%的平均成功率,相较于之前的SoTA方法,在模拟环境中绝对提升了23.6%,在真实机器人上绝对提升了30.7%。通过仅使用稀疏奖励,我们的方法能够在最小的人力投入下实现对超出预训练数据的新能力的泛化。此外,我们展示了在不到一天的微调时间内对新实施和行为的快速适应。视频可以在项目网站https://robot-flare.github.io/上找到。

[22] 评估和提升大型语言模型在学术出版物新颖性评估中的应用
标题: Evaluating and Enhancing Large Language Models for Novelty Assessment in Scholarly Publications
作者: Ethan Lin / Zhiyuan Peng / Yi Fang
原文:   [英文]   [中文]  
备注: under review
摘要:
最近的研究主要从语义角度评估大型语言模型(LLMs)的创造力/新颖性,使用的是认知科学的基准。然而,在学术出版物中评估新颖性仍是一个尚未充分探索的领域。在本文中,我们引入了一个学术新颖性基准(SchNovel),用于评估LLMs在学术论文中评估新颖性的能力。SchNovel由从arXiv数据集中抽取的跨越六个领域的15000对论文组成,这些论文的发表日期相隔2到10年。在每对论文中,假设较新发表的论文更具新颖性。此外,我们提出了RAG-Novelty,它通过利用相似论文的检索来模拟人类审稿人的评审过程,以评估新颖性。大量实验提供了对不同LLMs评估新颖性能力的见解,并证明RAG-Novelty优于最近的基准模型。

[23] 带有平均池化的随机子采样
标题: Stochastic Subsampling With Average Pooling
作者: Bum Jun Kim / Sang Woo Kim
原文:   [英文]   [中文]  
备注: 17 pages, 8 figures
摘要:
深度神经网络的正则化一直是实现更高泛化性能而不出现过拟合问题的重要课题。尽管流行的Dropout方法提供了正则化效果,但它会导致输出的不一致性,从而可能降低深度神经网络的性能。在本研究中,我们提出了一种新的模块,称为随机平均池化,它在池化中引入了类似Dropout的随机性。我们描述了随机子采样和平均池化的特性,并利用它们设计了一个没有任何不一致性问题的模块。随机平均池化在没有任何由于不一致性问题导致的潜在性能下降的情况下实现了正则化效果,并且可以轻松地插入现有的深度神经网络架构中。实验表明,用随机平均池化替换现有的平均池化在各种任务、数据集和模型中都能带来一致的改进。

[24] 面向时间序列数据的领域无关自动描述文本生成
标题: Domain-Independent Automatic Generation of Descriptive Texts for Time-Series Data
作者: Kota Dohi / Aoi Ito / Harsh Purohit / Tomoya Nishida / Takashi Endo / Yohei Kawaguchi
原文:   [英文]   [中文]  
备注: None
摘要:
由于带有描述性文本的时间序列数据稀缺,训练一个模型来为时间序列数据生成描述性文本是具有挑战性的。在这项研究中,我们提出了一种系统生成领域无关的时间序列数据描述性文本的方法。我们确定了两种创建时间序列数据和描述性文本对的不同方法:前向方法和后向方法。通过实施新颖的后向方法,我们创建了时间自动观测描述(TACO)数据集。实验结果表明,使用TACO数据集训练的基于对比学习的模型能够在新领域中为时间序列数据生成描述性文本。

[25] 使用潜在空间生成世界模型缓解自动驾驶车辆模仿学习中的协变量偏移
标题: Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models
作者: Alexander Popov / Alperen Degirmenci / David Wehr / Shashank Hegde / Ryan Oldja / Alexey Kamenev / Bertrand Douillard / David Nistér / Urs Muller / Ruchi Bhargava / Stan Birchfield / Nikolai Smolyanskiy
原文:   [英文]   [中文]  
备注: 7 pages, 6 figures, for ICRA 2025 conference, for associated video file, see https://youtu.be/9FpDFD9aiFU
摘要:
我们提出使用潜在空间生成世界模型来解决自动驾驶中的协变量偏移问题。世界模型是一种神经网络,能够根据过去的状态和动作预测代理的下一个状态。通过在训练过程中利用世界模型,驾驶策略可以有效地减轻协变量偏移问题,而不需要大量的训练数据。在端到端训练过程中,我们的策略通过与人类演示中观察到的状态对齐来学习如何从错误中恢复,以便在运行时能够从训练分布之外的扰动中恢复。此外,我们引入了一种新颖的基于变压器的感知编码器,该编码器采用多视角交叉注意力和学习的场景查询。我们展示了定性和定量结果,表明在CARLA模拟器中的闭环测试中,相较于之前的最先进方法有显著改进,并展示了在CARLA和NVIDIA的DRIVE Sim中处理扰动的能力。

[26] SWE2:用于仇恨言论检测的子词增强和显著词强调框架
标题: SWE2: SubWord Enriched and Significant Word Emphasized Framework for Hate Speech Detection
作者: Guanyi Mou / Pengyi Ye / Kyumin Lee
原文:   [英文]   [中文]  
备注: Published in CIKM 2020
摘要:
近年来,在线社交网络上的仇恨言论检测已成为新兴的热门话题之一。由于仇恨言论在在线社交网络中的广泛传播和快速传播速度,它通过增加偏见和伤害人们对社会产生了重大影响。因此,这引起了业界和学术界的关注和关切。在本文中,我们解决了仇恨言论问题,并提出了一种新颖的仇恨言论检测框架,称为SWE2,该框架仅依赖于消息内容并自动识别仇恨言论。特别是,我们的框架利用了词级语义信息和子词知识。它在直观上具有说服力,并且在有/无字符级对抗攻击的情况下表现良好。实验结果表明,在没有对抗攻击的情况下,我们提出的模型实现了0.975的准确率和0.953的宏观F1,优于7个最先进的基线。在极端对抗攻击(操纵50%的消息)下,我们的模型表现出强大的鲁棒性和显著的性能,达到了0.967的准确率和0.934的宏观F1。

[27] TSBP:通过测试时自引导边界框传播提高组织学图像中的目标检测
标题: TSBP: Improving Object Detection in Histology Images via Test-time Self-guided Bounding-box Propagation
作者: Tingting Yang / Liang Xiao / Yizhe Zhang
原文:   [英文]   [中文]  
备注: MICCAI 2024
摘要:
在目标检测任务中,通常会应用一个全局阈值(例如0.5)来确定哪些边界框应包含在最终结果中。较高的阈值可以减少误报,但可能会导致漏掉大量的真实正样本。较低的阈值可以增加检测召回率,但也可能导致更多的误报。因此,使用一个预设的全局阈值(例如0.5)应用于所有边界框候选可能会导致次优的解决方案。在本文中,我们提出了一种测试时自引导边界框传播(TSBP)方法,利用地球移动距离(EMD)来增强组织学图像中的目标检测。TSBP利用高置信度的边界框来影响低置信度的边界框,利用它们之间的视觉相似性。这种传播机制使得边界框的选择变得可控、可解释且稳健,超越了简单阈值和不确定性校准方法的效果。重要的是,TSBP不需要额外的标注样本来进行模型训练或参数估计,不像校准方法那样。我们在组织学图像中的腺体检测和细胞检测任务上进行了实验。结果表明,当与最先进的基于深度学习的检测网络结合使用时,我们提出的TSBP显著提高了检测结果。与其他方法(如不确定性校准)相比,TSBP在不使用额外标注样本的情况下,提供了更稳健和准确的目标检测预测。代码可在https://github.com/jwhgdeu/TSBP获取。

[28] Layout-Corrector:缓解离散扩散模型中的布局粘连现象
标题: Layout-Corrector: Alleviating Layout Sticking Phenomenon in Discrete Diffusion Model
作者: Shoma Iwai / Atsuki Osanai / Shunsuke Kitada / Shinichiro Omachi
原文:   [英文]  
备注: Accepted by ECCV2024, Project Page: https://iwa-shi.github.io/Layout-Corrector-Project-Page/
摘要:
布局生成是一项通过合成具有类别、位置和大小等属性的元素来创建和谐布局的任务。人类设计师通过实验元素的放置和修改来创建美观的布局,然而,我们观察到当前的离散扩散模型(DDMs)在生成布局后难以纠正不和谐的布局。在本文中,我们首先提供了关于DDMs中布局粘滞现象的新见解,然后提出了一个简单但有效的布局评估模块Layout-Corrector,该模块与现有的DDMs结合使用,以解决布局粘滞问题。我们提出了一个基于学习的模块,能够在考虑复杂构图特征的整体布局和谐性的情况下,识别布局中的不和谐元素。在生成过程中,Layout-Corrector评估生成布局中每个标记的正确性,将得分低的标记重新初始化为未生成状态。然后,DDM使用高分标记作为线索重新生成和谐的标记。在常见基准测试中,Layout-Corrector与各种最先进的DDMs结合使用时,一贯提升了布局生成性能。此外,我们的广泛分析表明,Layout-Corrector(1)成功识别错误标记,(2)促进了对保真度-多样性权衡的控制,以及(3)显著减轻了与快速采样相关的性能下降。

[29] 低比特大语言模型综述:基础、系统与算法
标题: A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithms
作者: Ruihao Gong / Yifu Ding / Zining Wang / Chengtao Lv / Xingyu Zheng / Jinyang Du / Haotong Qin / Jinyang Guo / Michele Magno / Xianglong Liu
原文:   [英文]   [中文]  
备注: Ruihao Gong leads the overall organization of the survey, with Yifu Ding and Jinyang Du contributing to Sections 2 and 3. Xingyu Zheng is responsible for authoring Section 4, while Chengtao Lv and Zining Wang collaborate on Section 5. Haotong Qin, Jinyang Guo, Michele Magno, and Xianglong Liu provide guidance during the whole process and assist in refining the final manuscript
摘要:
大型语言模型(LLMs)在自然语言处理方面取得了显著的进展,在各种任务中展示了卓越的性能。然而,昂贵的内存和计算需求对其实际部署提出了重大挑战。低比特量化作为一种关键方法,通过减少模型参数、激活和梯度的比特宽度,从而降低内存使用和计算需求,已成为解决这些挑战的重要途径。本文对针对LLMs的低比特量化方法进行了全面综述,涵盖了基本原理、系统实现和算法策略。首先介绍了低比特LLMs的基本概念和新数据格式概述,然后回顾了在各种硬件平台上促进低比特LLMs的框架和系统。接着,我们分类并分析了用于高效低比特训练和推理的技术和工具包。最后,我们讨论了低比特LLMs的未来趋势和潜在进展。我们从基本、系统和算法角度进行的系统性概述,可以为未来通过低比特量化提高LLMs的效率和适用性提供宝贵的见解和指导。

[30] 通过简单的参数高效修改进行视觉-语言模型微调
标题: Vision-Language Model Fine-Tuning via Simple Parameter-Efficient Modification
作者: Ming Li / Jike Zhong / Chenxin Li / Liuzhuozheng Li / Nie Lin / Masashi Sugiyama
原文:   [英文]   [中文]  
备注: EMNLP 2024 Main Conference
摘要:
最近在微调视觉-语言模型(VLMs)方面的进展见证了提示微调和适配器微调的成功,而经典的模型微调固有参数似乎被忽视了。人们认为,用少量样本微调VLMs的参数会破坏预训练的知识,因为微调CLIP模型甚至会降低性能。在本文中,我们重新审视了这一观点,并提出了一个新的视角:微调特定参数而不是全部参数将揭示经典模型微调在VLMs上的力量。通过我们细致的研究,我们提出了ClipFit,这是一种简单而有效的方法,可以在不引入额外参数开销的情况下微调CLIP。我们证明,仅通过微调特定的偏置项和归一化层,ClipFit可以将零样本CLIP的性能提高7.27%的平均调和平均准确率。最后,为了理解在CLIPFit中微调如何影响预训练模型,我们进行了广泛的实验分析,涉及内部参数和表示的变化。我们发现,低级文本偏置层和第一层归一化层的变化远大于其他层。代码可在 \url{https://github.com/minglllli/CLIPFit} 获取。

[31] PMSS:用于大语言模型微调的预训练矩阵骨架选择
标题: PMSS: Pretrained Matrices Skeleton Selection for LLM Fine-tuning
作者: Qibin Wang / Xiaolin Hu / Weikai Xu / Wei Liu / Jian Luan / Bin Wang
原文:   [英文]   [中文]  
备注: None
摘要:
低秩适应(LoRA)及其变体最近因其能够避免过多的推理成本而备受关注。然而,LoRA仍然面临以下挑战:(1)低秩假设的限制;(2)其初始化方法可能不是最优的。为此,我们提出了PMSS(预训练矩阵骨架选择),该方法在利用预训练权重中固有的语义和语言信息的同时,实现了低成本的高秩更新。它通过从预训练权重矩阵中选择骨架,并仅学习一个小矩阵来实现这一点。实验表明,PMSS在任务中以更少的可训练参数优于LoRA和其他微调方法。我们证明了其有效性,特别是在处理复杂任务方面,如DROP基准(在LLaMA2-7B/13B上分别提高了3.4%和5.9%)和数学推理(在GSM8K的LLaMA2-7B、Mistral-7B和Gemma-7B上分别提高了12.89%、5.61%和3.11%)。代码和模型将很快发布。

[32] MaViLS,一个用于视频到幻灯片对齐的基准数据集,使用多模态对齐算法评估基线准确性,该算法利用语音、OCR和视觉特征
标题: MaViLS, a Benchmark Dataset for Video-to-Slide Alignment, Assessing Baseline Accuracy with a Multimodal Alignment Algorithm Leveraging Speech, OCR, and Visual Features
作者: Katharina Anderer / Andreas Reich / Matthias Wölfel
原文:   [英文]   [中文]  
备注: None
摘要:
本文提出了一个用于对齐讲座视频与相应幻灯片的基准数据集,并介绍了一种利用语音、文本和图像特征的新型多模态算法。该算法的平均准确率为0.82,相比之下,SIFT的准确率为0.56,同时速度快了约11倍。通过动态规划,该算法尝试确定最佳的幻灯片序列。结果表明,惩罚幻灯片切换可以提高准确性。通过光学字符识别(OCR)获得的特征对高匹配准确性贡献最大,其次是图像特征。研究结果表明,仅音频转录就能提供有价值的对齐信息,并且在缺乏OCR数据时也很有用。不同讲座的匹配准确性差异突显了视频质量和讲座风格带来的挑战。新型多模态算法展示了对这些挑战的鲁棒性,强调了该方法的潜力。

[33] 可扩展的集成多样化用于OOD泛化和检测
标题: Scalable Ensemble Diversification for OOD Generalization and Detection
作者: Alexander Rubinstein / Luca Scimeca / Damien Teney / Seong Joon Oh
原文:   [英文]   [中文]  
备注: Under review
摘要:
训练多样化的模型集成在实际应用中有多种用途,例如提供更好的分布外(OOD)泛化的模型选择候选,并通过贝叶斯原理实现OOD样本的检测。现有的一种多样化集成训练方法鼓励模型在提供的OOD样本上产生分歧。然而,这种方法计算成本高,并且需要明确区分的ID和OOD样本,因此仅在小规模设置中得到了验证。 方法:本文提出了一种适用于大规模设置(例如ImageNet)的可扩展集成多样化(SED)方法,该方法不需要OOD样本。相反,SED在训练过程中动态识别困难样本,并鼓励集成成员在这些样本上产生分歧。为了提高扩展性,我们展示了如何避免现有方法中对模型间的详尽成对分歧计算的高昂成本。 结果:我们通过在ImageNet上的实验评估了多样化的好处。首先,对于OOD泛化,我们在包括输出空间(经典)集成和权重空间集成(模型汤)在内的多种设置中观察到了多样化带来的巨大好处。其次,对于OOD检测,我们将集成假设的多样性转化为一种新颖的不确定性评分估计器,超越了大量的OOD检测基线。 代码可在此获取:https://github.com/AlexanderRubinstein/diverse-universe-public。

[34] 动态设备上大语言模型个性化的自适应自监督学习策略
标题: Adaptive Self-Supervised Learning Strategies for Dynamic On-Device LLM Personalization
作者: Rafael Mendoza / Isabella Cruz / Richard Liu / Aarav Deshmukh / David Williams / Jesscia Peng / Rohan Iyer
原文:   [英文]   [中文]  
备注: First ASLS
摘要:
大型语言模型(LLMs)已经彻底改变了我们与技术的互动方式,但在个性化满足用户偏好方面,特别是在设备端应用中,仍然面临重大挑战。传统方法通常严重依赖标注数据集,并且可能资源密集。为了解决这些问题,我们提出了自适应自监督学习策略(ASLS),利用自监督学习技术动态个性化LLMs。该框架包括一个用户画像层,用于收集交互数据,以及一个神经适应层,用于实时模型微调。这种创新方法能够从用户反馈中持续学习,使模型生成的响应与用户特定的上下文高度一致。ASLS的自适应机制最大限度地减少了计算需求,并提高了个性化效率。各种用户场景的实验结果表明,ASLS在提升用户参与度和满意度方面表现优越,突显了其将LLMs重新定义为高度响应和上下文感知系统的潜力。

[35] PitRSDNet:预测内镜下垂体手术中剩余手术时间
标题: PitRSDNet: Predicting Intra-operative Remaining Surgery Duration in Endoscopic Pituitary Surgery
作者: Anjana Wijekoon / Adrito Das / Roxana R. Herrera / Danyal Z. Khan / John Hanrahan / Eleanor Carter / Valpuri Luoma / Danail Stoyanov / Hani J. Marcus / Sophia Bano
原文:   [英文]   [中文]  
备注: Accepted to the Augmented Environments for Computer-Assisted Interventions (AE-CAI) Workshop at the Medical Image Computing and Computer-Assisted Interventions (MICCAI) Conference 2024
摘要:
准确的术中剩余手术时间(RSD)预测可以让麻醉师更准确地决定何时施用麻醉剂和药物,并通知医院工作人员准备接收下一位患者。因此,RSD在通过高效调度来改善患者护理和减少手术室成本方面起着重要作用。在内镜垂体手术中,由于可选步骤的选择导致工作流程序列的变化,手术时间的高度可变性使其具有独特的挑战性。本文提出了PitRSDNet用于预测垂体手术中的RSD,这是一种时空神经网络模型,能够从历史数据中学习,重点关注工作流程序列。PitRSDNet以两种形式将工作流程知识整合到RSD预测中:1)多任务学习,同时预测步骤和RSD;2)在时间学习和推理中将先前步骤作为上下文。PitRSDNet在一个包含88个视频的新内镜垂体手术数据集上进行了训练和评估,显示出相对于之前的统计和机器学习方法的竞争性性能改进。研究结果还强调了PitRSDNet如何利用先前步骤的知识提高异常病例的RSD精度。

[36] CNN深度混合
标题: CNN Mixture-of-Depths
作者: Rinor Cakaj / Jens Mehnert / Bin Yang
原文:   [英文]  
备注: Conference Paper of the Asian Conference on Computer Vision (ACCV) 2024
摘要:
我们介绍了一种用于卷积神经网络(CNNs)的新方法——深度混合(Mixture-of-Depths,MoD),该方法通过基于当前预测的相关性选择性地处理通道来提高CNNs的计算效率。该方法通过在卷积块(Conv-Blocks)内动态选择特征图中的关键通道进行集中处理,同时跳过不太相关的通道,从而优化计算资源。与需要动态计算图的条件计算方法不同,CNN MoD使用具有固定张量大小的静态计算图,从而提高了硬件效率。它在不需要定制CUDA内核、独特的损失函数或微调的情况下,加快了训练和推理过程。CNN MoD要么在减少推理时间、GMACs和参数的情况下匹配传统CNNs的性能,要么在保持相似的推理时间、GMACs和参数的情况下超越其性能。例如,在ImageNet上,ResNet86-MoD的性能比标准ResNet50高0.45%,在CPU上加速6%,在GPU上加速5%。此外,ResNet75-MoD在CPU上加速25%,在GPU上加速15%的情况下,达到了与ResNet50相同的性能。

[37] 大型语言模型中的反事实标记生成
标题: Counterfactual Token Generation in Large Language Models
作者: Ivi Chatzi / Nina Corvelo Benz / Eleni Straitouri / Stratis Tsirtsis / Manuel Gomez-Rodriguez
原文:   [英文]   [中文]  
备注: None
摘要:
船长莱拉站在她可靠的船——“漩涡之怒”的舵位上,凝视着无尽的大海。莱拉的眼中涌出了泪水,她意识到一个痛苦的事实——她为了短暂的财富牺牲了一切,失去了船员的爱、她的家庭和她自己。虽然这个由大型语言模型生成的故事引人入胜,但人们可能会想——如果模型选择“船长梅芙”作为主角,故事会如何展开呢?我们无法知道。最先进的大型语言模型是无状态的——它们不维护任何内部记忆或状态。给定一个提示,它们使用自回归过程生成一系列的标记作为输出。因此,它们无法推理关于它们过去生成的标记的反事实替代。在这项工作中,我们的目标是增强它们的这种功能。为此,我们开发了一种基于Gumbel-Max结构因果模型的标记生成因果模型。我们的模型允许任何大型语言模型以几乎不增加成本的方式执行反事实标记生成,与普通标记生成相比,它的实现非常简单,不需要任何微调或提示工程。我们在Llama 3 8B-instruct上实现了我们的模型,并对反事实生成的文本进行了定性和定量分析。最后,我们展示了反事实标记生成在偏见检测中的应用,揭示了关于大型语言模型构建的世界模型的一些有趣见解。

[38] 如何连接语音基础模型和大型语言模型?什么重要,什么不重要
标题: How to Connect Speech Foundation Models and Large Language Models? What Matters and What Does Not
作者: Francesco Verdini / Pierfrancesco Melucci / Stefano Perna / Francesco Cariaggi / Marco Gaido / Sara Papi / Szymon Mazurek / Marek Kasztelnik / Luisa Bentivogli / Sébastien Bratières / Paolo Merialdo / Simone Scardapane
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLM)所取得的显著性能推动了研究人员将其应用于广泛的任务和输入模式。在语音转文本(S2T)任务中,新兴的解决方案包括通过适配器模块将语音基础模型(SFM)编码器的输出投射到LLM嵌入空间。然而,目前尚无研究探讨下游任务性能在多大程度上依赖于每个组件(SFM、适配器、LLM),也没有研究适配器的最佳设计是否取决于所选择的SFM和LLM。为填补这一空白,我们评估了5个适配器模块、2个LLM(Mistral和Llama)以及2个SFM(Whisper和SeamlessM4T)在两个广泛使用的S2T任务(即自动语音识别和语音翻译)中的组合。我们的结果表明,SFM在下游性能中起着关键作用,而适配器的选择影响适中,并且取决于SFM和LLM。

[39] 在计算病理学中基准测试领域泛化算法
标题: Benchmarking Domain Generalization Algorithms in Computational Pathology
作者: Neda Zamanitajeddin / Mostafa Jahanifar / Kesi Xu / Fouzia Siraj / Nasir Rajpoot
原文:   [英文]   [中文]  
备注: None
摘要:
深度学习模型在计算病理学(CPath)任务中展示了巨大的潜力,但由于领域转移,其在未见数据上的表现往往会受到影响。解决这一问题需要领域泛化(DG)算法。然而,目前在CPath背景下对DG算法的系统评估仍然缺乏。本研究旨在通过7,560次交叉验证运行,对30种DG算法在3个难度不同的CPath任务中的有效性进行基准测试。我们使用一个统一且稳健的平台来评估这些算法,结合了特定模态的技术和最近的进展,如预训练基础模型。我们广泛的交叉验证实验提供了对各种DG策略相对性能的见解。我们观察到,自监督学习和染色增强方法始终优于其他方法,突显了预训练模型和数据增强的潜力。此外,我们引入了一个新的泛癌症肿瘤检测数据集(HISTOPANTUM),作为未来研究的基准。本研究为研究人员在选择适当的CPath任务DG方法时提供了宝贵的指导。

[40] 感知度量对音乐表示学习在流派分类中的影响
标题: The Effect of Perceptual Metrics on Music Representation Learning for Genre Classification
作者: Tashi Namgyal / Alexander Hepburn / Raul Santos-Rodriguez / Valero Laparra / Jesus Malo
原文:   [英文]   [中文]  
备注: arXiv admin note: text overlap with arXiv:2312.03455
摘要:
自然信号的主观质量可以用客观的感知度量来近似。感知度量旨在近似人类观察者的感知行为,通常反映自然信号和神经通路中的结构。使用感知度量作为损失函数训练的模型可以从这些度量中包含的结构中捕捉到感知上有意义的特征。我们展示了使用从使用感知损失训练的自编码器中提取的特征可以在音乐理解任务(如流派分类)上提高性能,而不是直接将这些度量作为距离来学习分类器。这个结果表明,当使用感知度量作为表示学习的损失函数时,可以对新信号有更好的泛化能力。

[41] Ctrl-GenAug:用于医疗序列分类的可控生成增强
标题: Ctrl-GenAug: Controllable Generative Augmentation for Medical Sequence Classification
作者: Xinrui Zhou / Yuhao Huang / Haoran Dou / Shijing Chen / Ao Chang / Jia Liu / Weiran Long / Jian Zheng / Erjiao Xu / Jie Ren / Ruobing Huang / Jun Cheng / Wufeng Xue / Dong Ni
原文:   [英文]   [中文]  
备注: 17 pages, 7 figures, 7 tables
摘要:
在医学领域,大规模数据集的有限可用性和劳动密集型的注释过程阻碍了深度模型的性能。基于扩散的生成增强方法为解决这一问题提供了一个有前途的解决方案,已被证明在推进下游医学识别任务方面有效。然而,现有的工作在生成具有挑战性的视频/3D序列时缺乏足够的语义和顺序可控性,并且忽视了对噪声合成样本的质量控制,导致合成数据库不可靠,严重限制了下游任务的性能。在这项工作中,我们提出了Ctrl-GenAug,这是一种新颖且通用的生成增强框架,能够实现高度语义和顺序定制的序列合成,并抑制错误合成的样本,以帮助医学序列分类。具体来说,我们首先设计了一个多模态条件引导的序列生成器,用于可控地合成促进诊断的样本。一个顺序增强模块被集成以增强生成样本的时间/立体一致性。然后,我们提出了一个噪声合成数据过滤器,以在语义和顺序层面抑制不可靠的案例。在3个医学数据集上进行的大量实验,使用11个在3种范式下训练的网络,全面分析了Ctrl-GenAug的有效性和通用性,特别是在代表性不足的高风险人群和域外条件下。

[42] 编程每一个示例:像专家一样大规模提升预训练数据质量
标题: Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale
作者: Fan Zhou / Zengzhi Wang / Qian Liu / Junlong Li / Pengfei Liu
原文:   [英文]   [中文]  
备注: 45 pages, 13 figures, 34 tables
摘要:
大型语言模型的预训练传统上依赖于人类专家来制定启发式规则以提高语料库的质量,迄今为止已经开发了许多规则。然而,这些规则缺乏灵活性,无法有效应对每个实例的独特特征。同时,为每个实例应用定制规则对人类专家来说是不切实际的。在本文中,我们展示了即使是参数量仅为0.3B的小型语言模型,也能表现出与人类专家相当的数据精炼能力。我们引入了“每个实例编程”(ProX),这是一种将数据精炼视为编程任务的新框架,使模型能够通过生成和执行细粒度操作(如字符串规范化)来大规模精炼语料库。实验结果表明,基于ProX精炼数据预训练的模型在各种下游基准测试中,比使用原始数据或其他选择方法过滤的数据的表现高出2%以上。其有效性跨越了各种模型规模和预训练语料库,包括C4、RedPajama-V2和FineWeb。此外,ProX在特定领域的持续预训练中表现出显著潜力:在没有特定领域设计的情况下,基于ProX精炼的OpenWebMath训练的模型比基于人工规则的方法表现更好,平均准确率提高了7.6%,在Mistral-7B上提高了14.6%,在Llama-2-7B上提高了20.3%,在10B tokens内与训练在200B tokens上的Llemma-7B模型相当。进一步分析表明,ProX显著节省了训练FLOPs,为高效的LLM预训练提供了一条有前途的路径。我们将开源ProX,包括>100B语料库、模型,并分享所有训练和实现细节,以便于可重复的研究和未来的创新。代码:https://github.com/GAIR-NLP/ProX

[43] 深度学习与机器学习,推进大数据分析与管理:实用入门
标题: Deep Learning and Machine Learning, Advancing Big Data Analytics and Management: Handy Appetizer
作者: Benji Peng / Xuanhe Pan / Yizhu Wen / Ziqian Bi / Keyu Chen / Ming Li / Ming Liu / Qian Niu / Junyu Liu / Jinlang Wang / Sen Zhang / Jiawei Xu / Pohsun Feng
原文:   [英文]   [中文]  
备注: This book contains 93 pages and 60 figures
摘要:
本书探讨了人工智能(AI)、机器学习(ML)和深度学习(DL)在推动大数据分析和管理进步中的作用。书中重点简化了深度学习背后的复杂数学概念,提供直观的可视化和实际案例研究,帮助读者理解神经网络及卷积神经网络(CNN)等技术的工作原理。书中介绍了多种经典模型和技术,如Transformers、GPT、ResNet、BERT和YOLO,强调了它们在自然语言处理、图像识别和自动驾驶等领域的应用。书中还强调了预训练模型的重要性及其如何提升模型性能和准确性,并提供了在各种实际场景中应用这些模型的指导。此外,书中概述了关键的大数据管理技术,如SQL和NoSQL数据库,以及分布式计算框架如Apache Hadoop和Spark,解释了它们在管理和处理海量数据中的重要性。最终,本书强调了掌握深度学习和大数据管理技能作为未来劳动力的重要工具,使其成为初学者和有经验的专业人士的必备资源。

[44] PACE:将参数高效微调中的泛化与一致性正则化相结合
标题: PACE: marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization
作者: Yao Ni / Shan Zhang / Piotr Koniusz
原文:   [英文]  
备注: Accepted by NeurIPS 2024 as a spotlight. This preliminary version will soon be extended with the experiments and analyses from the rebuttal
摘要:
参数高效微调(PEFT)能够有效地将预训练的视觉变换器适应到下游任务。然而,任务性能的优化往往以微调模型的泛化能力为代价。为了解决这个问题,我们从理论上将训练过程中较小的权重梯度范数和较大的数据集与模型泛化能力的提升联系起来。受这一联系的启发,我们提出通过减少梯度范数来增强泛化能力,并使微调模型与预训练模型对齐,以保留大规模预训练数据中的知识。然而,简单的对齐并不能保证梯度的减少,反而可能导致梯度爆炸,增加了管理梯度的难度。为了解决这些问题,我们提出了PACE,将参数高效微调的泛化能力与一致性正则化相结合。我们通过乘法噪声扰动从适配器中学习到的特征,并确保微调模型在不同扰动下对同一样本保持一致。理论分析表明,PACE不仅隐式地正则化了梯度以增强泛化能力,还隐式地对齐了微调模型和预训练模型以保留知识。实验结果支持我们的理论。PACE在四个视觉适应任务中优于现有的PEFT方法:VTAB-1k、FGVC、小样本学习和领域适应。代码将发布在https://github.com/MaxwellYaoNi/PACE

[45] FineZip:推动大型语言模型在实际无损文本压缩中的极限
标题: FineZip : Pushing the Limits of Large Language Models for Practical Lossless Text Compression
作者: Fazal Mittu / Yihuan Bu / Akshat Gupta / Ashok Devireddy / Alp Eren Ozdarendeli / Anant Singh / Gopala Anumanchipalli
原文:   [英文]   [中文]  
备注: None
摘要:
虽然语言建模目标已被证明与压缩有深刻的联系,但令人惊讶的是,现代大型语言模型(LLM)并未在实际的文本压缩系统中得到应用。在本文中,我们对基于神经网络和变压器的压缩技术进行了深入分析,以回答这个问题。我们比较了传统的文本压缩系统与基于神经网络和LLM的文本压缩方法。尽管基于LLM的系统显著优于传统的压缩方法,但它们非常不实用。具体来说,LLMZip是一个使用Llama3-8B的最新文本压缩系统,压缩仅10 MB的文本需要9.5天,尽管压缩比有巨大的改进。为了解决这个问题,我们提出了FineZip——一个结合在线记忆和动态上下文的新型LLM文本压缩系统,大大减少了压缩时间。FineZip可以在大约4小时内压缩上述语料库,相比LLMZip的9.5天,提升了54倍,并且性能相当。FineZip以大幅度超越传统算法压缩方法,压缩比提高了约50%。通过这项工作,我们迈出了使LLM无损文本压缩成为现实的第一步。尽管FineZip在这方面取得了显著进展,但LLM仍然不是大规模文本压缩的可行解决方案。我们希望我们的工作为未来的研究和创新铺平道路,以解决这个问题。

[46] DreamWaltz-G:从骨架引导的二维扩散生成富有表现力的三维高斯化身
标题: DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D Diffusion
作者: Yukun Huang / Jianan Wang / Ailing Zeng / Zheng-Jun Zha / Lei Zhang / Xihui Liu
原文:   [英文]  
备注: Project page: https://yukun-huang.github.io/DreamWaltz-G/
摘要:
利用预训练的二维扩散模型和得分蒸馏采样(SDS),最近的方法在文本到三维头像生成方面显示了有希望的结果。然而,生成能够进行富有表现力动画的高质量三维头像仍然具有挑战性。在这项工作中,我们提出了DreamWaltz-G,这是一种从文本生成可动画三维头像的新型学习框架。该框架的核心在于骨架引导的得分蒸馏和混合三维高斯头像表示。具体来说,所提出的骨架引导得分蒸馏将三维人体模板中的骨架控制集成到二维扩散模型中,增强了SDS监督在视角和人体姿态方面的一致性。这有助于生成高质量的头像,缓解了多张脸、额外肢体和模糊等问题。所提出的混合三维高斯头像表示基于高效的三维高斯,结合了神经隐式场和参数化三维网格,实现了实时渲染、稳定的SDS优化和富有表现力的动画。大量实验表明,DreamWaltz-G在生成和动画三维头像方面非常有效,在视觉质量和动画表现力方面均优于现有方法。我们的框架还支持多种应用,包括人类视频再现和多主体场景合成。

[47] Molmo 和 PixMo:用于最先进多模态模型的开放权重和开放数据
标题: Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models
作者: Matt Deitke / Christopher Clark / Sangho Lee / Rohun Tripathi / Yue Yang / Jae Sung Park / Mohammadreza Salehi / Niklas Muennighoff / Kyle Lo / Luca Soldaini / Jiasen Lu / Taira Anderson / Erin Bransom / Kiana Ehsani / Huong Ngo / YenSung Chen / Ajay Patel / Mark Yatskar / Chris Callison-Burch / Andrew Head / Rose Hendrix / Favyen Bastani / Eli VanderBilt / Nathan Lambert / Yvonne Chou / Arnavi Chheda / Jenna Sparks / Sam Skjonsberg / Michael Schmitz / Aaron Sarnat / Byron Bischoff / Pete Walsh / Chris Newell / Piper Wolters / Tanmay Gupta / Kuo-Hao Zeng / Jon Borchardt / Dirk Groeneveld / Jen Dumas / Crystal Nam / Sophie Lebrecht / Caitlin Wittlif / Carissa Schoenick / Oscar Michel / Ranjay Krishna / Luca Weihs / Noah A. Smith / Hannaneh Hajishirzi / Ross Girshick / Ali Farhadi / Aniruddha Kembhavi
原文:   [英文]   [中文]  
备注: None
摘要:
当今最先进的多模态模型仍然是专有的。最强的开源权重模型在很大程度上依赖于来自专有视觉语言模型(VLM)的合成数据来实现良好的性能,实际上是将这些封闭模型提炼成开放模型。因此,社区仍然缺乏关于如何从头开始构建高性能VLM的基础知识。我们介绍了Molmo,一个新的VLM家族,在其开放性类别中处于最先进水平。我们的关键创新是一个全新的、高度详细的图像描述数据集,该数据集完全由人类注释者使用语音描述收集。为了实现广泛的用户交互,我们还引入了一个多样化的数据集混合用于微调,包括野外问答和创新的2D指点数据。我们方法的成功依赖于对模型架构细节的精心选择、精心调整的训练管道,以及最关键的,我们新收集的数据集的质量,所有这些都将被发布。Molmo家族中最好的72B模型不仅在开放权重和数据模型类别中表现优异,而且在学术基准和人类评估中也优于专有系统,如GPT-4o、Claude 3.5和Gemini 1.5。 我们将在不久的将来发布我们所有的模型权重、描述和微调数据以及源代码。部分模型权重、推理代码和演示可在https://molmo.allenai.org获取。