![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.LG方向,2024年9月26日更新论文20篇
|
[1] FLaRe:通过大规模强化学习微调实现高超且自适应的机器人策略 标题: FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning 作者: Jiaheng Hu / Rose Hendrix / Ali Farhadi / Aniruddha Kembhavi / Roberto Martin-Martin / Peter Stone / Kuo-Hao Zeng / Kiana Ehsan 原文: [英文] [中文] 备注: None 摘要: 近年来,机器人领域通过大规模多任务行为克隆发起了多项构建通用机器人策略的努力。然而,这些策略的直接部署导致了不理想的性能,策略在面对未见过的状态和任务时表现不佳。我们如何突破这些模型的性能瓶颈,并将其能力提升到新的高度?在本文中,我们提出了FLaRe,一种大规模强化学习微调框架,该框架集成了稳健的预训练表示、大规模训练和梯度稳定化技术。我们的方法将预训练策略对齐到任务完成上,在先前展示的任务和全新任务及实施中均达到了最先进的(SoTA)性能。具体来说,在一组长时间跨度的移动操作任务中,FLaRe在未见过的环境中达到了79.5%的平均成功率,相较于之前的SoTA方法,在模拟环境中绝对提升了23.6%,在真实机器人上绝对提升了30.7%。通过仅使用稀疏奖励,我们的方法能够在最小的人力投入下实现对超出预训练数据的新能力的泛化。此外,我们展示了在不到一天的微调时间内对新实施和行为的快速适应。视频可以在项目网站https://robot-flare.github.io/上找到。 |
[2] 评估和提升大型语言模型在学术出版物新颖性评估中的应用 标题: Evaluating and Enhancing Large Language Models for Novelty Assessment in Scholarly Publications 作者: Ethan Lin / Zhiyuan Peng / Yi Fang 原文: [英文] [中文] 备注: under review 摘要: 最近的研究主要从语义角度评估大型语言模型(LLMs)的创造力/新颖性,使用的是认知科学的基准。然而,在学术出版物中评估新颖性仍是一个尚未充分探索的领域。在本文中,我们引入了一个学术新颖性基准(SchNovel),用于评估LLMs在学术论文中评估新颖性的能力。SchNovel由从arXiv数据集中抽取的跨越六个领域的15000对论文组成,这些论文的发表日期相隔2到10年。在每对论文中,假设较新发表的论文更具新颖性。此外,我们提出了RAG-Novelty,它通过利用相似论文的检索来模拟人类审稿人的评审过程,以评估新颖性。大量实验提供了对不同LLMs评估新颖性能力的见解,并证明RAG-Novelty优于最近的基准模型。 |
[3] 带有平均池化的随机子采样 标题: Stochastic Subsampling With Average Pooling 作者: Bum Jun Kim / Sang Woo Kim 原文: [英文] [中文] 备注: 17 pages, 8 figures 摘要: 深度神经网络的正则化一直是实现更高泛化性能而不出现过拟合问题的重要课题。尽管流行的Dropout方法提供了正则化效果,但它会导致输出的不一致性,从而可能降低深度神经网络的性能。在本研究中,我们提出了一种新的模块,称为随机平均池化,它在池化中引入了类似Dropout的随机性。我们描述了随机子采样和平均池化的特性,并利用它们设计了一个没有任何不一致性问题的模块。随机平均池化在没有任何由于不一致性问题导致的潜在性能下降的情况下实现了正则化效果,并且可以轻松地插入现有的深度神经网络架构中。实验表明,用随机平均池化替换现有的平均池化在各种任务、数据集和模型中都能带来一致的改进。 |
[4] 面向时间序列数据的领域无关自动描述文本生成 标题: Domain-Independent Automatic Generation of Descriptive Texts for Time-Series Data 作者: Kota Dohi / Aoi Ito / Harsh Purohit / Tomoya Nishida / Takashi Endo / Yohei Kawaguchi 原文: [英文] [中文] 备注: None 摘要: 由于带有描述性文本的时间序列数据稀缺,训练一个模型来为时间序列数据生成描述性文本是具有挑战性的。在这项研究中,我们提出了一种系统生成领域无关的时间序列数据描述性文本的方法。我们确定了两种创建时间序列数据和描述性文本对的不同方法:前向方法和后向方法。通过实施新颖的后向方法,我们创建了时间自动观测描述(TACO)数据集。实验结果表明,使用TACO数据集训练的基于对比学习的模型能够在新领域中为时间序列数据生成描述性文本。 |
[5] 使用潜在空间生成世界模型缓解自动驾驶车辆模仿学习中的协变量偏移 标题: Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models 作者: Alexander Popov / Alperen Degirmenci / David Wehr / Shashank Hegde / Ryan Oldja / Alexey Kamenev / Bertrand Douillard / David Nistér / Urs Muller / Ruchi Bhargava / Stan Birchfield / Nikolai Smolyanskiy 原文: [英文] [中文] 备注: 7 pages, 6 figures, for ICRA 2025 conference, for associated video file, see https://youtu.be/9FpDFD9aiFU 摘要: 我们提出使用潜在空间生成世界模型来解决自动驾驶中的协变量偏移问题。世界模型是一种神经网络,能够根据过去的状态和动作预测代理的下一个状态。通过在训练过程中利用世界模型,驾驶策略可以有效地减轻协变量偏移问题,而不需要大量的训练数据。在端到端训练过程中,我们的策略通过与人类演示中观察到的状态对齐来学习如何从错误中恢复,以便在运行时能够从训练分布之外的扰动中恢复。此外,我们引入了一种新颖的基于变压器的感知编码器,该编码器采用多视角交叉注意力和学习的场景查询。我们展示了定性和定量结果,表明在CARLA模拟器中的闭环测试中,相较于之前的最先进方法有显著改进,并展示了在CARLA和NVIDIA的DRIVE Sim中处理扰动的能力。 |
[6] SWE2:用于仇恨言论检测的子词增强和显著词强调框架 标题: SWE2: SubWord Enriched and Significant Word Emphasized Framework for Hate Speech Detection 作者: Guanyi Mou / Pengyi Ye / Kyumin Lee 原文: [英文] [中文] 备注: Published in CIKM 2020 摘要: 近年来,在线社交网络上的仇恨言论检测已成为新兴的热门话题之一。由于仇恨言论在在线社交网络中的广泛传播和快速传播速度,它通过增加偏见和伤害人们对社会产生了重大影响。因此,这引起了业界和学术界的关注和关切。在本文中,我们解决了仇恨言论问题,并提出了一种新颖的仇恨言论检测框架,称为SWE2,该框架仅依赖于消息内容并自动识别仇恨言论。特别是,我们的框架利用了词级语义信息和子词知识。它在直观上具有说服力,并且在有/无字符级对抗攻击的情况下表现良好。实验结果表明,在没有对抗攻击的情况下,我们提出的模型实现了0.975的准确率和0.953的宏观F1,优于7个最先进的基线。在极端对抗攻击(操纵50%的消息)下,我们的模型表现出强大的鲁棒性和显著的性能,达到了0.967的准确率和0.934的宏观F1。 |
[7] TSBP:通过测试时自引导边界框传播提高组织学图像中的目标检测 标题: TSBP: Improving Object Detection in Histology Images via Test-time Self-guided Bounding-box Propagation 作者: Tingting Yang / Liang Xiao / Yizhe Zhang 原文: [英文] [中文] 备注: MICCAI 2024 摘要: 在目标检测任务中,通常会应用一个全局阈值(例如0.5)来确定哪些边界框应包含在最终结果中。较高的阈值可以减少误报,但可能会导致漏掉大量的真实正样本。较低的阈值可以增加检测召回率,但也可能导致更多的误报。因此,使用一个预设的全局阈值(例如0.5)应用于所有边界框候选可能会导致次优的解决方案。在本文中,我们提出了一种测试时自引导边界框传播(TSBP)方法,利用地球移动距离(EMD)来增强组织学图像中的目标检测。TSBP利用高置信度的边界框来影响低置信度的边界框,利用它们之间的视觉相似性。这种传播机制使得边界框的选择变得可控、可解释且稳健,超越了简单阈值和不确定性校准方法的效果。重要的是,TSBP不需要额外的标注样本来进行模型训练或参数估计,不像校准方法那样。我们在组织学图像中的腺体检测和细胞检测任务上进行了实验。结果表明,当与最先进的基于深度学习的检测网络结合使用时,我们提出的TSBP显著提高了检测结果。与其他方法(如不确定性校准)相比,TSBP在不使用额外标注样本的情况下,提供了更稳健和准确的目标检测预测。代码可在https://github.com/jwhgdeu/TSBP获取。 |
[8] Layout-Corrector:缓解离散扩散模型中的布局粘连现象 标题: Layout-Corrector: Alleviating Layout Sticking Phenomenon in Discrete Diffusion Model 作者: Shoma Iwai / Atsuki Osanai / Shunsuke Kitada / Shinichiro Omachi 原文: [英文] 备注: Accepted by ECCV2024, Project Page: https://iwa-shi.github.io/Layout-Corrector-Project-Page/ 摘要: 布局生成是一项通过合成具有类别、位置和大小等属性的元素来创建和谐布局的任务。人类设计师通过实验元素的放置和修改来创建美观的布局,然而,我们观察到当前的离散扩散模型(DDMs)在生成布局后难以纠正不和谐的布局。在本文中,我们首先提供了关于DDMs中布局粘滞现象的新见解,然后提出了一个简单但有效的布局评估模块Layout-Corrector,该模块与现有的DDMs结合使用,以解决布局粘滞问题。我们提出了一个基于学习的模块,能够在考虑复杂构图特征的整体布局和谐性的情况下,识别布局中的不和谐元素。在生成过程中,Layout-Corrector评估生成布局中每个标记的正确性,将得分低的标记重新初始化为未生成状态。然后,DDM使用高分标记作为线索重新生成和谐的标记。在常见基准测试中,Layout-Corrector与各种最先进的DDMs结合使用时,一贯提升了布局生成性能。此外,我们的广泛分析表明,Layout-Corrector(1)成功识别错误标记,(2)促进了对保真度-多样性权衡的控制,以及(3)显著减轻了与快速采样相关的性能下降。 |
[9] 低比特大语言模型综述:基础、系统与算法 标题: A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithms 作者: Ruihao Gong / Yifu Ding / Zining Wang / Chengtao Lv / Xingyu Zheng / Jinyang Du / Haotong Qin / Jinyang Guo / Michele Magno / Xianglong Liu 原文: [英文] [中文] 备注: Ruihao Gong leads the overall organization of the survey, with Yifu Ding and Jinyang Du contributing to Sections 2 and 3. Xingyu Zheng is responsible for authoring Section 4, while Chengtao Lv and Zining Wang collaborate on Section 5. Haotong Qin, Jinyang Guo, Michele Magno, and Xianglong Liu provide guidance during the whole process and assist in refining the final manuscript 摘要: 大型语言模型(LLMs)在自然语言处理方面取得了显著的进展,在各种任务中展示了卓越的性能。然而,昂贵的内存和计算需求对其实际部署提出了重大挑战。低比特量化作为一种关键方法,通过减少模型参数、激活和梯度的比特宽度,从而降低内存使用和计算需求,已成为解决这些挑战的重要途径。本文对针对LLMs的低比特量化方法进行了全面综述,涵盖了基本原理、系统实现和算法策略。首先介绍了低比特LLMs的基本概念和新数据格式概述,然后回顾了在各种硬件平台上促进低比特LLMs的框架和系统。接着,我们分类并分析了用于高效低比特训练和推理的技术和工具包。最后,我们讨论了低比特LLMs的未来趋势和潜在进展。我们从基本、系统和算法角度进行的系统性概述,可以为未来通过低比特量化提高LLMs的效率和适用性提供宝贵的见解和指导。 |
[10] 通过简单的参数高效修改进行视觉-语言模型微调 标题: Vision-Language Model Fine-Tuning via Simple Parameter-Efficient Modification 作者: Ming Li / Jike Zhong / Chenxin Li / Liuzhuozheng Li / Nie Lin / Masashi Sugiyama 原文: [英文] [中文] 备注: EMNLP 2024 Main Conference 摘要: 最近在微调视觉-语言模型(VLMs)方面的进展见证了提示微调和适配器微调的成功,而经典的模型微调固有参数似乎被忽视了。人们认为,用少量样本微调VLMs的参数会破坏预训练的知识,因为微调CLIP模型甚至会降低性能。在本文中,我们重新审视了这一观点,并提出了一个新的视角:微调特定参数而不是全部参数将揭示经典模型微调在VLMs上的力量。通过我们细致的研究,我们提出了ClipFit,这是一种简单而有效的方法,可以在不引入额外参数开销的情况下微调CLIP。我们证明,仅通过微调特定的偏置项和归一化层,ClipFit可以将零样本CLIP的性能提高7.27%的平均调和平均准确率。最后,为了理解在CLIPFit中微调如何影响预训练模型,我们进行了广泛的实验分析,涉及内部参数和表示的变化。我们发现,低级文本偏置层和第一层归一化层的变化远大于其他层。代码可在 \url{https://github.com/minglllli/CLIPFit} 获取。 |
[11] PMSS:用于大语言模型微调的预训练矩阵骨架选择 标题: PMSS: Pretrained Matrices Skeleton Selection for LLM Fine-tuning 作者: Qibin Wang / Xiaolin Hu / Weikai Xu / Wei Liu / Jian Luan / Bin Wang 原文: [英文] [中文] 备注: None 摘要: 低秩适应(LoRA)及其变体最近因其能够避免过多的推理成本而备受关注。然而,LoRA仍然面临以下挑战:(1)低秩假设的限制;(2)其初始化方法可能不是最优的。为此,我们提出了PMSS(预训练矩阵骨架选择),该方法在利用预训练权重中固有的语义和语言信息的同时,实现了低成本的高秩更新。它通过从预训练权重矩阵中选择骨架,并仅学习一个小矩阵来实现这一点。实验表明,PMSS在任务中以更少的可训练参数优于LoRA和其他微调方法。我们证明了其有效性,特别是在处理复杂任务方面,如DROP基准(在LLaMA2-7B/13B上分别提高了3.4%和5.9%)和数学推理(在GSM8K的LLaMA2-7B、Mistral-7B和Gemma-7B上分别提高了12.89%、5.61%和3.11%)。代码和模型将很快发布。 |
[12] MaViLS,一个用于视频到幻灯片对齐的基准数据集,使用多模态对齐算法评估基线准确性,该算法利用语音、OCR和视觉特征 标题: MaViLS, a Benchmark Dataset for Video-to-Slide Alignment, Assessing Baseline Accuracy with a Multimodal Alignment Algorithm Leveraging Speech, OCR, and Visual Features 作者: Katharina Anderer / Andreas Reich / Matthias Wölfel 原文: [英文] [中文] 备注: None 摘要: 本文提出了一个用于对齐讲座视频与相应幻灯片的基准数据集,并介绍了一种利用语音、文本和图像特征的新型多模态算法。该算法的平均准确率为0.82,相比之下,SIFT的准确率为0.56,同时速度快了约11倍。通过动态规划,该算法尝试确定最佳的幻灯片序列。结果表明,惩罚幻灯片切换可以提高准确性。通过光学字符识别(OCR)获得的特征对高匹配准确性贡献最大,其次是图像特征。研究结果表明,仅音频转录就能提供有价值的对齐信息,并且在缺乏OCR数据时也很有用。不同讲座的匹配准确性差异突显了视频质量和讲座风格带来的挑战。新型多模态算法展示了对这些挑战的鲁棒性,强调了该方法的潜力。 |
[13] 可扩展的集成多样化用于OOD泛化和检测 标题: Scalable Ensemble Diversification for OOD Generalization and Detection 作者: Alexander Rubinstein / Luca Scimeca / Damien Teney / Seong Joon Oh 原文: [英文] [中文] 备注: Under review 摘要: 训练多样化的模型集成在实际应用中有多种用途,例如提供更好的分布外(OOD)泛化的模型选择候选,并通过贝叶斯原理实现OOD样本的检测。现有的一种多样化集成训练方法鼓励模型在提供的OOD样本上产生分歧。然而,这种方法计算成本高,并且需要明确区分的ID和OOD样本,因此仅在小规模设置中得到了验证。 方法:本文提出了一种适用于大规模设置(例如ImageNet)的可扩展集成多样化(SED)方法,该方法不需要OOD样本。相反,SED在训练过程中动态识别困难样本,并鼓励集成成员在这些样本上产生分歧。为了提高扩展性,我们展示了如何避免现有方法中对模型间的详尽成对分歧计算的高昂成本。 结果:我们通过在ImageNet上的实验评估了多样化的好处。首先,对于OOD泛化,我们在包括输出空间(经典)集成和权重空间集成(模型汤)在内的多种设置中观察到了多样化带来的巨大好处。其次,对于OOD检测,我们将集成假设的多样性转化为一种新颖的不确定性评分估计器,超越了大量的OOD检测基线。 代码可在此获取:https://github.com/AlexanderRubinstein/diverse-universe-public。 |
[14] 动态设备上大语言模型个性化的自适应自监督学习策略 标题: Adaptive Self-Supervised Learning Strategies for Dynamic On-Device LLM Personalization 作者: Rafael Mendoza / Isabella Cruz / Richard Liu / Aarav Deshmukh / David Williams / Jesscia Peng / Rohan Iyer 原文: [英文] [中文] 备注: First ASLS 摘要: 大型语言模型(LLMs)已经彻底改变了我们与技术的互动方式,但在个性化满足用户偏好方面,特别是在设备端应用中,仍然面临重大挑战。传统方法通常严重依赖标注数据集,并且可能资源密集。为了解决这些问题,我们提出了自适应自监督学习策略(ASLS),利用自监督学习技术动态个性化LLMs。该框架包括一个用户画像层,用于收集交互数据,以及一个神经适应层,用于实时模型微调。这种创新方法能够从用户反馈中持续学习,使模型生成的响应与用户特定的上下文高度一致。ASLS的自适应机制最大限度地减少了计算需求,并提高了个性化效率。各种用户场景的实验结果表明,ASLS在提升用户参与度和满意度方面表现优越,突显了其将LLMs重新定义为高度响应和上下文感知系统的潜力。 |
[15] PitRSDNet:预测内镜下垂体手术中剩余手术时间 标题: PitRSDNet: Predicting Intra-operative Remaining Surgery Duration in Endoscopic Pituitary Surgery 作者: Anjana Wijekoon / Adrito Das / Roxana R. Herrera / Danyal Z. Khan / John Hanrahan / Eleanor Carter / Valpuri Luoma / Danail Stoyanov / Hani J. Marcus / Sophia Bano 原文: [英文] [中文] 备注: Accepted to the Augmented Environments for Computer-Assisted Interventions (AE-CAI) Workshop at the Medical Image Computing and Computer-Assisted Interventions (MICCAI) Conference 2024 摘要: 准确的术中剩余手术时间(RSD)预测可以让麻醉师更准确地决定何时施用麻醉剂和药物,并通知医院工作人员准备接收下一位患者。因此,RSD在通过高效调度来改善患者护理和减少手术室成本方面起着重要作用。在内镜垂体手术中,由于可选步骤的选择导致工作流程序列的变化,手术时间的高度可变性使其具有独特的挑战性。本文提出了PitRSDNet用于预测垂体手术中的RSD,这是一种时空神经网络模型,能够从历史数据中学习,重点关注工作流程序列。PitRSDNet以两种形式将工作流程知识整合到RSD预测中:1)多任务学习,同时预测步骤和RSD;2)在时间学习和推理中将先前步骤作为上下文。PitRSDNet在一个包含88个视频的新内镜垂体手术数据集上进行了训练和评估,显示出相对于之前的统计和机器学习方法的竞争性性能改进。研究结果还强调了PitRSDNet如何利用先前步骤的知识提高异常病例的RSD精度。 |
[16] CNN深度混合 标题: CNN Mixture-of-Depths 作者: Rinor Cakaj / Jens Mehnert / Bin Yang 原文: [英文] 备注: Conference Paper of the Asian Conference on Computer Vision (ACCV) 2024 摘要: 我们介绍了一种用于卷积神经网络(CNNs)的新方法——深度混合(Mixture-of-Depths,MoD),该方法通过基于当前预测的相关性选择性地处理通道来提高CNNs的计算效率。该方法通过在卷积块(Conv-Blocks)内动态选择特征图中的关键通道进行集中处理,同时跳过不太相关的通道,从而优化计算资源。与需要动态计算图的条件计算方法不同,CNN MoD使用具有固定张量大小的静态计算图,从而提高了硬件效率。它在不需要定制CUDA内核、独特的损失函数或微调的情况下,加快了训练和推理过程。CNN MoD要么在减少推理时间、GMACs和参数的情况下匹配传统CNNs的性能,要么在保持相似的推理时间、GMACs和参数的情况下超越其性能。例如,在ImageNet上,ResNet86-MoD的性能比标准ResNet50高0.45%,在CPU上加速6%,在GPU上加速5%。此外,ResNet75-MoD在CPU上加速25%,在GPU上加速15%的情况下,达到了与ResNet50相同的性能。 |
[17] 大型语言模型中的反事实标记生成 标题: Counterfactual Token Generation in Large Language Models 作者: Ivi Chatzi / Nina Corvelo Benz / Eleni Straitouri / Stratis Tsirtsis / Manuel Gomez-Rodriguez 原文: [英文] [中文] 备注: None 摘要: 船长莱拉站在她可靠的船——“漩涡之怒”的舵位上,凝视着无尽的大海。莱拉的眼中涌出了泪水,她意识到一个痛苦的事实——她为了短暂的财富牺牲了一切,失去了船员的爱、她的家庭和她自己。虽然这个由大型语言模型生成的故事引人入胜,但人们可能会想——如果模型选择“船长梅芙”作为主角,故事会如何展开呢?我们无法知道。最先进的大型语言模型是无状态的——它们不维护任何内部记忆或状态。给定一个提示,它们使用自回归过程生成一系列的标记作为输出。因此,它们无法推理关于它们过去生成的标记的反事实替代。在这项工作中,我们的目标是增强它们的这种功能。为此,我们开发了一种基于Gumbel-Max结构因果模型的标记生成因果模型。我们的模型允许任何大型语言模型以几乎不增加成本的方式执行反事实标记生成,与普通标记生成相比,它的实现非常简单,不需要任何微调或提示工程。我们在Llama 3 8B-instruct上实现了我们的模型,并对反事实生成的文本进行了定性和定量分析。最后,我们展示了反事实标记生成在偏见检测中的应用,揭示了关于大型语言模型构建的世界模型的一些有趣见解。 |
[18] 如何连接语音基础模型和大型语言模型?什么重要,什么不重要 标题: How to Connect Speech Foundation Models and Large Language Models? What Matters and What Does Not 作者: Francesco Verdini / Pierfrancesco Melucci / Stefano Perna / Francesco Cariaggi / Marco Gaido / Sara Papi / Szymon Mazurek / Marek Kasztelnik / Luisa Bentivogli / Sébastien Bratières / Paolo Merialdo / Simone Scardapane 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLM)所取得的显著性能推动了研究人员将其应用于广泛的任务和输入模式。在语音转文本(S2T)任务中,新兴的解决方案包括通过适配器模块将语音基础模型(SFM)编码器的输出投射到LLM嵌入空间。然而,目前尚无研究探讨下游任务性能在多大程度上依赖于每个组件(SFM、适配器、LLM),也没有研究适配器的最佳设计是否取决于所选择的SFM和LLM。为填补这一空白,我们评估了5个适配器模块、2个LLM(Mistral和Llama)以及2个SFM(Whisper和SeamlessM4T)在两个广泛使用的S2T任务(即自动语音识别和语音翻译)中的组合。我们的结果表明,SFM在下游性能中起着关键作用,而适配器的选择影响适中,并且取决于SFM和LLM。 |
[19] 在计算病理学中基准测试领域泛化算法 标题: Benchmarking Domain Generalization Algorithms in Computational Pathology 作者: Neda Zamanitajeddin / Mostafa Jahanifar / Kesi Xu / Fouzia Siraj / Nasir Rajpoot 原文: [英文] [中文] 备注: None 摘要: 深度学习模型在计算病理学(CPath)任务中展示了巨大的潜力,但由于领域转移,其在未见数据上的表现往往会受到影响。解决这一问题需要领域泛化(DG)算法。然而,目前在CPath背景下对DG算法的系统评估仍然缺乏。本研究旨在通过7,560次交叉验证运行,对30种DG算法在3个难度不同的CPath任务中的有效性进行基准测试。我们使用一个统一且稳健的平台来评估这些算法,结合了特定模态的技术和最近的进展,如预训练基础模型。我们广泛的交叉验证实验提供了对各种DG策略相对性能的见解。我们观察到,自监督学习和染色增强方法始终优于其他方法,突显了预训练模型和数据增强的潜力。此外,我们引入了一个新的泛癌症肿瘤检测数据集(HISTOPANTUM),作为未来研究的基准。本研究为研究人员在选择适当的CPath任务DG方法时提供了宝贵的指导。 |
[20] 感知度量对音乐表示学习在流派分类中的影响 标题: The Effect of Perceptual Metrics on Music Representation Learning for Genre Classification 作者: Tashi Namgyal / Alexander Hepburn / Raul Santos-Rodriguez / Valero Laparra / Jesus Malo 原文: [英文] [中文] 备注: arXiv admin note: text overlap with arXiv:2312.03455 摘要: 自然信号的主观质量可以用客观的感知度量来近似。感知度量旨在近似人类观察者的感知行为,通常反映自然信号和神经通路中的结构。使用感知度量作为损失函数训练的模型可以从这些度量中包含的结构中捕捉到感知上有意义的特征。我们展示了使用从使用感知损失训练的自编码器中提取的特征可以在音乐理解任务(如流派分类)上提高性能,而不是直接将这些度量作为距离来学习分类器。这个结果表明,当使用感知度量作为表示学习的损失函数时,可以对新信号有更好的泛化能力。 |