scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
eess.IV方向,2024年9月26日更新论文20
[1] 使用卷积神经网络进行计算机辅助检测和分类乳腺X线照片
标题: Computer Aided Detection and Classification of mammograms using Convolutional Neural Network
作者: Kashif Ishaq / Muhammad Mustagis
原文:   [英文]  
备注: None
摘要:
乳腺癌是继肺癌之后女性死亡的主要原因之一。乳腺癌检测的进步可以通过早期检测提高患者的生存率。使用乳腺X线成像检测乳腺癌现在被认为是计算机辅助系统的关键步骤。研究人员已经解释了许多用于自动检测初期肿瘤的技术。早期乳腺癌的症状包括肿块和微钙化。由于肿瘤的形状、大小和位置存在差异,从正常组织中提取异常区域是困难的。因此,机器学习可以帮助医疗专业人员更准确地诊断疾病,而深度学习或神经网络是可以用来区分正常和异常乳腺的其中一种方法。在这项研究中,我们使用卷积神经网络(CNN)对乳腺X线片进行乳腺肿块的分类,分为正常和异常。我们使用了DDSM数据集,其中约有460张正常乳腺图像和920张异常乳腺图像。

[2] LiDAR-3DGS:用于多模态辐射场渲染的LiDAR增强3D高斯点云
标题: LiDAR-3DGS: LiDAR Reinforced 3D Gaussian Splatting for Multimodal Radiance Field Rendering
作者: Hansol Lim / Hanbeom Chang / Jongseong Brad Choi / Chul Min Yeum
原文:   [英文]  
备注: None
摘要:
在本文中,我们探讨了多模态输入对基于3D高斯散点(3DGS)辐射场渲染的能力。我们提出了LiDAR-3DGS,这是一种通过LiDAR生成的点云来增强3DGS输入的新方法,以显著提高3D模型的准确性和细节。我们展示了一种系统的LiDAR增强3DGS的方法,使其能够捕捉到诸如螺栓、孔径和其他细节等重要特征,这些特征通常仅靠图像特征是无法捕捉到的。这些细节对于远程监控和维护等工程应用至关重要。在不修改基础3DGS算法的情况下,我们证明了即使是适度添加LiDAR生成的点云,也能显著提升模型的感知质量。在30k次迭代时,我们的方法生成的模型在PSNR上提高了7.064%,在SSIM上提高了0.565%。由于本研究中使用的LiDAR是常用的商用级设备,因此观察到的改进是适度的,并且可以通过更高等级的LiDAR系统进一步增强。此外,这些改进可以补充其他辐射场渲染的衍生工作,并为未来LiDAR和计算机视觉集成建模提供新的见解。

[3] 通过隐私保护的联邦学习和不确定性量化来未来保障医学影像:综述
标题: Future-Proofing Medical Imaging with Privacy-Preserving Federated Learning and Uncertainty Quantification: A Review
作者: Nikolas Koutsoubis / Asim Waqas / Yasin Yilmaz / Ravi P. Ramachandran / Matthew Schabath / Ghulam Rasool
原文:   [英文]   [中文]  
备注: 21 pages, 5 figures, 4 tables, Review paper, preprint to Radiology AI. arXiv admin note: text overlap with arXiv:2406.12815
摘要:
人工智能(AI)在自动化各种医学影像任务方面展示了显著的潜力,这些任务可能很快在临床实践中成为常规,用于疾病诊断、预后、治疗计划和治疗后监测。然而,围绕患者数据的隐私问题是AI在医学影像中广泛应用的主要障碍,因为开发准确、可推广和稳健的人工智能模型需要大量多样的训练数据集。联邦学习(FL)提供了一种解决方案,使组织能够在不共享敏感数据的情况下协作训练AI模型。联邦学习在参与站点之间交换模型训练信息,如梯度。尽管前景广阔,联邦学习仍处于发展阶段,并面临若干挑战。特别是,敏感信息仍然可以从模型训练期间共享的梯度中推断出来。由于部署后潜在的数据分布变化可能影响模型性能,量化AI模型的不确定性至关重要。在FL中进行不确定性量化(UQ)尤其具有挑战性,因为参与站点之间的数据异质性。本综述全面审查了FL、隐私保护FL(PPFL)和FL中的UQ。我们识别了当前FL方法中的关键空白,并提出了未来的研究方向,以增强医学影像应用中的数据隐私和可信度。

[4] 使用合成点云对钢筋混凝土桥梁进行实例分割
标题: Instance Segmentation of Reinforced Concrete Bridges with Synthetic Point Clouds
作者: Asad Ur Rahman / Vedhus Hoskere
原文:   [英文]  
备注: 33 pages, 12 figures, Submitted to "Automation in Construction"
摘要:
国家桥梁检查标准要求进行详细的构件级桥梁检查。传统上,检查员通过根据损坏情况对结构部件进行评级来手动分配状况评级,但这一过程劳动强度大且耗时。自动化构件级桥梁检查过程可以促进更全面的状况记录,从而改善整体桥梁管理。尽管桥梁点云的语义分割已有研究,但桥梁构件的实例分割研究有限,部分原因是缺乏标注数据集以及训练模型的泛化困难。为了解决这一问题,我们提出了一种使用三种不同方法生成合成数据的新方法。我们的框架利用了经过超参数调优和新颖遮挡技术优化的Mask3D变压器模型。该模型在真实的LiDAR和摄影测量桥梁点云上分别实现了最先进的性能,展示了该框架在自动化构件级桥梁检查中的潜力。

[5] 基于前臂超声视频片段使用3D卷积神经网络的手势分类
标题: Hand Gesture Classification Based on Forearm Ultrasound Video Snippets Using 3D Convolutional Neural Networks
作者: Keshav Bimbraw / Ankit Talele / Haichong K. Zhang
原文:   [英文]   [中文]  
备注: Accepted to IUS 2024
摘要:
基于超声波的手部运动估计是一个具有重要人机交互应用的研究领域。前臂超声波提供了手部运动过程中肌肉形态变化的详细信息,这些信息可以用来估计手势。之前的研究主要集中在使用卷积神经网络(CNN)等技术分析二维(2D)超声图像帧。然而,这些二维技术无法捕捉到与连续手部运动对应的超声数据片段中的时间特征。本研究使用基于3D CNN的技术来捕捉超声视频片段中的时空模式以进行手势识别。我们比较了基于2D卷积网络、(2+1)D卷积网络、3D卷积网络以及我们提出的网络的性能。与使用2D卷积层训练的网络相比,我们的方法将手势分类准确率从96.5 +/- 2.3%提高到了98.8 +/- 0.9%。这些结果展示了使用超声视频片段在提高手势分类性能方面的优势。

[6] 一个用于脊髓损伤定位和解剖分割的具有深度学习基准的全新开源超声数据集
标题: A novel open-source ultrasound dataset with deep learning benchmarks for spinal cord injury localization and anatomical segmentation
作者: Avisha Kumar / Kunal Kotkar / Kelly Jiang / Meghana Bhimreddy / Daniel Davidar / Carly Weber-Levine / Siddharth Krishnan / Max J. Kerensky / Ruixing Liang / Kelley Kempski Leadingham / Denis Routkevitch / Andrew M. Hersh / Kimberly Ashayeri / Betty Tyler / Ian Suk / Jennifer Son / Nicholas Theodore / Nitish Thakor / Amir Manbachi
原文:   [英文]   [中文]  
备注: None
摘要:
尽管深度学习在众多领域催生了突破性进展,但其在临床环境中的广泛应用受到数据获取和标注成本高昂且耗时的限制。为了进一步促进医学机器学习的发展,我们提供了一个包含10,223张亮度模式(B-mode)图像的超声数据集,这些图像由25只猪的脊髓在挫伤前后进行的矢状切片组成。我们还对几种最先进的目标检测算法的性能指标进行了基准测试,以定位损伤部位,并对语义分割模型进行基准测试,以标注解剖结构,从而进行比较和创建特定任务的架构。最后,我们评估了分割模型在人体超声脊髓图像上的零样本泛化能力,以确定在我们的猪数据集上训练是否足以准确解释人体数据。我们的结果显示,YOLOv8检测模型在损伤定位方面优于所有评估的模型,达到了0.606的平均精度(mAP50-95)得分。分割指标表明,DeepLabv3分割模型在未见过的猪解剖结构上达到了最高的准确性,平均Dice得分为0.587,而SAMed在泛化到人体解剖结构时达到了最高的平均Dice得分(0.445)。据我们所知,这是目前公开提供给研究人员和医疗专业人员的最大标注脊髓超声图像数据集,也是首个公开报告的用于评估脊髓解剖标志物的目标检测和分割架构,以用于方法学开发和临床应用。

[7] 扩散模型在增强显微镜图像分辨率中的应用:教程
标题: Diffusion Models to Enhance the Resolution of Microscopy Images: A Tutorial
作者: Harshith Bachimanchi / Giovanni Volpe
原文:   [英文]   [中文]  
备注: 45 pages, 8 figures
摘要:
扩散模型已经成为生成建模中一种突出的技术,特别是在文本到图像翻译和超分辨率等任务中表现出色。在本教程中,我们提供了一个从零开始构建去噪扩散概率模型(DDPMs)的全面指南,特别关注将低分辨率显微镜图像转换为相应的高分辨率版本。我们提供了理论背景、数学推导以及使用PyTorch的详细Python代码实现,并介绍了提升模型性能的技术。

[8] 深度学习识别扫描透射电子显微镜:量化和减轻高斯噪声的影响
标题: Deep-Learning Recognition of Scanning Transmission Electron Microscopy: Quantifying and Mitigating the Influence of Gaussian Noises
作者: Hanlei Zhang / Jincheng Bai / Xiabo Chen / Can Li / Chuanjian Zhong / Jiye Fang / Guangwen Zhou
原文:   [英文]   [中文]  
备注: None
摘要:
扫描透射电子显微镜(STEM)是一种揭示材料形态和结构的强大工具,因此吸引了科学界和工业界的广泛关注。STEM技术卓越的空间(原子级)和时间(毫秒级)分辨率生成了大量高清数据,从而实现了材料的高容量和高速分析。另一方面,由STEM生成的大数据集的处理是耗时的,超出了基于人工手工操作的能力,这迫切需要基于计算机的自动化。在这项工作中,我们提出了一种深度学习掩膜区域卷积神经网络(Mask R-CNN)用于识别STEM成像的纳米颗粒,并生成相关的尺寸分析。该Mask R-CNN模型在具有不同高斯噪声、颗粒形状和颗粒尺寸的模拟STEM-HAADF结果上进行了测试,结果表明高斯噪声对识别准确性有决定性影响。通过在含噪声的STEM-HAADF结果上应用高斯和非局部均值滤波器,噪声的影响大大减轻,识别准确性显著提高。这种滤波-识别方法进一步应用于实验STEM-HAADF结果,与传统的阈值方法相比,获得了令人满意的准确性。这项工作中开发的基于深度学习的方法在分析STEM-HAADF生成的复杂结构和大数据方面具有巨大潜力。

[9] TSBP:通过测试时自引导边界框传播提高组织学图像中的目标检测
标题: TSBP: Improving Object Detection in Histology Images via Test-time Self-guided Bounding-box Propagation
作者: Tingting Yang / Liang Xiao / Yizhe Zhang
原文:   [英文]   [中文]  
备注: MICCAI 2024
摘要:
在目标检测任务中,通常会应用一个全局阈值(例如0.5)来确定哪些边界框应包含在最终结果中。较高的阈值可以减少误报,但可能会导致漏掉大量的真实正样本。较低的阈值可以增加检测召回率,但也可能导致更多的误报。因此,使用一个预设的全局阈值(例如0.5)应用于所有边界框候选可能会导致次优的解决方案。在本文中,我们提出了一种测试时自引导边界框传播(TSBP)方法,利用地球移动距离(EMD)来增强组织学图像中的目标检测。TSBP利用高置信度的边界框来影响低置信度的边界框,利用它们之间的视觉相似性。这种传播机制使得边界框的选择变得可控、可解释且稳健,超越了简单阈值和不确定性校准方法的效果。重要的是,TSBP不需要额外的标注样本来进行模型训练或参数估计,不像校准方法那样。我们在组织学图像中的腺体检测和细胞检测任务上进行了实验。结果表明,当与最先进的基于深度学习的检测网络结合使用时,我们提出的TSBP显著提高了检测结果。与其他方法(如不确定性校准)相比,TSBP在不使用额外标注样本的情况下,提供了更稳健和准确的目标检测预测。代码可在https://github.com/jwhgdeu/TSBP获取。

[10] 3DDX:通过双面深度估计从单一标准几何射线照片重建骨表面
标题: 3DDX: Bone Surface Reconstruction from a Single Standard-Geometry Radiograph via Dual-Face Depth Estimation
作者: Yi Gu / Yoshito Otake / Keisuke Uemura / Masaki Takao / Mazen Soufi / Seiji Okada / Nobuhiko Sugano / Hugues Talbot / Yoshinobu Sato
原文:   [英文]   [中文]  
备注: MICCAI 2024. 12 pages, 4 figures
摘要:
放射摄影因其经济实惠和低辐射暴露在骨科中被广泛使用。从单张放射照片进行3D重建,即所谓的2D-3D重建,提供了各种临床应用的可能性,但实现临床可行的精度和计算效率仍然是一个未解决的挑战。与计算机视觉的其他领域不同,X射线成像的独特属性,如射线穿透和固定几何形状,尚未被充分利用。我们提出了一种新颖的方法,该方法同时学习从X射线图像到计算机断层扫描配准的多个深度图(多块骨骼的前表面和后表面)。该方法不仅利用了X射线成像的固定几何特性,还提高了整个表面重建的精度。我们的研究涉及600个CT和2651个X射线图像(每位患者4到5个不同姿势的X射线图像),结果表明我们的方法优于传统方法,将表面重建误差从4.78毫米减少到1.96毫米。这一显著的精度提升和增强的计算效率表明我们的方法具有临床应用的潜力。

[11] SDCL:基于学生差异知情校正学习的半监督医学图像分割
标题: SDCL: Students Discrepancy-Informed Correction Learning for Semi-supervised Medical Image Segmentation
作者: Bentao Song / Qingfeng Wang
原文:   [英文]   [中文]  
备注: Accepted at MICCAI 2024
摘要:
半监督医学图像分割(SSMIS)已被证明在缓解有限医学标注数据问题上具有潜力。然而,由于错误的伪标签,确认偏差和认知偏差可能会影响流行的基于教师-学生的SSMIS方法。为了解决这一挑战,我们改进了均值教师方法,并提出了学生差异知情校正学习(SDCL)框架,该框架包括两个学生和一个不可训练的教师,利用两个学生之间的分割差异来指导自我校正学习。SDCL的本质是识别分割差异区域作为潜在的偏差区域,然后鼓励模型在这些区域内审查正确的认知并纠正自身的偏差。为了通过持续的审查和校正促进偏差校正学习,采用了两个校正损失函数来最小化正确分割体素距离并最大化错误分割体素熵。我们在三个公共医学图像数据集上进行了实验:两个3D数据集(CT和MRI)和一个2D数据集(MRI)。结果表明,我们的SDCL在Pancreas、LA和ACDC数据集上的Dice得分分别超过了当前的最先进方法(SOTA)2.57%、3.04%和2.34%。此外,我们的方法在ACDC数据集上的准确性非常接近全监督方法,并且在Pancreas和LA数据集上甚至超过了全监督方法。(代码可在 \url{https://github.com/pascalcpp/SDCL} 获取)。

[12] 有损压缩对使用深度学习的3D医学图像分割的影响
标题: The Effect of Lossy Compression on 3D Medical Images Segmentation with Deep Learning
作者: Anvar Kurmukov / Bogdan Zavolovich / Aleksandra Dalechina / Vladislav Proskurov / Boris Shirokikh
原文:   [英文]   [中文]  
备注: 12 pages, 5 figures, 2 tables; accepted on MICCAI Workshop on Advancing Data Solutions in Medical Imaging AI
摘要:
图像压缩是降低存储成本和提高互联网传输速度的重要工具。尽管深度学习应用在自然图像中广泛采用有损压缩技术,但在3D医学图像中并不普遍。通过使用三个CT数据集(17个任务)和一个MRI数据集(3个任务),我们证明了有损压缩高达20倍对深度神经网络(DNN)的分割质量没有负面影响。此外,我们还展示了在压缩数据上训练的DNN模型能够在未压缩数据上进行预测,反之亦然,且没有质量下降。

[13] MaViLS,一个用于视频到幻灯片对齐的基准数据集,使用多模态对齐算法评估基线准确性,该算法利用语音、OCR和视觉特征
标题: MaViLS, a Benchmark Dataset for Video-to-Slide Alignment, Assessing Baseline Accuracy with a Multimodal Alignment Algorithm Leveraging Speech, OCR, and Visual Features
作者: Katharina Anderer / Andreas Reich / Matthias Wölfel
原文:   [英文]   [中文]  
备注: None
摘要:
本文提出了一个用于对齐讲座视频与相应幻灯片的基准数据集,并介绍了一种利用语音、文本和图像特征的新型多模态算法。该算法的平均准确率为0.82,相比之下,SIFT的准确率为0.56,同时速度快了约11倍。通过动态规划,该算法尝试确定最佳的幻灯片序列。结果表明,惩罚幻灯片切换可以提高准确性。通过光学字符识别(OCR)获得的特征对高匹配准确性贡献最大,其次是图像特征。研究结果表明,仅音频转录就能提供有价值的对齐信息,并且在缺乏OCR数据时也很有用。不同讲座的匹配准确性差异突显了视频质量和讲座风格带来的挑战。新型多模态算法展示了对这些挑战的鲁棒性,强调了该方法的潜力。

[14] 光明降临:在外部照明下利用深度学习实现稳健的无透镜成像
标题: Let There Be Light: Robust Lensless Imaging Under External Illumination With Deep Learning
作者: Eric Bezzam / Stefan Peters / Martin Vetterli
原文:   [英文]   [中文]  
备注: 4 pages, dataset: https://doi.org/10.57967/hf/2970
摘要:
无镜头相机通过将图像形成从模拟光学转移到数字后处理,放宽了传统相机的设计限制。虽然可以启用新的相机设计和应用,但无镜头成像对不必要的干扰(其他光源、噪声等)非常敏感。在这项工作中,我们解决了一个尚未被研究的无镜头成像中的常见噪声源:外部照明,例如环境光和直接照明。能够在各种照明条件下保持鲁棒性将提高无镜头成像的实用性和采用率。为此,我们提出了多种恢复方法,通过将外部照明的估计纳入图像恢复过程来考虑外部照明。其核心是一种基于物理的重建方法,结合了可学习的图像恢复和去噪器,所有参数均使用实验收集的数据进行训练。与标准重建方法相比,我们的方法在定性和定量上均有显著改进。我们开源了我们的实现和一个包含多种照明条件下测量的25K数据集。

[15] 面向定制多模态脑部MRI生成的通用文本引导图像合成
标题: Towards General Text-guided Image Synthesis for Customized Multimodal Brain MRI Generation
作者: Yulin Wang / Honglin Xiong / Kaicong Sun / Shuwei Bai / Ling Dai / Zhongxiang Ding / Jiameng Liu / Qian Wang / Qian Liu / Dinggang Shen
原文:   [英文]   [中文]  
备注: 23 pages, 9 figures
摘要:
多模态脑磁共振(MR)成像在神经科学和神经病学中是不可或缺的。然而,由于MRI扫描仪的可及性和其冗长的采集时间,多模态MR图像并不常见。目前的MR图像合成方法通常在独立的数据集上针对特定任务进行训练,当应用于新的数据集和任务时,表现不佳。在此,我们提出了TUMSyn,一种文本引导的通用MR图像合成通用模型,它可以通过文本提示灵活生成具有所需成像元数据的脑MR图像,以常规采集的扫描为指导。为了确保TUMSyn的图像合成精度、多功能性和通用性,我们首先构建了一个包含31,407个3D图像、7种MRI模态、来自13个中心的脑MR数据库。然后,我们使用对比学习预训练了一个MRI特定的文本编码器,以有效地基于文本提示控制MR图像合成。对不同数据集和医生评估的广泛实验表明,TUMSyn可以在监督和零样本场景中生成具有指定成像元数据的临床意义的MR图像。因此,TUMSyn可以与获取的MR扫描一起使用,以促进大规模基于MRI的脑疾病筛查和诊断。

[16] Moner:使用无监督神经表示的欠采样径向MRI运动校正
标题: Moner: Motion Correction in Undersampled Radial MRI with Unsupervised Neural Representation
作者: Qing Wu / Chenhe Du / XuanYu Tian / Jingyi Yu / Yuyao Zhang / Hongjiang Wei
原文:   [英文]   [中文]  
备注: 18 pages, 13 pages
摘要:
在径向MRI中,运动校正(MoCo)是一个具有挑战性的问题,因为受试者的运动是不可预测的。当前最先进的(SOTA)MoCo算法通常使用大量高质量的MR图像来预训练神经网络,从而获得出色的重建效果。然而,对大规模数据集的需求显著增加了成本,并限制了模型的泛化能力。在这项工作中,我们提出了Moner,一种无监督的MoCo方法,它能够从欠采样的、受刚性运动干扰的k空间数据中同时解决无伪影的MR图像和准确的运动,而不需要训练数据。我们的核心思想是利用隐式神经表示(INR)的连续先验来约束这个病态的逆问题,从而实现理想的解决方案。具体来说,我们将准静态运动模型融入INR,使其具备校正受试者运动的能力。为了稳定模型优化,我们使用傅里叶切片定理将径向MRI重新表述为一个反投影问题。此外,我们提出了一种新颖的粗到细哈希编码策略,显著提高了MoCo的准确性。在多个MRI数据集上的实验表明,我们的Moner在域内数据上的性能可与SOTA MoCo技术相媲美,同时在域外数据上表现出显著的改进。

[17] 超越U-Net:评估视觉Transformer在显微图像分析中的语义分割能力
标题: Going Beyond U-Net: Assessing Vision Transformers for Semantic Segmentation in Microscopy Image Analysis
作者: Illia Tsiporenko / Pavel Chizhov / Dmytro Fishman
原文:   [英文]  
备注: to be published in ECCV 2024 BioImage Computing Workshop
摘要:
分割是显微镜图像分析中的关键步骤。近年来,已经开发了许多方法,从经典的分割算法到先进的深度学习模型。尽管U-Net仍然是生物医学分割任务中最受欢迎和最成熟的模型之一,但最近开发的基于变压器的模型有望增强显微镜图像的分割过程。在这项工作中,我们评估了包括UNETR、Segment Anything Model和Swin-UPerNet在内的变压器的有效性,并将它们与成熟的U-Net模型在各种图像模态(如电子显微镜、明场、组织病理学和相差显微镜)上进行了比较。我们的评估发现了原始Swin Transformer模型的若干局限性,我们通过架构修改来优化其性能。结果表明,这些修改在分割性能上优于经典的U-Net模型和未修改的Swin-UPerNet。这项比较分析突显了变压器模型在推进生物医学图像分割方面的潜力。它表明,通过仔细的修改,可以提高其效率和适用性,从而促进其在显微镜图像分析工具中的未来应用。

[18] PitRSDNet:预测内镜下垂体手术中剩余手术时间
标题: PitRSDNet: Predicting Intra-operative Remaining Surgery Duration in Endoscopic Pituitary Surgery
作者: Anjana Wijekoon / Adrito Das / Roxana R. Herrera / Danyal Z. Khan / John Hanrahan / Eleanor Carter / Valpuri Luoma / Danail Stoyanov / Hani J. Marcus / Sophia Bano
原文:   [英文]   [中文]  
备注: Accepted to the Augmented Environments for Computer-Assisted Interventions (AE-CAI) Workshop at the Medical Image Computing and Computer-Assisted Interventions (MICCAI) Conference 2024
摘要:
准确的术中剩余手术时间(RSD)预测可以让麻醉师更准确地决定何时施用麻醉剂和药物,并通知医院工作人员准备接收下一位患者。因此,RSD在通过高效调度来改善患者护理和减少手术室成本方面起着重要作用。在内镜垂体手术中,由于可选步骤的选择导致工作流程序列的变化,手术时间的高度可变性使其具有独特的挑战性。本文提出了PitRSDNet用于预测垂体手术中的RSD,这是一种时空神经网络模型,能够从历史数据中学习,重点关注工作流程序列。PitRSDNet以两种形式将工作流程知识整合到RSD预测中:1)多任务学习,同时预测步骤和RSD;2)在时间学习和推理中将先前步骤作为上下文。PitRSDNet在一个包含88个视频的新内镜垂体手术数据集上进行了训练和评估,显示出相对于之前的统计和机器学习方法的竞争性性能改进。研究结果还强调了PitRSDNet如何利用先前步骤的知识提高异常病例的RSD精度。

[19] 使用高保真台式模型在内窥镜垂体手术中通过实时器械追踪进行自动化手术技能评估
标题: Automated Surgical Skill Assessment in Endoscopic Pituitary Surgery using Real-time Instrument Tracking on a High-fidelity Bench-top Phantom
作者: Adrito Das / Bilal Sidiqi / Laurent Mennillo / Zhehua Mao / Mikael Brudfors / Miguel Xochicale / Danyal Z. Khan / Nicola Newall / John G. Hanrahan / Matthew J. Clarkson / Danail Stoyanov / Hani J. Marcus / Sophia Bano
原文:   [英文]   [中文]  
备注: 7 pages, 6 figures
摘要:
改进的外科手术技能通常与改善的患者结果相关,尽管评估是主观的、劳动密集型的,并且需要特定领域的专业知识。自动化的数据驱动指标可以缓解这些困难,正如现有的微创手术中机器学习器械跟踪模型所展示的那样。然而,这些模型仅在有限的腹腔镜手术数据集上进行了测试,重点是孤立的任务和机器人手术。在本文中,引入了一个新的公共数据集,重点是模拟手术,使用内窥镜垂体手术的鼻相作为示例。模拟手术允许在一个现实但可重复的环境中进行,这意味着从自动评估中获得的见解可以被新手外科医生用来在模拟器上磨练他们的技能,然后再进行实际手术。PRINTNet(垂体实时器械跟踪网络)已被创建为此自动评估的基线模型。它由DeepLabV3用于分类和分割;StrongSORT用于跟踪;以及NVIDIA Holoscan SDK用于实时性能,PRINTNet在每秒22帧的运行速度下实现了71.9%的多目标跟踪精度。使用此跟踪输出,多层感知器在预测外科技能水平(新手或专家)方面达到了87%的准确率,“总手术时间与器械可见时间的比率”与较高的外科技能相关。因此,这证明了在模拟内窥镜垂体手术中自动评估外科技能的可行性。新的公开可用数据集可以在这里找到:https://doi.org/10.5522/04/26511049。

[20] 使用深度学习技术对前列腺癌组织病理图像中的Gleason分级进行分类:YOLO、视觉变换器和Vision Mamba
标题: Classification of Gleason Grading in Prostate Cancer Histopathology Images Using Deep Learning Techniques: YOLO, Vision Transformers, and Vision Mamba
作者: Amin Malekmohammadi / Ali Badiezadeh / Seyed Mostafa Mirhassani / Parisa Gifani / Majid Vafaeezadeh
原文:   [英文]  
备注: None
摘要:
前列腺癌是影响男性健康的主要问题之一,Gleason评分系统是诊断和预后评估的主要方法。该系统依赖于专家病理学家评估前列腺组织样本并分配Gleason等级,这是一项需要大量时间和手工努力的任务。为了解决这一挑战,已经探索了人工智能(AI)解决方案来自动化评分过程。鉴于这些挑战,本研究评估并比较了三种深度学习方法——YOLO、Vision Transformers和Vision Mamba在准确分类组织病理学图像中的Gleason等级方面的有效性。目标是提高前列腺癌管理中的诊断精度和效率。本研究利用了两个公开可用的数据集,Gleason2019和SICAPv2,来训练和测试YOLO、Vision Transformers和Vision Mamba模型的性能。每个模型的评估基于其准确分类Gleason等级的能力,考虑的指标包括假阳性率、假阴性率、精确度和召回率。研究还考察了每种方法在临床环境中的计算效率和适用性。Vision Mamba在所有指标上表现出色,达到了高精度和召回率,同时将假阳性和假阴性降到最低。YOLO在速度和效率方面表现出色,特别适合实时分析。Vision Transformers在捕捉图像中的长程依赖性方面表现优异,但其计算复杂度较其他模型更高。Vision Mamba在组织病理学图像中的Gleason等级分类中表现为最有效的模型,提供了准确性和计算效率之间的平衡。