公众号:咕泡AI,回复128 w未回消息
VX: xxwk009
B站原链接:【深度学习保姆级教学】草履虫都能看懂!理论到实战、入门到起飞!人工智能基础入门必看!【ML机器学习|DL深度学习|CV计算机视觉|NLP自然语言处理】-哔哩哔哩】 https://b23.tv/FW1mLhm
你好, 欢迎来到咕泡科技~
获取资料,一定要截图对应视频的【大标题】或者发对应的【视频链接】给我才能精准匹配资料哦
(但是现在我们已经放年假啦,正月初八正式上班,资料得初八下午1点半上班之后给你发送哈)
假期期间可以先看下这些资料学习提升: 链接:https://pan.baidu.com/s/1p-AmHE7VtNvTxU9dLTApRg?pwd=t7wp 提取码:t7wp
网盘地址:https://pan.baidu.com/s/1y2tOdI44ExmFix3lIqw7Tg?pwd=i1qu 提取密码:i1qu
愿你在新的一年里,龙马精神,龙腾虎跃,事业如日中天,生活步步高升!
VX: xxwk009
B站原链接:【【什么是CNN?】浙大大佬教你怎么卷CNN,卷积神经网络CNN从入门到实战,通俗易懂草履虫听了都点头(人工智能、深度学习、机器学习、计算机视觉)-哔哩哔哩】 https://b23.tv/Fst7uEL
阿文
图神经网络
链接:https://pan.baidu.com/s/16nompSE-riaEAtjrz9lYlA?pwd=3fmh 提取码:3fmh --来自百度网盘超级会员V4的分享
GitHub地址:动手学深度学习
工具名称 | 工具作用 | 在线网站 |
---|---|---|
ChatPaper | 通过ChatGPT实现对论文进行总结,帮助科研人进行论文初筛 | https://chatpaper.org/ |
ChatReviewer | 利用ChatGPT对论文进行优缺点分析,提出改进建议 | https://huggingface.co/spaces/ShiwenNi/ChatReviewer |
ChatImprovement | 利用ChatGPT对论文初稿进行润色、翻译等 | 学术版GPT |
ChatResponse | 利用ChatGPT对审稿人的提问进行回复 | https://huggingface.co/spaces/ShiwenNi/ChatResponse |
ChatGenTitle | 利用百万arXiv论文元信息训练出来的论文题目生成模型,根据论文摘要生成合适题目 | https://drive.google.com/file/d/1akrC4-YnYdiyD1_VK-92hncN7HS0FLf5/view?usp=sharing |
HemaGraph: Breaking Barriers in Hematologic Single Cell Classification with Graph Attention
血液学单细胞图形注意分类中的突破障碍
在血液细胞群分类领域,流式细胞仪数据中错综复杂的模式需要先进的分析工具。
本文介绍了 "HemaGraph",这是一种基于图形注意网络(GAT)的新型框架,用于从流式细胞仪数据中对血液细胞进行单细胞多类分类。
利用图形注意网络的强大功能,我们的方法可以捕捉细胞之间的微妙关系,提供高度准确的患者特征描述。根据对 30 名患者数据的评估,HemaGraph 展示了五种不同细胞类别的分类性能,优于传统方法和最先进的方法。
此外,该框架的独特之处还在于 HemaGraph 的训练和测试阶段,它被应用于包含数十万个节点和两百万条边的超大图,以检测低频细胞群(例如,一个细胞群的频率为 0.01%),准确率高达 98%。我们的研究结果凸显了 HemaGraph 在改善血液病多类分类方面的潜力,为患者个性化干预铺平了道路。
据我们所知,这是首次使用 GAT 和图形神经网络(GNN)对单细胞流式细胞仪数据中的细胞群进行分类。我们设想将这种方法应用到更大的患者群体和其他血液病的单细胞数据中。
癌症是全球主要健康威胁之一。癌症发病率的早期个性化预测对高危人群至关重要。本研究介绍了一种基于现代递归生存深度学习算法的新型癌症预测模型。
研究对象包括 160,407 名来自韩国癌症预防研究-II 生物库血液队列的参与者。数据链接的设计确保了匿名性,数据收集通过全国范围内的体检进行。使用一致性指数(c-index)评估了十个癌症部位的预测性能,并对 nDeep 及其多任务变体、Cox 比例危险(PH)回归、DeepSurv 和 DeepHit 进行了比较。
我们的模型对所有十种癌症的 c 指数都超过了 0.8,其中肺癌的 c 指数最高,达到了 0.8922。它们的表现优于 Cox PH 回归和其他生存深度神经网络。
本研究提出了一种生存深度学习模型,据我们所知,该模型在有删减的健康数据集上表现出了最高的预测性能。未来,我们计划研究解释变量与癌症之间的因果关系,以降低癌症发病率和死亡率。
心脏数字孪生是捕捉患者心脏关键功能和解剖特征的计算工具,用于研究疾病表型和预测治疗反应。如果与大规模计算资源和大型临床数据集搭配使用,数字孪生技术就能在虚拟队列中进行虚拟临床试验,从而快速开发治疗方法。
在这里,我们介绍了一种基于常规获取的心脏磁共振(CMR)成像数据和标准 12 导联心电图(ECG)的心室解剖和电生理功能个性化自动流水线。利用基于 CMR 的解剖模型,一种顺序蒙特卡洛近似贝叶斯计算推理方法被扩展到从心电图推断电激活和再极化特征。利用反应-Eikonal 模型进行了快速模拟,包括 Purkinje 网络和生物物理上详细的复极化亚细胞离子电流动力学。对于每个患者,参数的不确定性是通过推断心室模型群体而不是单一模型来体现的,这意味着参数的不确定性可以传播到治疗评估中。
此外,我们还开发了从反应-Eikonal 到单域模拟的转换技术,从而可以对心脏电生理学进行更逼真的模拟。我们在一名健康女性受试者身上演示了这一管道,我们推断出的反应-Eikonal 模型再现了患者的心电图,皮尔逊相关系数为 0.93,而转换后的单域模拟相关系数为 0.89。然后,我们将多非利特的效应应用到该受试者的单域模型群体中,结果显示 QT 和 T 峰至 T 端延长与剂量相关,与大群体药物反应数据一致。
自动评估损伤和疾病严重程度是数据驱动医学的一项关键挑战。我们提出了一个新颖的框架来应对这一挑战,该框架利用完全在健康人身上训练的人工智能模型。
基于置信度的异常特征描述(COBRA)评分利用了这些模型在遇到受损或患病患者时置信度下降的情况,以量化它们与健康人群的偏差。我们应用 COBRA 评分来解决目前临床评估中风患者上半身功能障碍的一个主要局限性。黄金标准的 Fugl-Meyer 评估(FMA)需要由训练有素的评估员亲自进行 30-45 分钟的评估,这限制了监测频率,使医生无法根据每位患者的进展情况调整康复方案。
COBRA 评分可在一分钟内自动计算,在一个独立的测试队列中,两种不同数据模式的 COBRA 评分均与 FMA 评分密切相关:可穿戴传感器和视频。为了证明该方法在其他情况下的通用性,COBRA 评分还被用于量化磁共振成像扫描中膝关节骨性关节炎的严重程度。
联合学习(FL)是一种机器学习框架,它能让多个组织在不与中央服务器共享数据的情况下训练一个模型。但是,如果数据是非相同独立分布的(非 IID),它的性能就会明显下降。这在医疗环境中是个问题,因为病人群体的变化会极大地导致医院间的分布差异。
个性化 FL 通过考虑特定地点的分布差异来解决这一问题。聚类 FL 是个性化 FL 的一种变体,通过将不同医院的患者聚类为不同组别,并对每个组别进行单独的模型训练,从而解决了这一问题。然而,由于聚类过程需要交换患者级别的信息,隐私问题仍然是一个挑战。以前解决这个问题的方法是使用聚合数据形成聚类,但这会导致分组不准确和性能下降。
在本研究中,我们提出了保护隐私的基于社区的联合机器学习(PCBFL),这是一种新颖的聚类 FL 框架,可在保护隐私的同时使用患者级数据对患者进行聚类。PCBFL 使用加密技术 "安全多方计算"(Secure Multiparty Computation)来安全地计算医院间患者级别的相似性得分。
然后,我们使用 eICU 数据集中的 20 个站点训练了一个联合死亡率预测模型,对 PCBFL 进行了评估。我们将 PCBFL 的性能增益与传统和现有的聚类 FL 框架进行了比较。我们的结果表明,PCBFL 成功地形成了具有临床意义的低、中、高风险患者队列。PCBFL 优于传统和现有的聚类 FL 框架,平均 AUC 提高了 4.3%,AUPRC 提高了 7.8%。
英国生物样本库的标准化表型代码与住院患者相关,但许多只在门诊接受治疗的患者却缺少表型代码。我们介绍了一种表型识别方法,该方法可为所有英国生物样本库参与者估算表型代码。
POPDx(基于人群的客观表型深度外推法)是一种双线性机器学习框架,可同时估计 1538 个表型代码的概率。我们从英国生物库中提取了 392,246 人的表型和健康相关信息,用于 POPDx 的开发和评估。我们将患者的 12,803 个 ICD-10 诊断代码转换成 1,538 个表型代码,作为金标准标签。对 POPDx 框架进行了评估,并与其他现有的多表型自动识别方法进行了比较。
POPDx 可以预测训练中罕见甚至未观察到的表型。我们展示了 22 种疾病类别中多表型自动识别能力的大幅提升,及其在识别与每种表型相关的关键流行病学特征方面的应用。
POPDx 有助于为下游研究提供定义明确的队列。这是一种通用方法,可应用于数据多样但不完整的其他生物库。
I-II 期癌症临床试验设计旨在加快药物开发。在无法在短时间内确定疗效的情况下,通常将研究分为两个阶段:
i) 第一阶段,仅根据毒性数据提高剂量,并寻找最大耐受剂量(MTD)组; ii) 第二阶段,在最大耐受剂量组内寻找最具疗效的剂量。 在连续剂量水平领域,目前可用的方法是在第一阶段后固定 MTD,并放弃所有收集到的第一阶段疗效数据。然而,当各阶段都有一个独特的患者群体时,这种方法显然效率不高。
在本文中,我们提出了一种两阶段设计方案,用于两种细胞毒性药物的联合治疗,假定整个研究过程中只有一个患者群体。在第一阶段,我们采用过量控制条件升级法(EWOC)来分配连续的患者群。在第二阶段,我们采用自适应随机化方法,沿着不断更新的估计 MTD 曲线将患者分配到药物组合中。我们在实际案例研究中进行了大量模拟,对所提出的方法进行了评估。
由于测量数据稀疏且容易出错、个体内部相关性强、数据缺失以及轨迹形状各异,分析健康研究中的纵向数据具有挑战性。虽然混合效应模型(MM)能有效解决这些难题,但它们仍然是参数模型,可能会产生计算成本。相比之下,功能主成分分析(FPCA)是一种针对规则和密集功能数据开发的非参数方法,能以较低的计算成本灵活描述时间轨迹。
本文介绍了一项实证模拟研究,评估了 FPCA 在稀疏且易出错的重复测量中的表现,以及它与 MM 相比在不同缺失数据方案下的稳健性。结果表明,FPCA 非常适合因遗漏而导致的随机数据缺失,但涉及最频繁和系统性遗漏的情况除外。
与 MM 一样,FPCA 在非随机缺失机制下也会失效。在一项嵌套于人口老龄化队列的病例对照研究中,应用 FPCA 描述了临床痴呆前四种认知功能的变化轨迹,并与匹配对照组的认知功能变化轨迹进行了对比。未来痴呆症病例的平均认知功能衰退与匹配对照组的平均认知功能衰退出现了突然的背离,在确诊前 5 到 2.5 年出现了急剧的加速。
我们介绍了 Point2SSM,这是一种新颖的无监督学习方法,可直接从原始点云构建基于对应关系的统计形状模型(SSM)。
SSM在临床研究中至关重要,它能对骨骼和器官的形态变化进行群体级分析。传统的 SSM 构建方法有其局限性,包括对无噪声表面网格或二元体积的要求、对假设或模板的依赖,以及因同时优化整个队列而导致的推理时间延长。Point2SSM 克服了这些障碍,它提供了一种数据驱动型解决方案,可直接从原始点云推导出 SSM,从而减轻了推理负担,并随着点云更容易获取而提高了适用性。
虽然三维点云深度学习在无监督表示学习和形状对应方面取得了成功,但其在解剖学 SSM 构建方面的应用在很大程度上还未得到探索。我们在 SSM 任务中对最先进的点云深度网络进行了基准测试,结果表明这些网络在应对噪声、稀疏或不完整输入和有限训练数据等临床挑战时的鲁棒性有限。Point2SSM 通过基于注意力的模块解决了这些问题,从学习到的点特征中提供了有效的对应映射。我们的研究结果表明,所提出的方法在精确的表面采样和对应方面明显优于现有的网络,能更好地捕捉群体水平的统计数据。
本研究旨在采用一种新方法,分析在骨肉瘤患者化疗过程中降低接受剂量强度(RDI)对其生存率的影响。在这种情况下,毒副作用是死亡率的风险因素,也是未来暴露水平的预测因素,从而引入了分配后混杂因素。
采用来自骨肉瘤随机临床试验(RCT)BO03 和 BO06 的化疗给药数据,通过三种基于 RDI 的暴露策略模拟目标试验:
1)标准 RDI; 2)降低 RDI; 3)高度降低 RDI。 对组织学反应(HRe)较差或较好的亚组患者进行调查。首先使用治疗反概率加权法(IPTW)将原始人群转化为模拟目标随机队列的伪人群。然后,采用边际结构 Cox 模型进行效应修正。条件平均治疗效果(CATEs)最终以减少/高度减少 RDI 策略的限制平均存活时间与标准存活时间之间的差异来衡量。
CATEs 的置信区间是通过一种新颖的基于 IPTW 的引导程序获得的。根据 HRe 发现了显著的效应修正。RDI降低幅度的增加导致反应差和反应好的患者的趋势截然不同:降低幅度越大,反应差(反应好)的患者的生存率越好(恶化)。本研究介绍了一种新方法,可
(i)全面解决与化疗数据分析相关的挑战, (ii)减轻毒性-治疗-调整偏倚, (iii)重新利用现有的 RCT 数据进行回顾性分析,使其超出原试验的预期范围。
从市场营销、政策制定到个性化推荐,提升模型在各种应用中都至关重要。其主要目标是学习异质性人群的最佳治疗分配。现有研究的一个主要方向是修改决策树算法的损失函数,以识别具有异质性治疗效果的队列。另一种方法是使用现成的监督学习算法分别估算治疗组和对照组的个体治疗效果。
众所周知,直接模拟异质性治疗效果的前一种方法在实践中优于后一种方法。然而,现有的基于树的方法大多局限于单一治疗和单一对照的使用情况,只有少数扩展到多个离散治疗。在本文中,我们提出了对基于树的方法进行推广,以解决多种离散和连续值处理的问题。
由于众所周知的因果树算法具有理想的统计特性,我们将重点放在该算法的推广上,但我们的推广技术也可应用于其他基于树的方法。我们将通过实验和真实数据实例来证明我们提出的方法的有效性。
许多部分识别问题的特征是一个函数在一个集合上的最优值,而函数和集合都需要通过经验数据进行估计。尽管在凸问题上取得了一些进展,但这种一般情况下的统计推断仍有待发展。
为了解决这个问题,我们通过对估计集合的适当放宽,推导出了最优值的渐近有效置信区间。然后,我们将这一一般结果应用于基于人群的队列研究中的选择偏倚问题。
我们的研究表明,现有的敏感性分析通常比较保守且难以实施,而在我们的框架下,通过人口的辅助信息,可以使敏感性分析的信息量大大增加。我们进行了一项模拟研究,以评估我们的推断程序的有限样本性能,并以英国生物库队列中教育对收入的因果效应为例,对我们的推断程序进行了总结。
我们证明了我们的方法可以利用可信的人口水平辅助约束条件产生有信息量的界限。我们在 R 软件包 selectioninterval 中实现了这一方法。
COVID-19 大流行造成了毁灭性的经济和社会破坏,使全球医疗机构的资源捉襟见肘。因此,全国范围内都在呼吁建立模型来预测 COVID-19 患者的住院和重症情况,以便为有限医疗资源的分配提供依据。我们响应了其中一项针对儿科人群的呼吁。为了应对这一挑战,我们利用电子健康记录研究了儿科人群的两项预测任务:
1)预测哪些儿童更有可能住院; 2)在住院儿童中,哪些人更有可能出现严重症状。我们利用新型机器学习模型 MedML 来应对全国儿科 COVID-19 数据挑战。 MedML 基于医学知识和倾向分数从 600 多万个医学概念中提取最具预测性的特征,并通过图神经网络 (GNN) 将异构医学特征之间的特征关系纳入其中。我们利用全国队列协作(N3C)数据集的数据,对 143605 名患者的住院预测任务和 11465 名患者的严重程度预测任务进行了 MedML 评估。我们还报告了详细的群体级和个体级特征重要性分析,以评估模型的可解释性。
与最佳基线机器学习模型相比,MedML 的 AUROC 得分最高提高了 7%,AUPRC 得分最高提高了 14%,在全国所有九个地理区域以及大流行开始以来的所有三个月时间跨度内均表现出色。我们的跨学科研究团队开发了一种方法,将临床领域知识作为新型机器学习模型的框架,这种模型比目前最先进的数据驱动特征选择方法更具预测性和可解释性。
在此,我们介绍 DIVE:数据驱动的顶点演化推断(Data-driven Inference of Vertexwise Evolution)。DIVE 是一种基于图像的疾病进展模型,具有单顶点分辨率,旨在从短期纵向数据集重建大脑病理学的长期模式。DIVE 对大脑皮层表面具有相似时间动态的顶点生物标记测量值进行聚类,同时估算每个聚类中顶点测量值的平均轨迹。DIVE 将大脑皮层划分为具有共同进展模式的区域,从而为个体疾病提供新的特征。
DIVE 还能进一步估算每个受试者每次就诊的疾病阶段和进展速度,从而有可能加强临床试验或管理的分层。在模拟数据上,只要簇间的平均轨迹有足够大的差异,DIVE就能恢复地面实况簇及其基本轨迹。我们在两个队列的数据上演示了 DIVE,这两个队列分别是阿尔茨海默氏症神经影像倡议(ADNI)和英国痴呆症研究中心(DRC),其中包括后皮质萎缩(PCA)和典型阿尔茨海默氏症(tAD)患者。
DIVE发现两个独立数据集(ADNI和DRC)中tAD受试者萎缩的空间模式相似,并进一步揭示了不同疾病(tAD vs PCA)和不同类型生物标志物数据的不同病理模式:磁共振成像(MRI)的皮层厚度与正电子发射断层扫描(PET)的淀粉样蛋白负荷。
最后,DIVE还可以使用任何一种体素或顶点测量方法(包括雅各布压缩图、扩散成像的分数各向异性(FA)图或其他PET测量方法)来估计大脑中病理的细粒度空间分布。DIVE 源代码可在线获取: https://github.com/mrazvan22/di
在过去十年中,美国吸毒过量死亡人数达到了惊人的比例。除了每年的原始死亡人数本身令人担忧之外,令人震惊的情况还来自于这一比率的急剧加快,从2015年到2016年增加了21%。
传统的公共卫生监测存在自身的偏差和局限性,而数字流行病学则提供了一个新的视角,可从网络和社交媒体中提取信号,作为官方统计数据的补充。在本文中,我们提出了一种计算方法来识别数字群组,从而提供有关阿片类药物危机的最新补充信息。
我们介绍了一种信息检索算法,该算法适用于识别社交媒体上的相关讨论子空间,用于挖掘对 Reddit 上有关阿片类药物消费的讨论表现出明确兴趣的用户数据。此外,尽管用户群具有匿名性质,但仍有近 150 万用户在美国州一级进行了地理定位,与人口普查的人口分布非常相似。我们在州一级估算了鸦片剂消费的流行率,从而得出了一个新的指标,其中包含了标准监测中未完全编码的信息。
最后,我们进一步提供了一个特定领域词汇表,其中包含从用户生成的内容中提取的非正式词汇和街道术语,研究人员和从业人员可利用该词汇表实施新颖的数字公共卫生监测方法,以支持政策制定者抗击阿片类药物流行。
结核病(TB)仍然是一个全球性的健康问题,也是传染病致死的主要原因。治疗结核病的关键步骤是筛查高危人群和早期发现疾病,而胸部 X 光(CXR)成像是使用最广泛的成像方式。因此,最近人们对基于人工智能的结核病筛查解决方案产生了浓厚的兴趣,因为在资源有限的情况下,缺乏训练有素、具备 CXR 解读专业知识的医护人员。
在这一迫切需求的推动下,世界卫生组织(WHO)最近建议使用计算机辅助肺结核诊断,我们介绍了 TB-Net,这是一种专为肺结核病例筛查量身定制的自我关注深度卷积神经网络。更具体地说,我们利用机器驱动的设计探索,构建了一个高度定制化的带有注意力凝聚器的深度神经网络架构。我们进行了可解释性驱动的性能验证过程,以验证 TB-Net 的决策行为。对来自多国患者队列的 CXR 数据进行的实验表明,所提出的 TB-Net 能够达到 99.86%/100.0%/99.71% 的准确性/灵敏度/特异性。两位分别拥有 10 年和 19 年以上经验的委员会认证放射科医生对部分病例进行了放射科医生验证,结果显示放射科医生的解释与 TB-Net 用于结核病例检测的关键因素一致,放射科医生发现了异常病例。
虽然 TB-Net 还不是一个可投入生产的解决方案,但我们希望作为 COVID-Net 计划一部分的 TB-Net 开源发布能为研究人员、临床医生和公民数据科学家提供支持,推动这一领域与全球公共卫生危机的斗争。
虽然疼痛是老年人的常见病,但老年人对疼痛的治疗往往不足。尤其是患有中度至重度痴呆症的长期护理住院患者,由于痴呆症伴随的认知障碍,他们无法报告自己的疼痛。
护理人员承认,由于缺乏人力资源,有时甚至缺乏定期使用有效疼痛评估方法的专业知识,在长期护理机构中有效识别和管理疼痛是一项挑战。基于视觉的环境监测可以实现频繁的自动评估,这样护理人员就可以在出现疼痛迹象时自动得到通知。然而,用于疼痛检测的现有计算机视觉技术尚未在老年人或痴呆症患者的面部上得到验证,而且现有的疼痛面部表情数据集中也没有这类人群。
我们提出了首个在痴呆症人群中验证的基于视觉的全自动技术。我们的贡献有三方面。
首先,我们开发了一种基于深度学习的计算机视觉系统,用于检测视频数据集上的痛苦面部表情。 其次,我们引入了一种成对比较推理方法,该方法可对每个人进行校准,对面部表情的变化非常敏感,同时比序列模型更有效地使用训练数据。 第三,我们引入了一种快速对比训练方法,提高了跨数据集的性能。 我们的疼痛估计模型远远优于基线模型,尤其是在对痴呆症患者的面部进行评估时。预训练模型和演示代码请访问 https://github.com/TaatiTeam/pa
收集复杂的大型数据集已成为各个领域的普遍现象。可视化分析工具在探索和回答有关这些大型数据集的复杂问题方面发挥着越来越重要的作用。然而,许多可视化设计并不能同时可视化复杂数据集中的大量维度(例如,电子健康记录系统中数以万计的不同代码)。这一事实,再加上许多可视化分析系统能够根据一小部分可视化维度快速、临时地指定群体或队列,导致了引入选择偏差的可能性--当用户根据一组指定的维度创建队列时,也可能会引入许多其他不可见维度的差异。
这些意想不到的副作用可能导致队列不再能代表要研究的更大人群,从而对后续分析的有效性产生负面影响。我们介绍了可纳入高维探索性可视分析系统的选择偏差跟踪和可视化技术,重点是具有现有数据层次结构的医学数据。这些技术包括
(1) 基于树状结构的队列来源和可视化,用户指定一个基线队列,所有其他队列都要与之比较,每个队列的漂移都要进行可视化编码,以显示可能出现选择偏差的地方; (2) 一套可视化,包括基于冰柱图的新颖可视化,用于详细比较基线队列和用户指定的重点队列之间的各维度差异。 这些技术被集成到一个医疗时间事件序列可视化分析工具中。我们介绍了使用案例示例,并报告了领域专家用户访谈的结果。
对基因变异的研究有助于找到相关人群,从而确定易患常见疾病的人群,并解释疾病易感性的差异以及患者对药物的反应。机器学习算法正被越来越多地应用于识别相互作用的基因变异,以了解其复杂的表型特征。由于学习算法的性能不仅取决于数据的大小和性质,还取决于底层表征的质量,因此深度神经网络可以学习非线性映射,从而将龙胆紫数据转化为比人工特征选择更便于聚类和分类的表征。
在本文中,我们提出了卷积嵌入式网络,将卷积嵌入式聚类和卷积自编码器分类器这两种 DNN 架构结合起来,分别用于基于 GVs 对个体进行聚类和预测地理种族。我们对来自 1000 基因组和 Simons 基因组多样性项目的 9500 万个 GVs 采用了基于 CAE 的表征学习。以准确性和可扩展性为重点的定量和定性分析表明,我们的方法优于 VariantSpark 和 ADMIXTURE 等最先进的方法。其中,CEC 能在 22 小时内对目标人群进行聚类,调整后的兰德指数为 0.915,归一化互信息为 0.92,聚类准确率为 89%。相反,CAE 分类器可以预测未知样本的地理种族,其 F1 和马修斯相关系数(MCC)分别为 0.9004 和 0.8245。
为了对预测结果进行解释,我们使用梯度提升树(GBT)和 SHAP 识别了重要的生物标记物。总体而言,我们的方法比基线方法更透明、更快速,而且可以扩展到 5%到 100%的全人类基因组。
通过利用神经网络扩展 Cox 比例危险模型,提出了时间到事件预测的新方法。在嵌套病例对照研究方法的基础上,我们提出了一种损失函数,它能很好地扩展到大型数据集,并能拟合 Cox 模型的比例和非比例扩展。
通过模拟研究,验证了所提出的损失函数是 Cox 部分对数似然的良好近似值。在实际数据集上,将所提出的方法与现有方法进行了比较,发现其具有很强的竞争力,通常在布赖尔得分和二叉对数似然方面表现最佳。建议方法的 python 软件包可在 https://github.com/havakv/pycox 上获取。
生存分析/时间到事件模型非常有用,可以帮助企业预测客户何时购买产品、何时流失或何时拖欠贷款,从而帮助企业提高投资回报率。
本文以多任务逻辑回归(MTLR)模型为基础,以深度学习架构为核心,介绍了一种计算生存函数的新方法。根据协整指数(C-index)和布赖尔得分,该方法在本文披露的所有实验中均优于 MTLR,在发现非线性依赖关系时也优于 Cox Proportional Hazard(CoxPH)模型。
医学工作者利用生存模型来探索和了解患者协变量(如临床和遗传特征)与各种治疗方案的有效性之间的关系。标准生存模型(如线性考克斯比例危险模型)需要大量的特征工程或先验医学知识来模拟个体层面的治疗交互作用。虽然神经网络和生存森林等非线性生存方法本身就能模拟这些高层次的交互项,但它们尚未被证明是有效的治疗推荐系统。
我们介绍了 DeepSurv,它是一种考克斯比例危害深度神经网络和最先进的生存方法,用于模拟患者协变量与治疗效果之间的交互作用,从而提供个性化的治疗建议。
我们在模拟和真实生存数据上对 DeepSurv 进行了大量训练实验。我们证明,DeepSurv 的表现不亚于或优于其他最先进的生存模型,并验证了 DeepSurv 成功地模拟了患者协变量与其失败风险之间日益复杂的关系。然后,我们展示了 DeepSurv 如何建立患者特征与不同治疗方案有效性之间关系的模型,以说明 DeepSurv 如何用于提供个体治疗建议。
最后,我们在实际临床研究中对 DeepSurv 进行了训练,以展示它的个性化治疗建议将如何延长一组患者的生存时间。DeepSurv 的预测和建模能力将使医学研究人员能够将深度神经网络作为一种工具,用于探索、理解和预测患者特征对其失败风险的影响。
我们介绍了一种在时间到事件预测问题中以完全参数方式估计有删减数据的相对风险的新方法。我们的方法不需要像 Cox 比例危险模型那样,对基本生存分布的恒定比例危险性做出强有力的假设。
通过联合学习输入协变量的深度非线性表示,我们在多个具有不同删减水平的真实数据集上进行了大量实验,证明了我们的方法在用于估计生存风险时的优势。我们进一步证明了我们的模型在竞争风险情况下的优势。据我们所知,这是第一项涉及在存在删减的情况下对具有竞争风险的生存时间进行全参数估计的工作。
病人个体存活率分布的精确模型有助于确定临终病人的适当治疗方法。遗憾的是,风险评分(如来自 Cox 比例危险模型的评分)不能提供生存概率,单次概率模型(如预测 5 年概率的盖尔模型)只能提供单个时间点的概率,而标准卡普兰-米尔生存曲线只能提供一大类病人的群体平均值,这意味着它们并不针对个别病人。这就需要另一种工具来学习一种能提供个体生存分布的模型,从而给出所有时间段的生存概率--如 Cox 模型的扩展、加速失败时间、随机生存森林的扩展以及多任务逻辑回归。
本文首先介绍了此类 "个体生存分布"(ISD)模型的动机,并解释了它们与标准模型的不同之处。然后,本文讨论了评估此类模型的方法--即一致性、1-校准、布赖尔评分和各种版本的 L1-损失--然后提出并定义了一种新方法 "D-校准",它可以确定模型的概率估计是否有意义。我们还讨论了这些测量方法的不同之处,并利用它们在一系列生存数据集上评估了几种 ISD 预测工具。
Cox 比例危险模型是生存分析中的一种典型方法,用于在给定临床或遗传协变量的情况下预测病人的预期寿命--它的原始形式是一个线性模型。近年来,人们提出了几种将 Cox 模型推广到神经网络的方法,但没有一种方法在数值上正确且计算效率高。我们提出了 FastCPH,这是一种在线性时间内运行的新方法,同时支持标准的布雷斯罗方法和埃夫隆方法来处理并列事件。我们还在生存数据集上展示了 FastCPH 与 LassoNet(一种通过特征稀疏性提供可解释性的神经网络)相结合的性能。最终程序非常高效,能选择有用的协变量,并优于现有的 CoxPH 方法。
视网膜血管分割是筛查、诊断和治疗各种心血管和眼科疾病的基本步骤。由于测试图像可能使用不同的眼底相机拍摄,或受到各种病理变化的影响,因此鲁棒性是实际应用的最关键要求之一。
我们从数据增强的角度研究了这一问题,其优点是不需要额外的训练数据或推理时间。本文提出了两个新的数据增强模块,即信道随机伽玛校正和信道随机血管增强。前者在给定的训练彩色眼底图像上对整个图像的每个彩色通道进行随机伽马校正,而后者则利用形态学变换有意识地只增强或减弱细粒度血管区域。
通过依次应用这两个模块所产生的额外训练样本,模型可以学习到更多不变的、对全局和局部干扰具有鉴别力的特征。在真实世界和合成数据集上的实验结果表明,我们的方法可以提高经典卷积神经网络架构的性能和鲁棒性。源代码可在(url{https://github.com/PaddlePaddle/Research/tree/master/CV/robust_vessel_segmentation}.
准确评估心功能对于诊断心血管疾病、筛查心脏毒性和决定危重病人的临床治疗至关重要。然而,人类对心脏功能的评估主要集中在有限的心动周期采样上,尽管经过多年的训练,观察者之间仍存在相当大的差异。
为了克服这一挑战,我们在这里介绍一种基于视频的深度学习算法--EchoNet-Dynamic,它在分割左心室、估计射血分数和评估心肌病等关键任务中的表现超过了人类专家。在超声心动图视频上进行训练后,我们的模型能准确分割左心室,Dice相似系数为0.92,预测射血分数的平均绝对误差为4.1%,并能可靠地对射血分数降低的心力衰竭进行分类(曲线下面积为0.97)。
在另一个医疗系统的外部数据集中,EchoNet-Dynamic 预测射血分数的平均绝对误差为 6.0%,对射血分数降低型心衰的分类曲线下面积为 0.96。通过重复人类测量进行的前瞻性评估证实,该模型的方差与人类专家的方差相当或更小。通过利用多个心动周期的信息,我们的模型可以快速识别射血分数的细微变化,其可重复性高于人类评估,为心血管疾病的实时精确诊断奠定了基础。作为促进进一步创新的资源,我们还公开了一个包含 10,030 个注释超声心动图视频的大型数据集。
从三维心脏磁共振(MR)图像中自动、准确地分割全心和大血管在心血管疾病的计算机辅助诊断和治疗中发挥着重要作用。然而,由于不同受试者的心脏边界模糊不清且解剖结构差异较大,这项任务非常具有挑战性。在本文中,我们提出了一种新型的密集连接卷积神经网络,即 DenseVoxNet,用于从三维心脏磁共振图像中自动分割心脏和血管结构。
DenseVoxNet 采用三维全卷积架构,可有效进行容积到容积预测。从学习的角度来看,我们的 DenseVoxNet 有三个引人注目的优势。
首先,它通过密集连接机制最大限度地保留了层间信息流,从而简化了网络训练。 其次,它通过鼓励特征重用来避免学习冗余特征图,因此只需较少的参数就能实现高性能,这对于训练数据有限的医疗应用来说至关重要。 第三,我们增加了辅助侧路径,以加强梯度传播和稳定学习过程。我们将 DenseVoxNet 与 HVSMR 2016 挑战赛和 MICCAI 的先进方法进行了比较,证明了它的有效性,我们的网络取得了最佳的骰子系数。 我们还表明,与其他 3D ConvNets 相比,我们的网络可以用更少的参数实现更好的性能。
医疗数据集,尤其是生物库,除了图像之外,通常还包含大量具有丰富临床信息的表格数据。在实践中,临床医生通常在多样性和规模上都没有那么多数据,但仍希望部署深度学习解决方案。
随着医疗数据集规模的不断扩大和注释成本的日益高昂,人们越来越需要能进行多模态预训练和单模态预测的无监督方法。为了满足这些需求,我们提出了首个自监督对比学习框架,利用图像和表格数据来训练单模态编码器。我们的解决方案结合了 SimCLR 和 SCARF 这两种领先的对比学习策略,既简单又有效。
在实验中,我们使用心脏磁共振图像和来自 40,000 名英国生物库受试者的 120 个临床特征预测心肌梗塞和冠状动脉疾病 (CAD) 的风险,证明了我们框架的优势。
此外,我们还利用 DVM 汽车广告数据集展示了我们的方法对自然图像的通用性。我们利用表格数据的高可解释性,并通过归因和消减实验发现,描述大小和形状的形态计量表格特征在对比学习过程中具有极大的重要性,并能提高所学嵌入的质量。
最后,我们引入了一种新的监督对比学习形式--标签即特征(LaaF),即在多模态预训练过程中将地面真实标签作为表格特征附加上去,其效果优于所有监督对比基线。
对比表示学习在医学时间序列分析中至关重要,因为它可以减轻对劳动密集型、特定领域和稀缺专家注释的依赖。然而,现有的对比学习方法主要集中在单一数据层面,无法充分利用医学时间序列的复杂性。
为了解决这个问题,我们提出了 COMET,这是一个创新的分层框架,可以利用医学时间序列中所有固有层次的数据一致性。我们精心设计的模型系统地捕捉了四个潜在层面的数据一致性:观察、样本、试验和患者层面。
通过开发多层次的对比损失,我们可以学习到有效的表征,从而保持全面的数据一致性,以自我监督的方式最大限度地利用信息。我们在具有挑战性的独立于患者的环境中进行了实验。我们使用三个不同的数据集(包括心肌梗塞的心电图信号以及阿尔茨海默氏症和帕金森氏症的脑电图信号)将 COMET 与六种基线进行了比较。
结果表明,COMET 的性能始终优于所有基线,尤其是在所有数据集的标注数据比例分别为 10% 和 1% 的情况下。这些结果凸显了我们的框架在推进医学时间序列对比表示学习技术方面的重大影响。源代码见 https://github.com/DL4mHealth/COMET。
深度学习(DL)可从结直肠癌的常规病理切片中提取预测性和预后性生物标记物。例如,用于诊断 CRC 中微卫星不稳定性(MSI)的深度学习测试已于 2022 年获得批准。
目前的方法依赖于卷积神经网络(CNN)。变压器网络的性能优于卷积神经网络,并在许多应用中取而代之,但尚未大规模用于癌症生物标记预测。
此外,大多数 DL 方法都是在小规模患者队列中进行训练的,这限制了其临床实用性。 在这项研究中,我们开发了一种完全基于转换器的新管道,用于从病理切片进行端到端生物标记预测。
我们将预先训练好的变压器编码器和变压器网络结合起来进行补丁聚合,能够在患者水平上进行单目标和多目标预测。我们对来自 10 个结直肠癌队列的 9000 多名患者进行了训练。
与目前最先进的算法相比,基于完全转换器的方法大大提高了性能、泛化能力、数据效率和可解释性。在大型多中心队列中进行训练后,我们对手术切除标本 MSI 预测的灵敏度达到 0.97,阴性预测值达到 0.99。
我们首次证明,仅对切除标本进行的训练就能使内窥镜活检组织达到临床级别的性能,从而解决了一个长期存在的诊断问题
在数千张病理切片上训练的完全基于变压器的端到端管道,在手术切除和活检的生物标志物预测方面获得了临床级的性能。