干货|大神教你如何参加kaggle比赛——根据CT扫描图预测肺癌

  • 时间:
  • 浏览:1

残差卷积块富含另有另二个 不同的堆叠,每个堆叠具有不同数量的卷积层。最浅的堆叠不想扩大接收域,日后 它也都还可否另有另二个 具有1x1x1过滤器的卷积层。然而,最深的堆叠扩大接收域日后 ,不同堆叠的內部图被连接和缩小后再次与输入图叠加到一块儿。最后,经过应用ReLu非线性激活函数

通过实验发现以下是减少假阳性最有效的架构 

在最后2个星期,另一各自 使用全版的恶性肿瘤网络并去掉 了另有另二个 聚合层就得到了最好的处里方案。 

作者信息

结节分割

为了减少扫描中的信息量,首先尝试检测肺结节。日后 LUNA数据集富含患者扫描图中每个结节的位置和直径信息,许多都还可否通过建立了另有另二个 网络来分割扫描中的结节,并使用数据集中记录的信息来训练搭建的分割网络。

为了处里不同CT扫描图仪产生胸部扫描图的立体像素间距地处的差异,对所有CT扫描图图进行缩放和插值,以使得每个立体像素代表1x1x1毫米的立方体。为了训练分割网络,将CT扫描图切割为64x64x64大小的图像块将其作为分段网络的输入。对于每个图像块其真值是另有另二个 32x32x32毫米的掩膜掩膜中的每个立体像素表示该立体像素算不算 在结节内。掩模通过使用结节注释中的直径来构造。 

本文由北邮@爱可可-爱生活老师推荐,阿里云云栖社区组织翻译。

结节分割网络无法看过全版内容,许多在肺內部产生了许多假阳性结果,了缓解你这个问題报告 ,采用手工设计的肺分割土依据。

起初,采用了累似 于Kaggle教程中提出的策略它使用许多內部学操作来分割肺。但通过检查后发现,肺分割的质量和计算时间太依赖于架构元素的大小。

另一各自 尝试几种不同的土依据去结合节点的恶性肿瘤预测,下面强调并有的是最成功的聚合土依据:

大海捞针

为了挑选算不算 另一各自 会发展肺癌,不得不寻找
早期阶恶性肺结节,而在肺CT中发现早期恶性结节就像大海捞针。为了说明你这个声明下面一块儿LngC / IDRI数据集中的恶性结节的例子,哪些地方地方数据集是从LUng Node Analysis Grand Challenge中获得的,本文广泛使用了你这个数据集通常也被称为LUNA数据集,该数据集中富含已被诊断患有肺癌的患者 

集成 

另一各自 整体合并了50个最后阶段模型的预测日后 Kaggle允许两次提交许多使用以下并有的是集成土依据:

更多深层文章,请关注:https://yq.aliyun.com/cloud



Linkedin:https://www.linkedin.com/in/elias-vansteenkiste-35050839/

Elias Vansteenkiste :博士后研究员,对深层学习、人工智能、人机界面和计算机辅助设计算法感兴趣。

都还可否看过使用的网络与FPR网络架构非常累似 。

日后 重新缩放恶性肿瘤标签,以便它们在0和1之间表示。通过在LUNA数据集中抽取等量的不具有恶性肿瘤标签的候选结节来作为训练集。

另外使用均方误差(MSE)损失作为目标函数,比二进制交叉熵目标函数性能更好 

內部缩减块中1x1x1滤波器内核卷积层是用来减少內部的数量。滤波器内核的数量(f/2)是输入內部图数量f的一半。 

分割 

文章为简译,更为全版的内容,请查看原文

积极集成交叉验证用于挑选均匀混合的高分模型。在你这个集成中使用的模型对所有数据进行了训练,许多命名为“积极集成”。统一地混合哪些地方地方“好”模型以处里日后 在权重优化过程中具有较高修剪因子而原困着极少数模型集的风险。它还都还可否减少过载模型的影响。

附件为原文的pdf

空间缩减块通过应用不同的缩减土依据,输入张量的空间尺寸减半

本文将优化Dice系数作为目标函数,Dice系数是图像分割常用的度量标准。Dice系数的缺点在于若真值掩膜内越来越结节,则它的默认值为零每个图像块中需要有另有另二个 结节,并将其反馈给网络。应用平移和旋转增加土依据引入额外的变化,挑选大约的平移和旋转参数使得结节的一偏离 保留在64x64x64输入图像块的中心互近32x32x32立方体内。

网络架构如下图所示该架构主要基于U-net架构2D图像分割的通用架构),都还可否看过该架构主要由3x3x3无填充的滤波器卷积层组

在竞赛中上述问題报告 变得更糟糕,日后 需要从扫描日期的一年之内的一名患者中被诊断患有肺癌的患者CT现在现在开始预测肺癌。在另一各自 的病例中,患者日后 尚未发展为恶性结节。许多,假设直接对竞争对手的数据和标签进行训练是不合理的。 

Github:https://github.com/EliasVansteenkiste

最终采用的土依据是3D土依据,其重点是从围绕肺部的凸包中切出非肺腔。 

癌预测

使用假阳性减少网络对候选结节进行排序,并训练构建的恶性肿瘤预测网络日后 就都还可否在Kaggle数据集上训练另有另二个 肺癌预测网络。采用的土依据是通过相同的子网发送一组n个靠前的候选结节,并将最终汇聚层中的各个评分/预测/激活结合起来。

迁移学习

在训练了不同的架构后,另一各自 意识到需要更好的推理內部的土依据。实在CT扫描图被缩减到许多感兴趣的区域,但患者数量仍然很低,原困着恶性结节的数量很。许多,另一各自 专注于使用预先训练的权重初始化网络

迁移学习的思想在彩色图像分类任务中非常流行,其中大多数的迁移学习土依据是将ImageNet数据集上训练的网络作为其另一方网络的卷积层哪些地方地方卷积层在大数据集上学到了很好的內部,许多作为原先神经网络/原先分类任务的一偏离 重新使用(迁移)。然而,对于CT扫描图,需要另一方训练另有另二个 原先的网络

起初使用的是许多改进的fpr网络,日后是训练了另有另二个 网络来预测结节的大小。在这并有的是情况下,另一各自 的主要土依据反复使用卷积层,但有的是随机初始化。

合结节的预测

预测肺癌

Data Science Bowl是由Kaggle主办的年度数据科学比赛,今年的参赛题目是根据一年内诊断为癌症的人的胸部CT图像来进行预测肺癌。竞赛平台都还可否在此查看

为了完成此次挑战,由来自根特大学的博士生和博士后Andreas VerleysenElias VansteenkisteFrédericGodinIra KorshunovaJonas DegraveLionel PigouMatthias Freiberger组成机器学习团队Deep Breath,越来越任何另有另二个 成员具有关于医学图像分析或癌症预测方面的具体知识。比赛现在现在开始后,Deep Breath取得了9名的成绩!在这篇文章中将说明该团队采用的土依据。

斑点检测

你这个阶段对肺扫描中的每个立体像素进行预测,许多另一各自 想找出结节的中心,并将其中心将被用作结节候挑选的中心。

初始版本的resnet v2架构相比的另有另二个 重要区别是创建的网络现在现在开始时也都还可否另有另二个 卷积层。

结果

LUNA数据集的验证子集由118个患者总共238个结节的组成。通过分割和斑点检测后,发现229个结节中的,但仍然有大约17K个假阳性。为了减少假阳性,候选人按照假阳性减少网络给出的预测进行排名。 

Twitter:https://twitter.com/sailenav

介绍

从图中都还可否看过肺癌是全球癌症死亡的最常见原困着其次是乳腺癌。为了预防肺癌死亡,高风险个体正在使用小剂量的CT扫描图来进行筛查,这是日后 早期检测使肺癌患者的存活率增加了一倍从CT扫描图图中自动识别癌性病变都还可否节省放射科医生的时间这将使诊断变得更加实惠,从而挽救更多的生命。

为了通过胸部CT预测肺癌,总体策略是将高维CT图降维到许多感兴趣的区域,基于哪些地方地方感兴趣的区域来预测肺癌。下面将解释怎样才能训练2个网络来提取兴趣区域。



节检测 

最后的想法

挑战赛的很大一偏离 工作是建立另有另二个 全版的系统它包括相当多的步骤。日后 越来越时间全版了解每另有另二个 偏离 就是该系统还有很大的改进空间,另外感谢比赛组织者。

黑客排行榜

在比赛现在现在开始日后 ,巧妙地推出了排行榜的真标签利用了从提交预测时返回的高精度分数得到的信息。许多,每另一方都都还可否通过有限数量的提交结果更新排行榜。

通常,排行榜真实地表明了许多队伍的表现,但日后 队伍全版地处不知情中,这会其动力产生不利的影响。许多,Kaggle通过截断提交返回的分数来处里你这个情况的经常出现 

恶性肿瘤的预测

在比赛的最后2周,另一各自 发现LUNA数据集中的结节地处恶性肿瘤标签。哪些地方地方标签是LUNA所基于的LIDC-IDRI数据集的一偏离 。也都还可否当另一各自 训练了另有另二个 模型来预测个体结节/图像块的恶性肿瘤时,也能接近LB的最高分数 



LUNA数据集中平均恶性肺结节的半径为4.8 mm,而普通CT扫描图图分类整理的体积为50mm×50mm×50mm,真的如大海捞针一样即另一各自 正在寻找另有另二个 比输入量小一百万倍的內部;此外內部决定了整个输入体积的分类。这对于放射科医师来说是另有另二个 巨大的负担,一块儿对于使用卷积网络的常规分类算法来说,也是另有另二个 困难的任务

文章原标题《Predicting lung cancer》,作者:Elias Vansteenkiste,译者:海棠,审阅:

张量內部深灰色框表示,浅灰色方框内表示网络操作。C1卷积层是1x1x1大小的滤波器,C3卷积层是3×3×3大小的滤波器。将训练的网络用于分割LUNA和DSB数据集中患者CT扫描图,64x64x64的图像块以32x32x32的下行下行速率 取出,并将输出拼接在一块儿得到的另有另二个 张量中,张量中的每个值表示立体像素地处结节内的预测概率。 

本文使用高斯差分(DoG)土依据检测斑块,使用拉普拉斯算子计算密度较小的近似值。另外使用以下并有的是土依据都还可否降低结节候挑选的数量

Youtubu:https://www.youtube.com/EliasVansteenkiste