文献阅读-Artificial intelligence in assessment of hepatocellular carcinoma treatment response

Scroll Down

Abstract

人工智能(AI)继续影响着放射学的实践,肝细胞癌(HCC)的成像也不例外。本文由LI-RADS治疗反应(TR LI-RADS)工作组成员及其同事编写,介绍了人工智能应用于HCC治疗反应体积评估和评估的最新趋势。在HCC治疗反应分类系统的框架下,将讨论各种主题,包括放射组学、预后影像学发现和局部区域治疗(LRT)特定问题,重点是肝脏报告和数据系统治疗反应算法(LI-RADS TRA)。

Introduction

准确分析局部治疗(LRT)后肝细胞癌(HCC)的治疗反应对于确定是否需要额外治疗至关重要。然而,影像学评估可能具有挑战性,特别是考虑到可用lrt的范围。这些方法包括一系列基于动脉、基于放射和定位的技术,这些技术可能导致不同的治疗后变化。虽然对于这种标准化方法已经有了迅速发展的努力,包括以肝脏报告和数据系统(LI-RADS)治疗反应算法(TRA)的形式[1-3],但这些标准显然有改进的潜力,特别是使用人工智能(AI)技术。

人工智能在实践中的应用可能会提高放射科医生的能力[4]。在最近的文献中,人与机器之间的这种协同作用越来越明显[5,6],特别是在肝脏成像方面[7,8]。在这里,我们说明了人工智能在HCC治疗反应的预测和体积评估中的潜在价值,并讨论了LRT后HCC反应评估的几个方面。为了本讨论的目的,我们主要关注CT和MRI用于人工智能评估治疗反应的模式,尽管最近在使用对比增强超声的这一领域也取得了进展[9,10]。我们回顾了人工智能在回顾性评估治疗反应和前瞻性评估预期LRT疗效方面的进展,并特别关注相关人工智能方法和实现的细节。本文在人工智能的总称下讨论的相关算法包括随机森林等机器学习算法和卷积神经网络(cnn)等深度学习技术[11-13]。

image.png

LI‑RADS treatment response assessment (TRA)

2018年版的LI-RADS TRA描述了四种治疗反应类别:LR-TR不可评估、LR-TR不可存活、LR-TR模棱两可和LR-TR可行。表1总结了这些类别及其相关标准。LR-TR不可评估仅适用于由于图像退化或遗漏而无法评估治疗反应的情况,因此人工智能方法通常侧重于区分不可行、模棱两可和可行类别。

认识到LRT后预期的治疗特异性增强模式对于分配TRA类别至关重要。这些模式因具体的轻轨模式和轻轨与评估之间的间隔时间而异。我们将重点介绍9种常用的LRT(见图1):射频消融术(RFA)、微波消融术(MWA)、冷冻消融术、经皮乙醇消融术(PEA)、经动脉栓塞术(TAE)、经动脉化疗栓塞术(TACE)、药物洗脱头经动脉化疗栓塞术(DEB-TACE)、经动脉放射栓塞术(TARE)和立体定向体放疗(SBRT)。在RFA、MWA和PEA之后,预计不会有残留增强。与此同时,对于其他LRT包括冷冻消融、TAE、TACE、DEB-TACE、TARE和SBRT,可以观察到LRT后经常持续数月的薄线性边缘增强,TARE也相对独特,因为在使用钇-90治疗后的最初几个月可能出现结节性强化,而不表明肿瘤持续存活[14-16]。用SBRT治疗的病变也可能在放疗后的前3个月内短暂地增大大小和增强,有时被描述为假性进展,随后缩小大小和增强。与这些LRTs相关的预期结果的时间顺序差异形成了治疗反应评估的人工智能建模的关键基础。

Applications of AI following LRT for HCC

我们可以考虑将人工智能应用于LRT后HCC评估的两种广泛的建模范式。第一种范式包括利用治疗前和治疗后的数据作为模型特征或输入,以评估LRT后的疾病状态。从概念上讲,这意味着利用人工智能来确定治疗是否有效。相比之下,第二种范式涉及仅利用治疗前可用的数据来提取特征或模型输入,以预测给定的治疗是否有效。

第一种范式的一个例子是一个全自动管道,用于报告肿瘤大小的体积变化或生成LI-RADS治疗反应算法分类,其中人工智能治疗反应评估可以被认为是回顾性的。图2通过基于LI-RADS 2018版的示例报告模板展示了这些可能性的集合,用于治疗的肝脏病变。这些注释显示了嵌入在图片存档和通信系统(PACS)或电子健康记录(EHR)中的多面人工智能系统如何在放射科医生检查之前自动填充这样的模板。值得注意的是,考虑到各种预期的治疗后的表现,我们预计有限的临床实用对于这种范例中的人工智能系统来说,如果没有时间顺序信息或治疗历史作为模型输入。

在第二个范式中,人工智能治疗反应分析可以被认为是前瞻性的。Abajian等[17]使用logistic回归和随机森林模型分析了36例接受TACE治疗的HCC,以预测1个月随访MRI的HCC反应,仅给出TACE前的MRI和临床数据。另一个例子是Morshid等[18]研究了105例患者的多期CT扫描,目的是根据tace前成像和临床数据预测反应。根据实体肿瘤改良反应评价标准(mRECIST) tace后成像指南,hcc被分为tace易感或tace难治性。这项工作与Abajian等人[17]一样,使用了随机森林分类器。在一项概念相似但算法实现不同的工作中,Peng等[19]使用了从562名患者中提取的1687个CT图像补丁的数据集,用于预测随访时TACE治疗反应的4类(完全缓解、部分缓解、疾病稳定和疾病进展)。值得注意的是,与Morshid等人[18]和Abaijin等人[17]的工作相反,Peng等人[19]使用了一个带有ResNet50架构的CNN。使用这种深度学习方法,Peng等[19]仅使用图像数据而不使用临床或患者人口统计数据进行模型预测,达到83-85%的预测准确率。

image.png

Features for HCC treatment prediction

从这些例子中可以看出,这两种HCC治疗分析模式都有潜力利用多种类型的数据,而不是成像,以优化预测性能。从广义上讲,这类数据包括患者人口统计数据(如年龄和性别)、实验室数据(如:白蛋白和甲胎蛋白(AFP)),以及临床分期数据(如巴塞罗那临床肝癌(BCLC)分期)。在图像数据类别中,可以考虑在将图像数据输入机器学习模型之前,包括多个数据处理中间阶段的处理策略。潜在有用的预处理策略包括计算机断层扫描(CT)的阈值或衰减值的缩放或磁共振成像(MRI)强度值的信号强度值。其他计算强度更高的预处理形式包括肝脏分割、肿瘤分割和放射特征提取。

Clinical and demographic features

对于在第二种范式下设计的仅使用预处理数据的人工智能模型,临床和实验室数据输入的潜在效用是显而易见的。例如,Wu等人[20]使用人工神经网络(在Statistica中训练的多层感知器)研究了肝癌RFA后无病生存期(DFS)的预测,但没有直接将任何图像处理纳入其机器学习管道。他们在1年和2年的随访中使用15个临床特征来预测RFA治疗HCC后的DFS。这15项特征包括:年龄、性别、肿瘤大小、肿瘤数量、TACE治疗史、TACE术后复发、肝细胞癌治疗史、肝硬化、甲胎蛋白、总胆红素、天冬氨酸转氨酶(AST)、丙氨酸转氨酶(ALT)、白蛋白、血小板和BCLC阶段。值得注意的是,这15个特征并不是独立的,因为BCLC分期系统是基于东部肿瘤合作组织(ECOG)的表现状态、Child-Pugh评分、肿瘤范围大小和数量、门静脉侵犯和肝外受损伤。BCLC B期通常推荐TACE,而对于不符合切除或移植标准的0期或a期患者,通常推荐RFA。在BCLC标准中,Child-Pugh评分还取决于总胆红素、血清白蛋白、国际标准化比值(INR)、腹水的存在和肝性脑病的存在。理解这些临床特征之间的相互关系是至关重要的,因为一些机器学习算法,如Naïve贝叶斯分类器,是在假设特征是独立的基础上运行的。此外,这些特征与影像学特征之间可能存在相互关系,因为肿瘤大小和数量等特征可以在“临床”和“影像学”数据中同时表示。

Yu等人[21]也开发了一个逻辑回归模型,通过靶向蛋白质组学方法预测mRECIST指南对TACE的持续完全缓解,该方法将5种候选标记蛋白(LRG1、APCS、BCHE、C7和FCN3)与肿瘤数量、基线AFP和基线由维生素K缺失- ii (PIVKA-II)诱导的凝血酶原(基线AFP)等额外临床特征结合起来。该蛋白质组学驱动的逻辑回归模型在使用100例患者的训练数据集后,在80例患者的测试数据集上获得了0.813的曲线下面积(AUC)。

相比之下,Morshid等人[18]和Abajian等人[17]的工作将临床数据特征和从图像数据中自动提取的特征结合到他们的机器学习管道中。Morshid等[18]比较了单独训练BCLC分期与BCLC分期和图像特征的随机分类器。图像特征的添加将预测精度提高了11%的绝对值(74% vs 63%)。然而,同样值得注意的是,BCLC系统本身是Wu等[20]使用的15个特征(BCLC分期、肝硬化、肿瘤大小、肿瘤数量、白蛋白和总胆红素)中的6个特征的非线性封装。Abajian等[17]开发的最终随机森林模型总共只使用了5个特征,并组合了两个图像特征(tace前肿瘤信号强度和存在>2个肿瘤)具有3个临床和治疗特征(索拉非尼治疗、乙硫化油治疗和存在肝硬化)。然而,在特征选择阶段之前,总共考虑了25个二元特征:白蛋白水平、酒精性肝病、腹水、胆红素、脑病、乙型肝炎、丙型肝炎、移植状态、肝外转移的存在、淋巴结转移的存在、肝硬化、使用脂醇、索拉非尼治疗、性别和高加索种族。

此外,由于香港肝癌(HKLC)分期系统在亚洲人群之外获得了额外的验证,有可能取代BCLC分类,需要注意的是,这两种系统使用相似的基础临床数据进行分期[22-24]。因此,从机器学习的角度来看,这两种分类系统可能被视为同一临床数据的两种不同的非线性封装。事实上,当讨论未来人工智能的方向和发展时,人们可以预期BCLC和HKLC都将被回归树或逻辑回归模型所取代,回归树或逻辑回归模型训练类似的输入数据来预测生存。

例如,Wu等人[20]最近在上述工作中针对特定场景采取了这一方向的步骤,该工作使用ANN来预测RFA后的DFS。另一个例子是Akai等人[11]的工作,他们从127例患有可切除肝细胞癌的患者的CT数据中提取放射组学特征为了预测DFS和使用随机生存森林(RSF)来预测总生存(OS),然而,作为警告,他们的RSF仅达到DFS的平均一致性指数61.1%,OS的平均一致性指数为70.1%。这项工作的另一个局限性是,由于先前的TAE和担心碘化油沉积会破坏放射组学的纹理特征,31名患者被排除在研究之外[25]。

Imaging features: image representation

图像数据利用的一个重要的初始考虑因素是如何为特征提取准备数据。来自CT或MRI医学数字成像和通信(DICOM)图像集的三维体积数据阵列很少直接用作机器学习算法的输入,而不进行任何预处理。尽管深度学习算法可以直接应用于从DICOM中提取的像素值,但许多预处理的变体旨在修改图像对比度分辨率或调整DICOM像素阵列数据以与用于分析24位彩色图像的算法兼容。对于CT扫描,一个重要的考虑因素是如何通过窗宽和电平操作将衰减值映射到不同的像素值。例如,使用宽度为150 HU、水平为30 HU的肝脏窗口可以增强肝脏内的对比度分辨率,但也会降低或消除空气和脂肪之间的对比度,这对于预治疗肿瘤分析可能不是一个主要关注,但多个lrt会导致肿瘤部位产生空气。窗口和水平设置在肝脏内提供高对比度分辨率,但平衡脂肪和空气可能掩盖这一潜在的有用功能。为此,没有必要采用传统的窗口和级别方法作为预处理的一部分。事实上,在kaggle主办的2019年RSNA颅内出血检测竞赛中[26],前5名竞赛获胜者至少部分使用了衰减值预处理的复合方法,该方法在每个图像的红、蓝、绿(RGB)颜色通道中放置了不同的窗口宽度和电平设置。首选方案采用脑窗(0 ~ 80 HU)、硬膜下窗(-20 ~ 180 HU)和骨窗(-800 ~ 2000 HU)的组合。因此,合成彩色肝脏图像存在许多可能性,其最佳组合可能根据特定的机器学习应用和预测目标而变化。图3显示了基于肝肿瘤分割(LiTS)挑战数据集的轴向切片的肝脏腹部CT图像复合示例[27]。

image.png

除了像素强度值预处理之外,三维体数据的空间分辨率和维度重构的潜在影响也值得考虑。再次参考2019年RSNA颅内出血检测获奖者[26],前2个解决方案都使用在3通道轴向切片输入上训练的2D cnn作为初始预测阶段,然后将多个轴向切片模型的预测作为长短期记忆网络(LSTM)的输入。非图像DICOM数据被纳入竞争获胜模型的LSTM输入。Grewal等人先前描述了一个类似的颅内出血检测模型,该模型涉及DenseNet块和LSTM的组合,但没有进行多窗口组成预处理[28]。

将2D CNN与LSTM RNN相结合绝不是处理3D体积数据的唯一方法。另一种方法是将2D轴向图像平铺成单个复合2D图像,并将其用作神经网络的输入。例如,Ding等人使用来自阿尔茨海默病神经成像(ADNI)数据集的F-18氟脱氧葡萄糖(18F-FDG)正电子发射断层扫描(PET)图像来预测阿尔茨海默病、轻度认知障碍或两者都不预测,方法是在一张512 × 512像素分辨率的图像中以较低的空间分辨率排列16个轴向切片[29]。

然而,2D数据的3D上下文化也不是严格必要的。为了预测HCC对TACE的反应,Peng等人在562例患者的轴向CT切片的224x224x3像素斑块上训练了ResNet50 CNN,在不依赖非影像学临床数据特征或使用额外的机器学习算法的情况下,治疗反应类别预测的准确率为83-85%,例如在CNN预测输出之后加一个LSTM或者随机森林。

Imaging features: segmentation

对于肿瘤检测和分割,U-nets已成为首选的分割方法,95%的LiTS挑战模型使用U-nets就证明了这一点[27]。例如,Morshid等人的顺序方法[18]使用两个cnn提取图像特征,然后在放射组学处理后用作随机森林输入,值得注意的是,cnn专门用于肝脏和肿瘤分割,而不是直接生成特征或预测。这是通过U-net架构完成的[30-33],网络在公开可用的LiTS数据集[27]上进行训练,该数据集发布了131个CT扫描作为肝脏肿瘤分割挑战的训练数据。对于2017年医学图像计算和计算机辅助干预(MICCAI)挑战赛,61份有效提交文件中有58份使用了U-net架构的变体进行分割。

Meine等人的肝脏分割研究[34]证明了在正交切片上训练的3个U-nets优于受硬件内存限制的单片方向U-nets和3D U-nets。Wang等人证明迁移学习可以用来使肝脏分割模型适应多种模式,他们首先在300个破坏的梯度回声MRI序列上训练U-net,然后使用10个CT序列对CT进行训练推广,在230个CT序列验证集上获得0.94的Dice分数[35][36]。其他概念上类似的深度学习方法也被报道过[37,38]。Ibragimov等人也描述了针对门静脉分割的cnn,而不是针对SBRT规划中更一般的肝脏分割[39]。

一些研究也描述了U-nets和结构类似的全卷积网络(fcv)用于肝脏肿瘤和检测[40-44]。Vivanti等人[42]的工作尤其值得注意,他们展示了使用基于分割的cnn来提高肝脏CT上阅读器对新肿瘤的检测(从72%提高到86%)[45,46]。

然而,获取用于训练分割模型的带注释的体积数据并不是一个简单的过程,挑战包括轮廓描绘的高度观察者间可变性[47]。Joskowicz等[48]将划定体积重叠可变性量化为1 - Dice指数,并计算了11名放射科医生对896个肝脏肿瘤进行肝脏肿瘤轮廓的可变性。由此得出的两个观察者之间的平均体积重叠变异性在肝脏肿瘤中估计为17.8%。因此,使用有限数量的手动注释器开发的带注释的体积数据集可能会导致偏见进而影响在该数据集上训练的AI算法。

此外,尽管U-nets和fcn在肝脏和肝脏肿瘤分割中很受欢迎,但这些CNN方法绝不是唯一可用的方法。基于atlas的多种肝分割方法已经被开发出来[49-52]。统计形状模型也证明了其有效性[53-55]。这些方法可以作为FCN和基于cnn的U-net方法的重要比较。

Imaging features: radiomics

放射组学是一种新兴的方法,它可以将医学图像转化为高维定量数据,从而提供丰富的肿瘤信息,供进一步研究和分析[56]。由于放射组学依赖于对HCC患者常规进行的横断面成像研究,并且不需要任何额外的物理或分子检测,因此最近人们对使用放射组学诊断和评估HCC治疗反应的兴趣激增。

细胞和组织水平的肿瘤生物学和动力学信息可以通过纹理分析获得,这是一种基于评估体素的位置和强度及其异质性的放射组学方法。多项研究表明,纹理分析是评估HCC肿瘤异质性、预测治疗反应和生存以及基于预处理CT扫描制定治疗计划的有用工具[57]。

有多种软件程序可以将放射组学应用于数据集。很多都是商业性的。但是,也可以使用免费的开源软件包。在分割方面,3D-slicer (www.slicer.org)[58]是一个广泛使用的软件包,包括图像配准和半自动分割工具。itk-SNAP (www.itksnap.org)[59]是另一个基于linux的免费软件,用于图像分析、纹理计算和分割。特征提取可以使用哈佛医学院(Boston, MA)开发的免费开源Pyradiomics软件包来实现,该软件包基于Python语言进行特征提取[60]。由MD Anderson (Houston, TX)开发的IBEX也通过Matlab和C/ c++实现为放射组学工作流提供特征提取实现[61]。

在图像采集之后,HCC放射组学的过程通常从使用单个肿瘤区域或整个肿瘤体积的手动或半自动图像分割开始。然后通常使用专用的放射组学软件提取纹理特征。特征可以分为以下几个大类[62]:

  • 形状特征:这些特征用于描述ROI的形状及其几何属性。

  • 一阶统计特征:这些基于直方图的特征用于分析体素强度和个体体素值的分布,而不考虑空间关系。

  • 二阶统计特征:这些特征用于计算相邻体素之间的统计空间相互关系。它们包括基于灰度共生矩阵(GLCM)的特征,量化沿固定方向在预定距离内具有相似强度的体素的发生率;基于灰度游长矩阵(GLRLM)的特征,量化沿固定方向具有相同强度的连续体素[62,63]。

  • 高阶统计特征:这些特征涉及图像过滤器或对获取的图像进行数学变换的应用。它们包括分形分析(将模式应用于图像并计算包含特定值的体素的网格元素的数量)、闵可夫斯基泛函(评估具有一定阈值的体素的模式)、Gabor滤波器和小波变换(将图像光谱分解为频率和方向)以及高斯滤波图像的拉普拉斯变换[62,64]。

在特征提取之后,通过选择与研究的特定端点相关的特征子集来构建预测模型。值得注意的是,大量可用于分析的放射组学特征(通常是数百或数千个特征)通常会造成统计上的过拟合挑战,并且在独立测试数据上评估基于放射组学的模型对于理解模型性能至关重要。

Treatment specific considerations and challenges

Hui等[65]和Zhang等[66]最近研究了从MR图像中提取的放射组学特征在预测早期HCC复发中的作用。Hui等人[65]使用单一放射组学特征预测早期复发,准确率值在0.78至0.84之间,而Zhang等人[66]将13种不同的放射组学特征(包括基于直方图的特征、基于纹理的特征、基于灰度共发生矩阵(GLCM)的特征和基于灰度运行长度矩阵(GLRLM)的特征)组合成一个单一的放射组学评分,其训练和验证队列的总体预测性能均为0.84 AUC。

Radiomics in survival analysis

基于放射组学的评估已用于医学成像的许多方面,并显示出无需侵入性手术即可进行肿瘤分类的潜力。研究表明放射组学可以通过GLRLM、大小带矩阵(size zone matrix, SZM)等特征准确区分肾上腺肿瘤的良恶性。在HCC应答评估中,Morshid等[18]利用放射学特征建立统计模型,使用随机森林分类器预测HCC对预处理CT的TACE应答。他们在将专利分类为TACE易感或TACE难治性方面表现出很高的准确性,使TACE难治性患者能够更快地转向其他形式的治疗而不影响生存(图4)[18]。Akai等[11]利用放射组学特征和随机生存森林直接预测DFS和OS,与DFS的平均一致性指数为61.1%,与OS的平均一致性指数为70.1%。
image.png

Radiomics in the prediction of microvascular invasion

由于HCC的微血管侵袭(MVI)可以作为无复发生存的预测指标[67,68],因此已经开发了多种基于放射组学的模型来潜在地评估术前MVI[69-73]。Peng等[73]专门建立了一个乙肝病毒相关HCC模型,其中304例患者分为184例患者训练集和120例患者验证集。980放射组学特征最初是基于动脉和门静脉相位CT图像考虑的,并选择其中8个特征作为基于LASSO的放射组学特征,LASSO是一种利用特征选择来提高预测精度的回归分析。然后将该放射组学特征与AFP水平、低衰减晕存在、动脉肿瘤周围增强和非光滑肿瘤边缘状态等其他临床和影像学特征相结合,以预测MVI。

该模型在120例患者验证集上的c指数为0.844,同时也表明该联合方法比仅基于放射组学特征或仅基于AFP水平和更一般的非放射组学成像特征的模型具有更优越的性能。同样,Xu等人[71]在共495例患者中,基于7260个放射组学特征、15个临床因素和12个放射学评分建立了放射组学模型,在145例患者的测试集上达到0.889 AUC。他等[70]回顾性研究了145例患者,其中44例为验证组。

他们的方法将放射组学特征与AFP、中性粒细胞计数和术前血红蛋白实验室值相结合,报告的验证集AUC为0.844。Ni等[69]使用1044种纹理特征对206例患者进行了回顾性分析,并比较了21种不同的放射学技术。测试集保留了58名患者,他们发现LASSO和梯度增强决策树(GBDT)的组合达到了最佳效果,AUC为0.88。

在一项相关研究中,Banerjee等人[72]建立了一个放射基因组学模型,用于155名患者的MVI预测,该模型基于在CT上创建放射基因组学静脉侵入(RVI)特征,该特征由肿瘤内动脉的存在决定,低密度光环的缺失在肿瘤的衰减和肝实质的衰减之间没有一个急剧的转变。在他们的多机构数据集中,这些特征表明RVI的存在预测组织学MVI的灵敏度为76%,特异性为94%。

image.png

vRECIST in response to TACE

肝细胞癌对LRT反应的体积评估可能潜在地优于现有的单维评估工具(mRECIST)。研究表明,体积肿瘤评估比mRECIST更精确,观察者之间和观察者内部的可变性较小。然而,体积评估需要对肿瘤中的每个体素进行轮廓化,这可能非常费力且耗时[74-76]。最初尝试使用基于形状和强度的方法进行自动体积评估。这些方法不准确,不能反映肿瘤体积[77,78]。机器学习算法,特别是深度学习方法,已经在体积评估中显示出准确和精确的结果[54,79 - 83]。例如,Moawad等人使用两个背靠背的cnn,基于U-net架构,从背景肝实质中描绘HCC,并与人工轮廓显示出高度相关性。这些方法可用于评估对TACE的反应,但需要在大规模研究中进行评估(图5)[84]。

Conclusion

人工智能,特别是深度学习技术,作为图像解释的辅助手段不断发展,特别是用于HCC对LRT反应的影像学评估。将临床、放射组学和体积学数据融合到深度学习算法中,为LI-RADS TRA的未来带来了有趣的可能性。先前的综述讨论了人工智能在一般肝脏成像中的适用性[7],并特别关注HCC[8]。对于HCC治疗反应,我们已经概述了AI的双重作用,因为它有可能提高治疗后评估的效率和有效性,并有可能通过预测LRT疗效来改善治疗前计划。人工智能在HCC治疗反应中的双重作用对改善患者护理具有令人兴奋的意义,我们希望随着人工智能方法和实施的不断进步,这一作用将得到扩大。为了帮助在临床实践中实施人工智能,未来的研究可能需要多中心和多学科的合作,使用大样本来改进深度学习算法,因为目前的许多研究都受到单一机构数据和小型训练、验证和测试集的限制。也可能需要国际专家委员会来集中数据并确保方法和算法的透明度和一致性。