壹生大学

壹生身份认证协议书

本项目是由壹生提供的专业性学术分享,仅面向医疗卫生专业人士。我们将收集您是否是医疗卫生专业人士的信息,仅用于资格认证,不会用于其他用途。壹生作为平台及平台数据的运营者和负责方,负责平台和本专区及用户相关信息搜集和使用的合规和保护。
本协议书仅为了向您说明个人相关信息处理目的,向您单独征求的同意,您已签署的壹生平台《壹生用户服务协议》和《壹生隐私政策》,详见链接:
壹生用户服务协议:
https://apps.medtrib.cn/html/serviceAgreement.html
壹生隐私政策:
https://apps.medtrib.cn/html/p.html
如果您是医疗卫生专业人士,且点击了“同意”,表明您作为壹生的注册用户已授权壹生平台收集您是否是医疗卫生专业人士的信息,可以使用本项服务。
如果您不是医疗卫生专业人士或不同意本说明,请勿点击“同意”,因为本项服务仅面向医疗卫生人士,以及专业性、合规性要求等因素,您将无法使用本项服务。

同意

拒绝

同意

拒绝

知情同意书

同意

不同意并跳过

工作人员正在审核中,
请您耐心等待
审核未通过
重新提交
完善信息
{{ item.question }}
确定
收集问题
{{ item.question }}
确定
您已通过HCP身份认证和信息审核
(
5
s)

内镜医生的“第二双眼”震动柳叶刀,利用人工智能改善腺瘤检出率连发两文 | 柳叶刀主播专访两团队作者

2020-01-23作者:论坛报小塔资讯
内镜 人工智能

你能想象内镜检查也像行车语音导航一样为你播报实时检测情况吗?

“发现息肉!”

“请注意!”

“遗漏部位:胃体上部小弯侧!”

“操作评分90分!”

没错,这些都是人工智能消化内镜对操作医生的实时提醒,有了它,医生们就可以在检查过程中更好地做出判断。

众所周知,我国内镜医师水平差别较大、高水平内镜医师稀缺,我国早期胃癌的诊断率仍偏低。人工智能在内镜领域的应用可以极大改善这种现状。

2020年1月23日(今日),《柳叶刀·胃肠病学和肝脏病学》(The Lancet Gastroenterology & Hepatology)在线发表两个试验,都是探究利用人工智能改善腺瘤检出率(Adenoma Detection Rate, ADR)。腺瘤检出率是结肠镜检的主要质量指标,与结肠镜检后结直肠癌发生率及其相关死亡率成反比。许多研究都关注结肠镜检中越来越高的腺瘤检出率,但是多达27%的息肉由于各种原因而未被检出。《柳叶刀·胃肠病学和肝脏病学》主编布赖尔利(Rob Brierley)对两个作者团队分别进行了采访。

640.webp.jpg

作者介绍

640.webp (1).jpg

于红刚  

教授、博士生导师

现任武汉大学人民医院消化内科主任,中华消化内镜学会常务委员,中华医学会消化内镜学会大数据协作组组长,湖北省消化内镜质量控制中心主任,湖北省消化内镜学会候任主委等。于教授在德国杜塞尔多夫大学医学院获博士学位,随后于德国波鸿大学医学院、美国Scripps研究院进行博士后研究。在国内外专业学术期刊发表论文303篇,其中以第一作者或通讯作者发表SCI 论文109篇,在《柳叶刀·胃肠病学和肝脏病学》等国际权威SCI期刊发表论文数篇。

作者采访  

 柳叶刀-胃肠病学和肝脏病学:与其他人工智能辅助结肠镜检试验相比,本研究并不是通过自动检测息肉来改善腺瘤检出率,而是通过提升技术要素来改善腺瘤检出率。请简单介绍开发ENDOANGEL系统的目的、这个系统是如何研发的,及其如何帮助改善检查结果? 

于红刚教授:通常,如果医生拿到一张包含息肉的图片,几乎都能很快发现这个息肉,但在实际检查中却容易漏掉。肠镜检查是筛查和诊断下消化道疾病最常用的方法。研究显示,结直肠腺瘤有26%被漏检的可能性。[1] 一系列研究显示,12.1%的病人在结肠镜检查时没有发现癌症,但在随后的5年内被诊断为结直肠癌(结肠镜后结直肠癌,PCCRC),这其中有71%-86%可归因于内镜医师的疏忽。漏检的一个重要原因是,让医生长时间保持规范的退镜速度是一项非常有挑战的工作,特别是在中国,医生经常要面对超负荷的工作压力。基于此,ENDOANGEL辅助质量控制系统应运而生,以期帮助内镜医生始终保持规范操作,改善腺瘤检出率。 

最初,我们计划以“退镜时间”作为切入点,训练机器识别回盲部,实现自动退镜计时,以此提醒医生规范操作。然而,在预实验时发现,医生一般在近端结肠退镜较快,当到达远端结肠后才发现观察退镜时间并不充分,于是放慢速度以达到6分钟的“规范要求”。这会导致近端结肠观察不充分,而在远端结肠耽误不必要的时间。此外,退镜观察时,肠段可能会滑脱,尤其是在肝曲处,导致检查出现盲区。因此,研究组与武汉大学人工智能专家进一步完善ENDOANGEL设计,实时监测退镜速度、记录退镜时间,并在肠镜滑脱时提醒内镜医生进镜到滑脱部位重新退镜观察,对内镜医生的操作时刻进行规范性反馈,让医生可以实时调整,实现规范操作。最后,我们发现这种思路是正确的。 

在临床试验中,与传统肠镜检查相比,使用ENDOANGEL辅助肠镜检查的平均阴性退镜时间延长,ADR增加一倍多,有效改善了检查结果,提升了医生操作的规范性。 

柳叶刀-胃肠病学和肝脏病学:本研究的研究结果如何?对未来的临床实践有何启示? 

于红刚教授:我们在武汉大学人民医院内镜中心进行了一项随机平行对照临床试验,研究的主要终点指标是ENDOANGEL组和对照组的腺瘤检出率。在结肠镜检查之前,连续就诊的704位患者被随机分入两组。实验组采用ENDOANGEL辅助内镜医师进行结肠镜检查,对照组进行常规结肠镜检查。最终结果显示,与对照组相比,实验组腺瘤检出率提升约100%(16.34% vs 7.74%)。ENDOANGEL辅助肠镜检查组的平均阴性退镜时间(6.38分钟)明显长于对照组(4.76分钟)。 

本研究结果证实了ENDOANGEL提高腺瘤检出率的有效性,证明通过规范操作来提高内镜检查质量是可行的。此外,在研究中还发现,内镜医师使用ENDOANGEL后,其操作水平和规范化意识也有明显提升。这意味着,通过人工智能规范医生操作的系统对新手医生或基层医院医生可能会起到重要作用。 

柳叶刀-胃肠病学和肝脏病学:除了改善技术因素的方法之外,是否还可能有其他方法组合使用,如电脑辅助检测? 

于红刚教授:息肉辅助检测是近年来的研究热点,陆续出现了很多优秀的研究成果,ENDOANGEL也加入这项功能,以期更好地帮助内镜医生。在过去两年的研发中,ENDOANGEL也实现了自动采图、使用NICE分型预测息肉的组织学类型和实时对肠道清洁度进行BOSTON评分等功能。ENDOANGEL还能自动保存回盲部、阑尾开口和病灶部位等典型图片,一方面降低内镜医师在肠镜操作过程中手脚并用的负担,另一方面也可以为分析肠镜操作质量提供数据。ENDOANGEL对肠道清洁度进行BOSTON评分,避免了由医生评分带来的主观性干扰,相关研究成果已经发表。[2] 人工智能技术在内镜领域还有很多有趣的功能亟待探索。

参考文献:

[1] Zhao S, Wang S, Pan P, et al. Magnitude, risk factors, and factors associated with adenoma miss rate of tandem colonoscopy: a systematic review and meta-analysis. Gastroenterology 2019; 156: 1661–74.

[2] Jie Zhou, Lianlian Wu, Xinyue Wan et al. A novel artificial intelligence system for the assessment of bowel preparation (with video). Gastrointest Endosc, 2019; .

640.webp (2).jpg

作者团队介绍

四川省医学科学院暨四川省人民医院消化内科消化内镜中心AI研究团队,从事AI-内镜、病理相关研究5年,长期与哈佛医学院BIDMC高级内镜中心等国际顶尖中心合作,研究论文先后发表于《柳叶刀-胃肠病学和肝脏病学》等国际权威期刊。多次受邀参加DDW、WCOG、UEGW发言,并先后获得美国胃肠病协会(ACG)国际奖(international award, 2017)、欧洲胃肠病学会(UEG)国家级学者奖(national scholar award, 2018)、多次UEG travel grant 奖金。本项目主要研究人员为李良平教授、刘晓岗教授、王璞博士和周冠宇医生。

作者采访   

柳叶刀-胃肠病学和肝脏病学:本研究探索了为标准结肠镜检增加电脑辅助检测(CADe)对ADR的效果。请解释一下设计CADe系统的目标是什么,这个系统是如何开发的,及其如何帮助结肠镜检医师改善检查结果?

作者:这个AI系统设计的目标是,在最新的人工智能算法的帮助下,系统可以在结肠镜检查的过程中实时分析视频的每一帧图像,识别并提示存在的任何形态的结肠息肉,包括一些非息肉样的侧向发育性肿瘤。 

这个系统可以通过增强现实的方法,在结肠镜检查中同步在内镜显示屏中以“中空的蓝色方框”和“报警音”提示内镜医生,这个系统将是内镜医生的“第二双眼”,克服人眼的局限性,帮助医生减少因为注意力分散、经验不足或疲劳等原因导致的漏诊,进而降低间期结肠癌的发生风险。 

这个系统是在医生和计算机专家的合作下开发的。首先,医生尽可能的收集各种形态和不同肠道环境下的息肉,对目标样本和需要鉴别的负样本进行标记;之后,计算机专家使用这些训练样本开发模型,再和医生一起反复测试模型的效果,分析并解决模型开发和一些概念逻辑上的问题;最终得到了一个性能优秀的模型。我们随后进行了大规模的验证研究,共使用了4个验证集,包括两个图像验证集和两个真实视频验证集。在图像验证集中,我们首先使用了一个大样本的、从连续的肠镜患者中得到的真实图像集,另外还使用了一个国外公开的测试数据集以获取外部的真实性验证。视频测试分别对有息肉的视频片段进行敏感性验证,以及对无删减的全程无息肉检出的结肠镜视频进行特异性验证。经过上述严谨的验证,得到了自发表当时有文献记载的最高的特异性、敏感性结果,ROC曲线下面积达到0.984,同时达到了实时的处理速度。这一研究已经于2018年发表。[1] 

柳叶刀-胃肠病学和肝脏病学:本研究的设计相对“复杂”,目的是保证患者和内镜医师都无法意识到他们使用的是CADe辅助结肠镜检还是传统的结肠镜检。这一点为什么是必要的?与非盲研究设计相比,这样做有什么优点? 

作者:在结肠镜检查中,影响腺瘤检出率这个核心临床目标的因素非常多,包括病人的人口学特征(诸如年龄、性别、BMI),患结肠腺瘤的风险因素、保护因素,肠道准备情况,以及医生操作的因素(如退镜时间)等。因此,如果要严谨的验证作为一种干预措施的AI系统能否有效的提高腺瘤检出率,大样本的前瞻性RCT研究是首选设计方案。此前,我们进行了上千病例的前瞻性RCT研究,有效控制了病人患腺瘤的风险因素和包含退镜时间在内的其它因素,这作为全球首个AI辅助诊断系统的RCT于2019年发表。[2] 然而,这个研究并没有对操作医生进行盲法,因此无法控制操作医生的主观性偏倚的可能性。虽然干预组和对照组扣除活检时间的纯退镜观察时间是一致的,但非盲法的研究始终不能确保最小化主观性偏倚对结果的影响,例如在AI辅助组,某些医生可能会更认真的进行检查,导致结果偏高;某些医生也可能对AI有依赖心理,导致操作质量下降,进而引起结果偏低。所以,对操作医生进行盲法是提升RCT研究质量和结果参考价值的重要举措,这样可以最大限度的避免主观性偏倚。从以往的经验来看,干预方式是需要医生直接参与的研究,往往很难实现盲法。 

我们团队与哈佛医学院伯津(Tyler Berzin)教授团队进行多次讨论,共同分析了这类研究的特点,发现如果设计一个“假系统”(这个系统可以产生和AI系统一样的报警框和报警音,但都报告在形似息肉的非息肉区域,这些形似息肉的非息肉区域恰好也是AI系统的误报内容),这样就可能对不知晓研究设计的内镜操作医生实现盲法。但由于假系统并不提示息肉,所以要完全对内镜操作医生实现盲法,就必须不让内镜操作医生直接看到AI系统和“假系统”的提示,而是通过另一个观察者实时报告给内镜操作医生。需要指出的是,内镜操作医生对研究的设计,包括假系统的使用都是不知晓的。为了有效执行这一点,我们把试验的执行选在了我们的一个分院(四川省人民医院医院草堂院区),参与研究的该分院的内镜操作医生完全不知晓此试验的设计和“假系统”的使用。 

在这样的设计下,我们站在对研究设计不知晓的内镜操作医生的角度,可以做出如下假设: 

1. 如果一例患者没有息肉,且全程AI系统没有误报或“假系统”没有报告,那么操作医生不可能察觉有两个不同的系统。

2. 如果一例患者没有息肉,但AI出现了误报或者“假系统”有所报告,经过观察者提示出来了,那么操作医生也不可能分辨出,观察者的提示究竟是AI组的误报,还是“假系统”的报告。

3. 如果一例患者的某个息肉,是操作医生首先看到,此时观察者并不会做出提示,那么操作医生同样不可能察觉有两个不同的系统。

4. 如果一例患者的某个息肉,操作医生没有看到,而是在即将消失在视野外时经观察者提示才发现,那么操作医生会认为这是AI系统的一次正确提示,也不会察觉有“假系统”的存在。

综上所述,满足了两个核心的要素,(1)操作医生对研究设计和假系统的使用不知晓;(2)一个完全模拟AI系统的误报而不提示真息肉的“假系统”。这个巧妙的设计,就实现了对操作医生的盲法,让RCT研究的结果偏倚更少,更有参考价值。 

另外,这类试验的成功进行对AI系统的性能要求非常高,除了要求AI系统达到“0延迟”的实时性,更需要AI系统具有非常高的敏感性和特异性。因为敏感性不足的AI系统不足以辅助医生提升腺瘤检出率,而误报太多的AI系统会让操作医生与观察者之间的互动效率非常低。 

柳叶刀-胃肠病学和肝脏病学:本研究展现了什么,对未来的医疗实践有何启示?

第一,这个研究通过最为严谨的前瞻性双盲RCT设计,证明了高性能的AI系统可以在不增加退镜时间的前提条件下大幅提高腺瘤检出率。 

第二,这个临床研究的质量也是我们重点关注和充分落实的,因为我们不仅要验证AI系统的有效性,更要验证AI系统在符合国际高标准的结肠镜检查中的有效性。以往文献报道,国内腺瘤检出率普遍为13-20%。所以,在低ADR的条件下得到的某项干预措施有效性的结果,很难推广到高ADR的医疗服务场景下。因此,我们邀请经验丰富的资深内镜医生严格按照国际质量标准进行结肠镜检查,发现平均退镜时间大于6分钟,对照组的ADR为28%,在年龄低于筛查人群的样本中,这样的ADR是符合我国和美国的指南要求的。在对照组这样的高ADR水平下,试验组的ADR仍然被提高到34%,说明这个AI系统对高ADR的资深内镜医师同样具有明显的提升作用。这样的结果就更具有广泛的价值,包括针对发达国家和地区的高水平医疗服务的进一步提升。 

此外,这个RCT是全医学领域第一个关于人工智能系统的双盲随机对照试验,我们也希望这种对操作医生的盲法设计能对未来各个科目的医疗AI研究提供一个思路,从而使得各种医学领域的AI系统通过更加严谨的双盲RCT进行验证,从而使测试结果具有更大的参考价值。

参考文献:

[1] Wang P, Xiao X, Glissen Brown JR, et al. Development and validation of a deep-learning algorithm for the detection ofpolyps during colonoscopy. Nature Biomedical Engineering 2018;(2):741–748

[2] Wang P, Berzin TM, Glissen Brown JR, et al. Real-time automatic detection system increases colonoscopic polyp andadenoma detection rates: a prospective randomised controlled study. 2019;68(10):1813-1819

来源:柳叶刀公众号和澎湃新闻

200 评论

查看更多