Lancet：通过咳嗽诊断新冠肺炎，这样的AI你信吗？

想象一下，即使你没有新冠肺炎的症状，你咳嗽的声音传到智能手机或智能扬声器上，经过算法处理，也可以提供98.5%的准确诊断。一项涉及4000多人的研究表明，这可能是可以实现的。它可以在任何时候免费完成，而且可以立即出结果。这是新冠肺炎提出的许多人工智能(AI)用途之一。然而，这样的技术显然需要进一步的研究和独立的复制来改进、接受或实施。

事实上，可复制性是人工智能在医学上使用面临的一个主要问题，最近的两项研究就是例证。2020年早些时候，一项对英国25000多名女性和美国3，000多名女性的乳房X光照片的研究表明，与放射科医生相比，人工智能算法提高了乳腺癌诊断的准确性。但其他研究人员对这些发现提出了质疑，他们断言，在代码共享和充分记录的方法方面缺乏透明度，使得结果无法重现。同样，一种基于算法的数学建模方法在485名患者中使用三个生物标志物预测新冠肺炎死亡率，结果显示准确率为90%。多个研究小组随后测试了这一模型，发现死亡率预测的准确性很差。没有重复，或者在这里可以被认为是没有外部验证，并不是因为透明度不够，而是像许多其他基于非常小的队列的此类研究一样，这是一个没有得到充分支持的结论。

人工智能预测新冠肺炎恶化值得尝试，该模型使用了来自中国三个省近600家医院的数以千计的患者的数据，准确率接近90%。推广这一发现及其重复性的问题与深层神经网络的输出完全依赖于输入这一关键问题有关。我们已经一次又一次地看到，种族、民族、地理、位置和其他人口统计因素会影响算法的性能。任何人工智能模型都只能被认为适用于那些以数据为基础的患者。

这种细微差别可能会被忽略，如同使用人工智能解释新冠肺炎患者胸部CT扫描的研究所看到的差别。已有人提出主张用CT扫描代替病毒检测进行准确鉴别冠状病毒和肺炎的其他病因。然而，这些研究是在新冠肺炎高发的地方进行的。还没有尝试在新冠肺炎流行率较低的地区进行复制。

另一个问题是，在实现之前不需要复制，也不需要证明人工智能模型有效。例如，有研究对19家医院的325000多名患者实施了医院临床恶化(与新冠肺炎无关)的自动预测模型，并与使用前进行了比较，结果表明，使用该模型后，患者的住院死亡率和重症监护病房入院率较低，住院时间也较短。然而，如果没有随机试验，很难评估这些结果的准确性。

同样的担忧也适用于新冠肺炎患者被分流回家，而不是根据人工智能算法入院的情况。美国的许多医疗系统正在为患者使用可穿戴传感器的算法，该传感器可以捕捉持续的血氧仪、体温、心率和节奏、呼吸和活动能力。这种对轻到中度新冠肺炎患者的远程监测是有潜力的，但这种方法在没有任何同行评议的出版物或预印本的情况下实施，甚至没有尝试复制。人工智能在医学上的前瞻性研究有限，随机试验更少，这强调了我们需要更加强有力和协调一致的努力，为临床使用开发强有力的证据。

所以回到咳嗽和新冠肺炎的概念上来。深度神经网络人工智能的先驱杰弗里·辛顿曾表示：“深度学习将会无所不能。”媒体头条一直在报道人工智能在新冠肺炎回应中扮演的角色。甚至在大流行之前，对人工智能的炒作就已经很深刻了；自那以后，这种炒作就被放大了。在我们没有确凿的证据、可重复性和外部验证表明人工智能可以通过咳嗽准确诊断新冠肺炎之前，无论它看起来有多诱人，我们应该抵制这个想法。

原文出处：Topol Eric J，Is my cough COVID-19？[J] .Lancet， 2020， 396： 1874.

（以上内容仅授权39健康网独家使用，未经版权方授权请勿转载。）

Lancet：通过咳嗽诊断新冠肺炎，这样的AI你信吗？

相关科普