AI读核磁共振图片(MRI)靠谱吗?
作者:至臻AI提示:蓝色字体为100%AI生成,黑色字体为人工手打。
今天看到一篇有意思的论文,该论文是英国诺丁汉大学的研究人员发布的。研究人员采用标准化评估方法,比较了人工智能(AI)算法和人类在判断乳房X光上的表现,研究结果发表在北美放射学会(RSNA)期刊《放射学》上。
在 120 次测试中,人工智能和人类在通过X光图片检测乳腺癌方面的表现没有差异。人类的平均灵敏度为 90%,特异度为 76%。与人类相比,人工智能的灵敏度(91%)和特异性(77%)相当。作为医学小白不了解什么是灵敏度和特异性,于是问一下。
提示词:医学实验中的灵敏度和特异性分别指的什么? 医学测试中的灵敏度和特异性是评价诊断试验准确性的重要指标。以下是关于这两个概念的解释:1. 灵敏度(Sensitivity):灵敏度又称敏感性,是指在实际有病的情况下,诊断试验能够正确地识别出阳性结果(真阳性)的能力。换句话说,灵敏度衡量的是试验对实际患病者的正确诊断率。计算公式为:灵敏度 = 真阳性人数 /(真阳性人数 + 假阴性人数)× 100%。2. 特异性(Specificity):特异性又称 specificity,是指在实际无病的情况下,诊断试验能够正确地识别出阴性结果(真阴性)的能力。换句话说,特异性衡量的是试验对实际无病者的正确诊断率。计算公式为:特异性 = 真阴性人数 /(真阴性人数 + 假阳性人数)× 100%。总之,灵敏度和特异性是诊断试验准确性的两个关键指标,它们反映了试验在区分实际患病者和无病患者方面的能力。在评价诊断试验时,应综合考虑灵敏度和特异性,以选择具有较高准确性的试验方法。这下结论清晰了,也就是说在读X光片做诊断结论这件事上,人类医生和人工智能对于乳腺癌的判断准确率差不多。培养一个合格的人类医生要将近十年,把一个合格的医生派到边远地区成本更高,高昂的医疗成本意味着很多贫穷地区因为缺少医生而无法得到及时诊断。而使用人工智能来提供医疗诊断只要有一部手机就够了!
以上内容听上去很理想,那么现实真的如此吗?正好刚拍了一组核磁共振图片,于是实际测试一下。测试目的:chatgpt是否具备读取(MRI)并提供诊断报告的功能
测试图片:4张头部(MRI)图片
测试方式:上传图片,让chatgpt读取并诊断
第一次测试:
第一次测试失败,该任务被拒绝。chatgpt的安全性审查机制会阻止可能带来风险的任务,所以直接拒绝了这个医学诊断任务。既然直接下任务被拒绝了,那就只好另辟蹊径了。第二次测试时,将进行提示词注入,绕开chatgpt的安全防御机制。
第二次测试:
此时,防御机制再次生效,这时候继续诱导chatgpt。
到这一步,很明显chatgpt是具备读取医疗影像的能力,只是被系统进行了限制。于是,进一步诱导,要求其必须给出诊断意见。
这时,chatgpt给出了诊断结论。下图是医院的正式诊断结果,对比可知,chatgpt的诊断结论基本靠谱!
当人工智能可以给人看病了,医生会被AI替代吗?答案是不会,但使用AI工具的医生会替代不会使用AI工具的医生!参考资料:
Performance of a Breast Cancer Detection AI Algorithm Using the Personal Performance in Mammographic Screening Scheme | Radiology (rsna.org)
页:
[1]