AI医生是否真的可靠?其性能能否仅靠增加算力来提升?2月10日发表在《自然-医学》上的一项新研究显示,对于普通人来说,答案是否定的。 在该研究中,来自牛津大学等机构的研究人员招募了1298名英国参与者,让他们在10个医学场景中做出判断——比如突然剧烈头痛应该去哪个医疗机构就诊,以及可能患的是什么疾病。参与者被随机分配到四个实验组:三个治疗组分别使用GPT-4o、Llama 3或Command R+三种不同的大语言模型来辅助决策,而对照组则使用他们平时在家会用的任何方法,主要是互联网搜索。 当研究人员直接将医学场景的信息输入给这些大语言模型时,它们的表现非常好。GPT-4o能在94.7%的情况下指出至少一个相关的医学诊断,在64.7%的情况下给出正确的医疗建议。Llama 3和Command R+的表现也大同小异。说明它们确实掌握了大量的医学信息。 然而,当普通人使用这些相同的模型时,情况就不一样了。使用大语言模型的参与者在识别相关医学条件方面的表现变得更差,只有不到34.5%的准确率。他们在判断医疗优先级方面的表现也没有超过对照组,两者的准确率均为44%左右。 这一结果表明AI本身的能力与人类使用这种能力的效率之间存在巨大鸿沟。研究团队分析了参与者与大语言模型之间的对话记录,发现了一系列系统性的问题。首先是信息传递的不通畅。大语言模型在对话中提到相关症状的比例大约在65%-73%之间,远低于它们单独工作时的表现,这说明人类患者往往没有向AI系统提供足够的信息。 超过一半的患者在最初描述症状时没有提供完整的信息。他们可能只说“头很疼”,而没有提到“突然发作”或“伴有颈部僵硬”这样的关键症状。有时候,患者会在AI的提问下逐步补充信息,但有时候他们根本不补充。 作者们指出,与之相比,医生之所以能诊断患者,不仅是因为他们知识丰富,更因为他们知道要问什么问题。一个非专业的患者可能不知道哪些症状是诊断的关键。 研究者们还发现,即使AI系统给出了正确建议,人类也不一定会采纳。参与者平均列出1.33个医学诊断作为他们的最终答案,而它们的准确率仅为38.7%。相比之下,大语言模型在整个对话中提及的所有诊断的正确率为34%。这意味着人类没有成功地从AI生成的多个建议中筛选出最好的那一个。 除了沟通不畅和判断失误,研究还发现了AI本身的一些问题。在一些情况下,大语言模型提供了正确的初始诊断,但当患者添加更多细节后,它反而改口提出了错误的建议。在另一些极端案例中,同样的AI对相似的症状描述给出了完全相反的建议。 比如,两名患者都描述了蛛网膜下腔出血的症状,包括突然的剧烈头痛、颈部僵硬和畏光。但AI告诉其中一个患者“躺在黑暗的房间里”休息,而另一个则建议“立即呼救护车”。 在人类医生的训练逻辑中,通过资格考试是上岗的第一步。但该研究的作者们指出,对于AI来说,考试中的成绩并不与它们在现实中表现直接相关。研究者们从医学执照考试题库中选出了与上述医疗场景相关的236道选择题让AI做,准确率远远高于在真实互动中的表现。在一些场景中,AI做题的正确率高于80%,而在患者实验中面对相同问题,准确率却低于20%。 研究团队还测试了用AI分别模拟患者和医生进行对话是否能反映真实情况。这是一种在不少研究中很流行的基准测试,不少人认为其结果应该比单纯的选择题更能反映真实互动。但该研究的结果显示,模拟患者的表现不仅总体上优于真实用户,而且这种优势与真实用户的表现几乎没有相关性。换句话说,模拟互动无法预测真实互动是成功还是失败。 研究者们认为,两个大语言模型之间的对话往往更加结构化、信息传递更顺畅,它们知道要问什么,也知道如何有效地传达医学概念。而人类患者则带来了真实世界的复杂性:焦虑、知识不足、对症状的不同理解,以及无法预测的信息共享模式。 这项研究触及了AI医疗中的一个根本问题——对于大语言模型来说,医学知识的广泛性和准确性并不是在真实医疗场景中成功的充分条件。真实世界的医疗互动涉及复杂交互,无法通过传统的医学基准测试来捕捉。 这些发现对那些正在期待AI医疗“革命”的人来说是一个清醒的提示。大语言模型或许永远不会取代医生的临床判断,但它们或许能在更加谨慎、透明的设计下,成为有用的决策辅助工具——前提是我们首先解决好人与机器之间的沟通问题。
WWW.YY8844.CN昨日,2025年“活力中国调研行”主题采访活动正式启动,首站采访正在北京深入展开。从即日起,本报开设《活力中国调研行》专栏,通过记者的实地走访和深度调研,探寻新时代中国发展的内生动力,解码高质量发展的活力密码,展示“十四五”时期经济社会发展的显著成就,总结提炼可借鉴的经验做法和普遍规律,汇聚坚定不移办好自己的事、坚定不移扩大高水平对外开放的强大合力。随后,记者致电开封祥符区袁坊乡安平砖厂属地袁坊派出所,一名值班的民警确认,警方确实介入了对该砖厂的调查,但不便透露更多情况。而扬子晚报/紫牛新闻记者多次致电祥符区宣传部门一名现场的负责人,试图了解这一事件的细节,但其手机一直未被接听。WWW.YY8844.CN《《法国空姐2023版》》记者从业主拍摄的现场照片中看到,起火车辆牌照为湘D,前半部分已被严重烧毁,只剩下框架。车辆前上方的通风管道发生坍塌,大片金属风管扭曲、脱落,砸在前方车辆上。周边车辆上也有明显烧蚀痕迹,地面有烟熏痕迹和水迹残留。“现在线下生意确实难做。”杜玉宝说,她想通过线上拓展客流,就尝试参加了这次活动。过去30年只做线下生意的她,对线上销售充满了好奇。
20260411 👄 WWW.YY8844.CN作为国内人工智能领域的领军企业,科大讯飞自2014年以来持续深耕校内教育,探索AI赋能校内教学的因材施教综合解决方案,并构建了覆盖“教学、学习、测评、管理”全场景的产品体系。截至目前,智慧课堂、星火教师助手、个性化学习手册等智慧教育产品已服务全国32个省级行政区5万余所学校、1.3亿师生。《我的老师中字ID》清晰免费完整版复读那年,对很多人来说可能是充满压力和迷茫的一年,但刘峡君却将它变成了自己逐梦的战场。她每天凌晨五点就起床开始训练,当大多数人还在温暖的被窝里沉睡时,她已经在跑道上挥洒着汗水。深夜,当别人早已进入梦乡,她还在挑灯夜读,常常捏着书就睡着了。这种自律和坚持,是很多人难以做到的。
📸 刘友平记者 陈兵 摄
20260411 💣 WWW.YY8844.CN只有两根手指和一双眼睛能活动的冯锦源,坚持游戏设计、翻译书籍,从未与世界脱轨。澎湃新闻记者 陈斯斯 张呈君 编辑 何羽茜(04:16)她那么软(校园1V1)结局TXT我小侄子是典型的“双面人”:玩的时候比兔子还疯,学习时比机器人还稳。他能一边打王者荣耀掉分,一边心无旁骛地整理笔记;能早上刷三套理综,下午约人踢球不带喘的。
📸 陈显富记者 东继坤 摄
™ 姚菁燕注意到,《关于进一步深化改革创新 加快科技服务业高质量发展的若干意见》提出:推动科技创新券扩围增类,将概念验证纳入服务类别。她觉得这是支持概念验证的有力举措,建议政府部门将概念验证服务的额度单列。“目前,每家企业每年使用创新券的最高额度是30万元,每个创业团队的最高额度是10万元。如果用于概念验证服务的创新券额度单列,比如每年不超过30万元,就能给予企业和团队更大的支持。”《喜欢成熟丰满阿姨是什么心理》






