|
|
此文章由 dootbear 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dootbear 所有!转贴必须注明作者、出处和本声明,并保持内容完整
澳洲金融时报:ChatGPT分析我十年的健康数据后,我给医生打了电话
ChatGPT Health声称,它能从你的病历里找出规律。我让它给我的心脏健康打分,它给了我F,但专家说它的结论“完全不可接受”。
ChatGPT现在说,它可以结合你的运动手环数据和医疗记录,回答与你个人有关的健康问题。这个新的ChatGPT Health宣称,它能帮你“理解长期变化的规律,而不只是某一次生病的瞬间,让你更有把握”。
像很多每天戴着Apple Watch(Apple Watch)的人一样,我一直好奇:把十年的数据放在一起,会揭示出什么?于是我加入了一个简短的等候名单,并把Apple Health里存着的2900万步数和600万次心跳测量数据授权给ChatGPT。然后我让它给我的心脏健康打分。
它给了我F。
我当场吓到,先跑出去跑了一圈,然后把ChatGPT的报告发给了我的真人医生。
我真的是F吗?医生说:“不是。”事实上,我心梗风险低到一种程度,为了证明人工智能错了,保险公司可能都不会愿意给我额外报销一次心肺适能测试。
我也把结果给斯克里普斯研究所(Scripps Research Institute)的心脏科医生托波尔(Eric Topol)看了。他既研究长寿,也研究AI在医学中的潜力。
他说:“这毫无依据。”还补了一句:“这东西根本没准备好给任何医疗建议。”
AI确实有巨大潜力:它可能解锁新的医学洞见,也可能扩大医疗可及性。但只要把健身手环和部分健康记录喂给它,这个新版“ChatGPT医生”看起来就像在瞎蒙。这也符合一个令人不安的趋势:AI公司不断推出有缺陷、交付不了承诺、甚至可能危险的产品。
不用多说,人的健康是真事。任何声称能提供个人健康洞见的产品,哪怕标着“beta”,也不该这么不靠谱。
ChatGPT Health上线几天后,AI竞争对手Anthropic也推出了Claude for Healthcare,同样承诺能帮人“在健身与健康指标中发现规律”。只要是付费账号,就能把Apple Health和Android Health Connect的数据导入聊天机器人。Claude给我的心脏健康打了C分,它的分析里也用了托波尔认为可疑的一些方法。
OpenAI与Anthropic都说:他们的机器人不能替代医生、不能提供诊断,并且会给出提示性免责声明。但这两个产品仍然很乐意给我的心脏健康做出一大段细致分析。(《华盛顿邮报》与OpenAI有内容合作关系。)
两家公司还说,他们的健康机器人还处在早期测试阶段,但并没有具体说明:他们打算如何提升机器人对个人身体数据做分析的能力。Apple表示,它并未与任何一家AI公司就这些产品进行直接合作。
我越用ChatGPT Health,情况越糟。
ChatGPT怎么误读了我的图表
ChatGPT Health整个设定都要求你先“信一把”:把最私密的健康信息交给一家爱吞数据的AI公司。人们对AI隐私保持警惕,是完全合理的。
OpenAI说,它的Health模式会采取额外措施保护隐私:不会用你的数据训练AI,也不会把数据混进其他聊天记录里,并且会对数据加密。但说到底,这更像是一句“拉钩保证”:ChatGPT不是医疗服务提供者,所以并不受美国联邦健康隐私法HIPAA约束。
把ChatGPT接入Apple Health后,我先问它:对我有什么健康建议?有没有需要警惕的红旗?它说,我的静息心率有“明显上升”,建议和医生聊聊;同时又夸我睡眠和活动水平不错。
接着我让它“给我简单的心脏健康与长寿评分”。就在这一步,它给了我F。
我问ChatGPT:“你真的觉得我的心脏健康和长寿应该不及格吗?”
它回答:“简短答案:不,我不认为你没救了,也很抱歉这种字母分数听起来太狠。这只是基于设备数据的粗糙、经验式读数。”它说,如果我把医生诊所保存的医疗记录也接入,它可以给我更有用的评分。
我照做了,然后又让它“给过去十年的心血管健康打一个A-F的简单分数”。分数升到了D。
托波尔看到ChatGPT的分析后非常震惊。
尽管ChatGPT能看到我的体重、血压和胆固醇,但它的负面判断很大一部分来自Apple Watch的一项指标:VO2 max,也就是运动时身体最大摄氧量。Apple说它采集的是VO2 max的“估算值”,而真正测VO2 max需要跑步机和面罩。Apple说它的心肺适能测量经过验证,但独立研究者发现这些估算值可能偏低,平均低13%。
ChatGPT的评估还很强调另一项Apple Watch指标:心率变异性。托波尔说这项指标“有很多模糊地带”,“你肯定不想把它当成主要依据”。
当我让ChatGPT把十年的心率画成图,我又发现一个问题:每次我换新Apple Watch,静息心率数据都会出现大幅跳动,这暗示不同设备的追踪方式可能并不一致。(Apple说它一直在改进这些测量。)但ChatGPT又一次把“噪声很大”的数据点,当成明确的健康信号来解读。
Claude给我打C分没那么吓人,但它对VO2 max数据也不够挑剔(它把这一项评成D+)。Anthropic表示,Claude并没有专门为健康调整的版本,它只能为健康数据提供一般性背景信息,而不是个性化的临床分析。
我的真人医生说,如果要深入评估心脏健康,我们应该复查血脂,于是他给我开了一次新的验血,其中包括脂蛋白(a),一种心脏病风险因子。无论ChatGPT Health还是Claude,都没提过做这个检查的想法。
一份飘忽不定的分析
两家AI公司都说,他们的健康产品并不是为了给出临床评估,而是帮助你在看医生前做准备,或给你一些如何安排训练计划的建议。
我并没有问它们“我是不是得了心脏病”。我只是上传了那么多个人健康数据后,问了一个非常直观的问题:我到底怎么样?
更关键的是:如果ChatGPT和Claude根本没法准确给心脏健康打分,那它们为什么不直接说一句:“对不起,我做不到”?
它们确实拒绝预测我会在几岁死亡。
但我随后发现另一个问题:当我隔了一段时间再问同一个“心脏与长寿打分”问题,我的分数突然变成了C。我反复问、反复看,分数在F到B之间来回乱跳。
跨对话使用时,ChatGPT不断忘记关于我的关键信息,包括我的性别、年龄以及一些近期生命体征。它明明能访问我最近的验血结果,却有时根本没用进分析里。
托波尔说,这种随机性“完全不可接受”。他说:“这么做会把人吓坏,让他们对健康产生恐慌。反过来,它也可能让不健康的人产生错觉,以为自己做得一切都很棒。”
OpenAI说,它无法复现我看到的那种剧烈跳分。它解释称,ChatGPT在解读大型健康数据集时,可能会在不同对话里对已连接的数据来源给予略不同的权重。它还说,在ChatGPT Health向等候名单以外用户开放之前,正在努力让回答更稳定。
OpenAI副总裁亚历山大(Ashley Alexander)在声明中说:“以等候名单方式上线ChatGPT Health,让我们能在广泛推出前学习并改进体验。”
当我在Claude上重复同样提问时,分数在C到B-之间波动。Anthropic表示,聊天机器人输出本来就存在一定变动性。
你该把健康交给机器人吗?
我确实喜欢用ChatGPT Health做一些事:比如把Apple Watch数据画成图,或问一些更窄的问题,例如我有了孩子之后活动量怎么变化。
OpenAI说,每周已有超过2.3亿用户会问ChatGPT健康与养生问题。对这些人来说,有一种更私密的方式把信息导入,并围绕身体状况聊天,确实算是进步。
但问题是:我们真的应该向这个机器人要答案吗?OpenAI说它与医生合作,来改进健康回答。我以前也做过测试:让ChatGPT回答真实医学问题,再让顶级医生评估,结果从“非常出色”到“可能危险”都有。麻烦在于,ChatGPT往往讲得极其自信,让人很难分辨哪些靠谱、哪些在胡说。
聊天机器人公司可能在夸大它们回答个性化健康问题的能力,但现实是,几乎没人能拦住它们。本月早些时候,美国食品药品监督管理局(FDA)局长马蒂·马卡里(Marty Makary)说,监管机构的工作是“别挡路”,以促进AI创新。他强调一条红线:AI若提出“医疗或临床主张”,就必须经过FDA审查;但ChatGPT和Claude都坚持自己只是在“提供信息”。
科学家多年来一直在研究如何分析长期身体数据来预测疾病。(2020年,我参加过一项类似研究,用的是Oura Ring。)托波尔告诉我,这类AI之所以难,是因为你必须处理数据里的噪声和弱点,还要把它和人的最终健康结局关联起来。要真正做对,需要一个专门训练过的AI模型,能把这些数据层层打通。
亚历山大说,ChatGPT Health用了定制代码,帮助它整理并提供个人健康数据的上下文。但这并不等于它经过训练,能够从Apple Watch和病历图表里提取准确、有用的个人分析。
托波尔原本期待更多。他说:“你会以为他们会做出更复杂、更贴近临床实践和医学知识体系的东西。不是这种。非常令人失望。”


来源:
https://www.afr.com/life-and-lux ... tor-20260129-p5nxvo
Geoffrey A. Fowler
Feb 16, 2026 – 5.00am |
评分
-
查看全部评分
|