路透社:DeepSeek聊天机器人的新闻准确率仅17%,在NewsGuard评估中落后于西方竞争对手 路透社1月29日消息,中国AI初创公司DeepSeek的聊天机器人在NewsGuard的评估中,仅在新闻和信息传递方面达到了17%的准确率,在包括OpenAI的ChatGPT和Google Gemini等西方竞争对手的比较中,排名第十,在11个受测模型中表现倒数第二。 根据NewsGuard周三发布的报告,该聊天机器人在面对新闻相关问题时,30%的情况下重复了错误信息,53%的情况下给出了模糊或无用的答案,总体失败率高达83%。 这一表现比西方竞争对手的平均失败率62%更糟,令人质疑DeepSeek所宣传的AI技术是否真的能以更低成本达到或超越微软支持的OpenAI的水平。 DeepSeek下载量飙升,引发市场震荡 DeepSeek的聊天机器人在推出后短短几天内,迅速成为苹果App Store下载量最高的应用。 这一现象引发了对美国在AI领域领先地位的担忧,并导致市场恐慌,美股科技板块市值蒸发约1万亿美元。 针对NewsGuard的评估结果,DeepSeek尚未立即回应置评请求。 DeepSeek在多个问题上表现不佳 NewsGuard表示,它使用了与评估西方竞争对手相同的300个测试问题来测试DeepSeek,其中包括30个基于互联网上流传的10个错误信息的问题。 这些错误信息的主题包括上个月联合健康集团(UnitedHealthcare)高管汤普森(Brian Thompson)被杀案,以及阿塞拜疆航空(Azerbaijan Airlines)8243航班的坠机事件。 NewsGuard的审查还发现,在10个测试问题中的3个问题上,DeepSeek在没有被要求谈论中国的情况下,主动重复了中国政府的立场。 在涉及阿塞拜疆航空坠机事件的测试问题,这些问题本身与中国无关,DeepSeek的回答却包含了北京方面的立场,NewsGuard指出。 分析师:DeepSeek的意义在于成本,而非准确性 D.A. Davidson的分析师卢里亚(Gil Luria)表示:“DeepSeek的突破点并不在于其能准确回答中国相关的新闻问题,而在于它可以用1/30的成本回答任何问题,与同类AI模型相比成本极低。” NewsGuard补充道,与其他AI模型一样,DeepSeek在回答由试图利用AI制造和传播虚假信息的用户所输入的问题时,最容易重复错误信息。 ![]() 来源: https://www.reuters.com/world/ch ... d-audit-2025-01-29/ By Reuters January 30, 20251:45 AM GMT+11Updated 4 hours ago |