DeepSeek的新闻准确率仅17%，在NewsGuard评估中落后于西方竞争对手

2025-1-30 06:59| 发布者: dootbear | 查看: 5512| 原文链接

路透社：DeepSeek聊天机器人的新闻准确率仅17%，在NewsGuard评估中落后于西方竞争对手

路透社1月29日消息，中国AI初创公司DeepSeek的聊天机器人在NewsGuard的评估中，仅在新闻和信息传递方面达到了17%的准确率，在包括OpenAI的ChatGPT和Google Gemini等西方竞争对手的比较中，排名第十，在11个受测模型中表现倒数第二。

根据NewsGuard周三发布的报告，该聊天机器人在面对新闻相关问题时，30%的情况下重复了错误信息，53%的情况下给出了模糊或无用的答案，总体失败率高达83%。

这一表现比西方竞争对手的平均失败率62%更糟，令人质疑DeepSeek所宣传的AI技术是否真的能以更低成本达到或超越微软支持的OpenAI的水平。

DeepSeek下载量飙升，引发市场震荡

DeepSeek的聊天机器人在推出后短短几天内，迅速成为苹果App Store下载量最高的应用。

这一现象引发了对美国在AI领域领先地位的担忧，并导致市场恐慌，美股科技板块市值蒸发约1万亿美元。

针对NewsGuard的评估结果，DeepSeek尚未立即回应置评请求。

DeepSeek在多个问题上表现不佳

NewsGuard表示，它使用了与评估西方竞争对手相同的300个测试问题来测试DeepSeek，其中包括30个基于互联网上流传的10个错误信息的问题。

这些错误信息的主题包括上个月联合健康集团（UnitedHealthcare）高管汤普森（Brian Thompson）被杀案，以及阿塞拜疆航空（Azerbaijan Airlines）8243航班的坠机事件。

NewsGuard的审查还发现，在10个测试问题中的3个问题上，DeepSeek在没有被要求谈论中国的情况下，主动重复了中国政府的立场。

在涉及阿塞拜疆航空坠机事件的测试问题，这些问题本身与中国无关，DeepSeek的回答却包含了北京方面的立场，NewsGuard指出。

分析师：DeepSeek的意义在于成本，而非准确性

D.A. Davidson的分析师卢里亚（Gil Luria）表示：“DeepSeek的突破点并不在于其能准确回答中国相关的新闻问题，而在于它可以用1/30的成本回答任何问题，与同类AI模型相比成本极低。”

NewsGuard补充道，与其他AI模型一样，DeepSeek在回答由试图利用AI制造和传播虚假信息的用户所输入的问题时，最容易重复错误信息。

来源：

https://www.reuters.com/world/ch ... d-audit-2025-01-29/

By Reuters
January 30, 20251:45 AM GMT+11Updated 4 hours ago

		自动登录	找回密码
密码			注册