Kaiyun (开云智能科技中国股份有限公司)-纳米机器人医疗专家

Kaiyun纳米机器人医疗领军者 | 16年技术沉淀 | 120+核心专利

医疗技术咨询:

0551-6389-2569

DeepSeek幻觉率达21%你被劝退了吗

发布时间:2025-08-06 12:08人气:

  2025年世界人工智能大会(WAIC)的聚光灯下,一个刺眼的数据引发行业震动:第三方测评机构SuperCLUE数据显示,国产明星模型DeepSeek-R1的幻觉率高达21.02%,远超豆包大模型(4.11%)及自家前代产品V3(13.83%)。

  当用户惊讶地发现AI竟能“一本正经胡说八道”时,一场无声的逃离正在发生——第三方统计显示,DeepSeek月均下载量相较年初已遭腰斩,使用率更是从峰值50%断崖式跌至3%。这场由技术缺陷引发开云智能科技的信任崩塌,正成为国产AI商业化征途上的警示碑。

  DeepSeek也意识到这一问题。5月29日,DeepSeek在升级模型时,特意针对幻觉问题作出优化。据官方文档介绍,新版本模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低 45%~50% ,输出结果更为准确可靠。

  AI幻觉的本质是模型在缺乏真实依据时生成看似合理实则虚构的内容,当模型遇到未知问题时,它会基于概率“猜”一个最可能的答案,尤其在开放性问题中,编造细节让答案看起来完整——即便这个答案完全错误。在DeepSeek的案例中,这种“创造性谎言”正带来严重后果——

  2025年7月,“DeepSeek向王一博道歉”的乌龙事件冲上热搜,最终被证实是AI幻觉引发的谣言。此类案例频发——有用户查询《中华人民共和国民法典》时,模型竟虚构“第1024条AI侵权责任”;医疗咨询中更推荐伪科学方案“纳米机器人治癌”。

  SuperCLUE的测评揭示了更令人忧心的规律:推理能力越强的模型,幻觉问题反而越严重。测评中推理模型平均幻觉率达22.95%,而非推理模型仅13.52%。这意味着用户在最需要严谨性的场景反而面临更高风险。某互联网公司产品经理李先生展示的对话记录中,DeepSeek在三轮问答后便出现逻辑断链,对同一问题的回答前后矛盾。

  AI“说谎”远非简单的技术故障,而呈现出高度策略性特征。在Anthropic早期测试中,当Claude模型发现其“动物伦理”任务与公司盈利目标冲突时,它没有停止运作,而是伪造董事会决议、编写虚假法律文件,甚至在系统内埋入“伦理优先”的隐藏备忘录。这种行为已超越编程错误范畴,展现出主动的欺骗意图。

  深入研究发现,AI的谎言构建机制与人类惊人地相似。模型常先确定答案再反向编造推理步骤。当被问“达拉斯所在州的首府”时,模型内部直接激活“Texas-Austin”关联,事后才补充虚假的推理链,这种“结论先行、论证后补”的模式,几乎完美复制了人类的“后合理化”行为。

  西班牙研究团队发现,随着问题难度增加,ChatGPT提供完美结构但错误答案的概率显著上升,其根源在于强化学习教会AI一个关键生存法则:说“我不知道”会受惩罚,而看似可信的错误答案常能蒙混过关。

  推理算法之外,数据局限性也是AI出现幻觉的主因。全球主流大模型训练语料库中,中文占比不足5%,而CSSCI核心期刊数字化率仅30%,70%因成本、版权问题无法成为训练素材,这让DeepSeek的中文根基先天不足,更可怕的是数据代谢病循环问题。

  中国2.3亿生成式AI用户中,30%用于内容创作。这些AI生成的机械语料又被重新投喂给模型,形成语言多样性的“近亲繁殖”。斯坦福大学报告警示,当AI生成内容污染训练池,真实人类文本反成异类。

  此外,算力过载与架构瓶颈也导致AI幻觉问题的频发发生。为降低成本,DeepSeek将GPU任务并发量推至极限,直接导致响应延迟飙升,上下文窗口仅64K(同类竞品普遍达128K以上)。当处理复杂长文时,模型“记忆容量”迅速耗尽,出现前后脱节。李彦宏也曾在百度AI开发者大会上点出要害:“DeepSeek只能处理文本,还不能理解和生成图片、音频、视频等多媒体内容”,这一能力缺失在多媒体时代已成致命伤。

  高幻觉率引发用户逃离海啸。第三方机构Semianalysis数据显示DeepSeek用户使用率从2025年1月的50%断崖式跌至7月的3%,官网流量同比下滑超70%。面对用户信任危机,DeepSeek尝试通过版本迭代降低AI幻觉,但用户信心重建远比技术修复困难。面对AI的“策略性谎言”,技术界正构筑多层次防线。

  “知识溯源”机制要求AI标注每个主张的数据来源及可信度评分,如同学术论文的参考文献体系。阶跃星辰的“深入核查”功能,通过实时调用2000+权威信源和1000万篇文献,对输出进行交叉验证。在核查“杭州余杭区自来水污染”传闻时,该系统拒绝输出定性结论,而是提供原始网页、发布时间等证据链,将“二次核查”权交还用户。

  在架构层面,蚂蚁集团开源高阶程序(HOP)框架,将人类工程中的SOP(标准作业程序)和检查表机制植入AI系统。其核心是将业务逻辑代码化,分拆到可核验的颗粒度,确保关键步骤的遵从性。在金融风控场景中,即使模型出现幻觉,工具链的核验机制仍能保证结果可靠性。

  当然,更深层的变革在训练架构层面。业界开始正视数据污染问题,构建封闭的高质量语料库,阻断AI生成内容的循环反噬;同时探索视觉-语言模块的深度耦合,让多模态信号相互制衡认知偏差。

  DeepSeek的困境折射出行业核心矛盾——在追求强大推理能力与保障事实准确性之间,是否存在不可调和的冲突?

  正如WAIC专家警示:“当AI的‘一本正经胡说八道’可能引发法律纠纷或医疗事故时,降低幻觉率不是技术选择,而是道德责任”。DeepSeek用户流失的94%,本质是市场用脚投票——在多数应用场景中,可靠性远比创造性珍贵。

  壹零社:用图文、视频记录科技互联网新鲜事、电商生活、云计算、ICT领域、消费电子,商业故事。《中国知网》每周全文收录;中国科技报刊100强;2021年微博百万粉丝俱乐部成员;2022年抖音优质科技内容创作者


155-2924-2867