1. 争议背景
技术分析指控:
一位自称哥斯达黎加大学的韩国学生在GitHub发布分析报告,采用“LLM-Fingerprint”技术对比盘古Pro MoE(720亿参数)与通义千问Qwen-2.5 14B模型,发现两者在注意力参数(QKVO)的标准差相似度高达0.927(理论最大值为1.0),远超独立训练模型的正常差异范围。
此外,盘古开源代码中被发现包含阿里版权声明(“Copyright 2024 The Qwen team, Alibaba Group”),进一步引发“非独立开发”质疑。行业关注点:
该争议不仅涉及华为与阿里的技术独立性,更折射出AI大模型时代开源边界模糊的问题,如模型架构借鉴、权重复用与合规性争议。
2. 华为盘古团队的官方回应
华为诺亚方舟实验室的声明主要围绕以下三点展开:
(1)否认增量训练或抄袭
强调盘古Pro MoE是基于昇腾(Ascend)硬件平台独立开发的基础大模型,非基于通义千问或其他模型增量训练而来。
指出其核心创新在于分组混合专家模型(MoGE)架构,该设计面向昇腾硬件优化,解决了分布式训练的负载均衡问题。
(2)承认部分代码参考开源实践
团队表示,部分基础组件代码参考了业界开源项目(包括其他大模型的开源代码),但严格遵循开源许可证要求,保留原始版权声明,符合开源社区规范。
认为这是行业通行做法,如Transformer架构的广泛共享,而非抄袭。
(3)质疑“指纹分析”方法的科学性
华为认为,仅凭注意力参数相关性(0.927)判定抄袭“不科学”,并称按相同方法对比其他模型也会得到高相似度。
业内也有观点指出,相似架构、训练目标或数据可能导致参数分布接近,但需多维度(如梯度、激活模式)验证。
3. 行业反应与未解争议
阿里沉默:截至目前,阿里巴巴通义千问团队未公开回应。
开源伦理争议:
此次事件凸显AI领域对模型权重复用缺乏明确规则。例如,使用开源架构训练新模型 vs. 直接微调他人权重,界限模糊。员工爆料争议:
7月6日,一名自称盘古团队员工的匿名爆料称,初期因算力限制曾使用Qwen 1.5 110B续训并“洗水印”,但华为未对此置评。
4. 事件影响与行业启示
技术透明度需求:
华为未开放完整模型权重或API,限制第三方深度验证,被指“用户无法证伪,华为不能证真”。开源协作与创新的平衡:
行业需明确“合理借鉴”与“抄袭”的边界,避免“唯自研论”阻碍技术迭代,同时保护原创。
华为的回应试图从技术原创性、合规性、开源精神三方面化解质疑,但争议仍暴露了AI开源生态的深层挑战。未来,行业或需建立更清晰的模型溯源与知识产权标准。
发表评论 取消回复