2025年7月5日下午,盘古大模型团队通过官方渠道(如“昇腾CANN”微信公众号)发布正式声明,回应了近日围绕其开源模型“盘古Pro MoE”是否抄袭阿里“通义千问 Qwen-2.5 14B”模型的争议。声明称,盘古是基于昇腾硬件平台自研训练的混合专家模型,强调了“MoGE架构”创新,并否认抄袭。
而争议的起点则是来自GitHub上名为HonestAGI用户(该用户目前已显示404)发布的“LLM-Fingerprint”分析,该分析指出,盘古Pro MoE与Qwen‑2.5 14B在注意力层参数上显示出平均相关性为0.927,远高于同行模型间的对比范围,暗示可能其通过“升级改造”获得,而非从零训练,并在圈内引发盘古Pro MoE的抄袭质疑。
盘古团队随后在GitHub issue区进行技术回应,否认指控,并指出对比方法“不科学”。声明强调遵守开源许可,部分基础组件参考了开源实践。
众所周知,在模型训练中,即使使用相同的开源数据集和相似的模型架构,由于初始化参数的随机性、训练过程中的随机性(如dropout、数据洗牌顺序等)以及不同的超参数设置,最终训练出的模型参数几乎不可能完全一致,这意味着,相关性达到0.927极不寻常,甚至远远超出了“巧合”可以解释的范畴。
而这种极不寻常,通常只意味着两种可能。一种是增量训练(Continual Pre-training),即一方(例如华为盘古Pro MoE)在另一方已经训练好的模型(例如Qwen-2.5 14B)基础上,使用自己的数据继续进行训练,而这种做法会保留大部分原始模型的参数结构和数值特征,导致高度相似;另外一种则是参数复制或迁移,即华为直接或经过少量修改后,将Qwen-2.5 14B模型的参数用到了自家的盘古Pro MoE模型中。
不过,也有业内对此提出了不同的看法,例如导致参数相关性高的原因很多,类似的训练目标、相近的模型规模,或设计上采用了类似的注意力机制等都可能产生参数的高相关性,尤其是在Transformer架构被广泛共享的背景下。况且,若无明确代码或权重直接复制记录,仅凭统计参数相关性也无法断定抄袭。
此外,上述“LLM-Fingerprint”的技术研究,似乎只关注了QKV参数相关性,缺乏对激活模式、训练流程、数据来源等多维度分析,毕竟专业评估需要多层级、多模型对比、显著统计差异分析,而非单一模型参数相关性的测算。
而华为盘古团队认为对比方法“不科学”的解释中似乎也点明了这点,同时强调了其“分组混合专家模型(MoGE)”架构的独特性和创新性。
事实是,MoE(Mixture ofExperts)模型本身就是一种将大模型拆分成多个“专家”(子网络或者模块)的架构。如果盘古的MoGE架构在专家分组、路由机制等方面有显著创新,那么即便某些基础组件(如每个专家内部的Transformer块)的实现参考了开源代码,也不能完全等同于对整个模型的抄袭。
尽管如此,要想反驳抄袭的质疑,盘古团队还理应透明地解释其MoGE架构与Qwen-2.5的异同,并说明为何在上述架构存在独特性和创新性的前提下,参数相似度还依然如此之高
遗憾的是,这些并未出现在盘古团队的回复中,其也未详细解释“LLM-Fingerprint”的评估方法何以不科学,同时缺乏官方GitHub或其他平台的完整声明,进而导致华为的否认缺乏反证数据支撑,难以形成有力的回应。
如上述,无论是盘古团队回复中提及的“LLM-Fingerprint”分析的不科学,还是业内部分观点认为,判断盘古Pro MoE是否抄袭,需要多层级、多模型对比、显著统计差异分析等的专业评估,都揭示出证伪的系统性和复杂性。
那么问题来了,我们能否仅在“LLM-Fingerprint”的层面(毕竟盘古团队回复中所指出的不科学也仅限于此),即质疑方除了前述HonestAGI用户采用的属于“LLM-Fingerprint”的参数指纹(Parameter Fingerprint),还可以使用同属于“LLM-Fingerprint”的其他验证方式以增加质疑的权重和说服力;而华为也可以借此反驳质疑方的质疑,也是最直接和简单的方法,同级验证中的“一正一反”,质疑至少在同一技术层面的争议中归零。
这里我们需要简单说明的是,HonestAGI提及的“LLM-Fingerprint”指的就是所谓的模型指纹(Model Fingerprinting),简而言之,它是指通过一组可量化的特征或统计量,对一个机器学习模型(特别是大语言模型LLM)建立独一无二的“身份识别”,类似于人类的指纹或设备的序列号,主要用来识别模型来源;检测模型抄袭、篡改或未经授权的衍生;对模型“去匿名化”等,通常包括我们上述第一部分论述的,HonestAGI用户采用的参数指纹外,还有行为指纹、输出指纹、梯度指纹等。
不幸的是,除参数指纹外,对于用户和社区来说,基于动态验证方法的行为指纹、输出指纹、梯度指纹等这些更强、更深层、更具解释力的验证手段都无法进行。
原因很简单,盘古ProMoE既未开放完整模型权重,也没有提供任何在线API、推理或DEMO接口。
注:白盒(White-box):完全可见模型内部结构与参数,如模型权重
灰盒(Grey-box):有限开放部分中间结果,如梯度、logits
黑盒(Black-box):只开放输入输出接口,不公开模型内部结构
例如在华为官方介绍中,盘古大模型主要定位为企业级应用、昇腾硬件加速平台上的基础模型,聚焦政企行业解决方案,相关产品多以集成形式对外提供,未见单独面向开发者或公众的API服务开放;华为云官网虽然提供部分AI服务,但并未列出针对盘古ProMoE的API调用入口或开放平台;华为ModelArts或其它云服务平台未发现有盘古Pro MoE对外API。
而在开源平台与模型库中,尽管盘古Pro MoE的相关代码和训练框架在GitHub开源,但未提供推理API或在线服务Demo;至于相关社区也没有发现公开可用的盘古Pro MoE Web Demo或API,开源爱好者和企业用户均反映无法通过接口直接调用。
最后,据多个国内行业媒体报道,盘古Pro MoE面向昇腾芯片定制,且目前主要作为底层基础模型,不对外提供单独API。
这意味着仅在模型指纹领域,比基于静态验证方法的参数指纹更具说服力的其他基于“动态验证方法”的模型指纹都被华为有意或者无意间所屏蔽,只剩下无需API,只要公开权重,即可对模型权重中特征矩阵的相似度进行静态分析的参数指纹可用。
到此,我们认为,从用户和社区端,想要再添加更有说服力的证据几乎没有可能,那么就如我们前面所述,华为自身能否通过除去其质疑不科学的参数指纹外,用其他模型指纹中的任何一种或几种进行交叉验证,来反驳能,且只能采用参数指纹进行验证的用户的质疑呢?
按理说这对于华为来说再简单不过。
但随之而来的问题是,如果华为真的自己去验证,这种类似于既当运动员,又当裁判员的做法能否服众?也许最客观、公正的做法就是更加开放,例如对外开放自己的API和推理或DEMO接口,接受社区和用户的检验,但这又和我们前述人家华为盘古Pro MoE多以集成形式对外提供服务的商业模式相悖。毕竟选择何种商业模式是厂商的自由。
到这里,业内是否发现,无论是社区和用户对于盘古Pro MoE的进一步证伪,还是华为反驳的自我证真,实际的操作非常简单,但因为我们前述的理由却变得异常复杂,且“合情合理”,而这种化简为繁的操作,极有可能让此次盘古Pro MoE的抄袭风波,成为用户无法证伪,华为不能证真的游戏而不了了之。
曾几何时,物理学巨匠艾萨克•牛顿在1675年写给罗伯特•胡克的信中所言的:“如果我看得更远,那是因为我站在巨人的肩膀上”成为科学精神的经典象征,传达出一种谦逊、尊重前人、积累创新的价值观。
而科技发展到今天,特别是在AI领域,完全从零开始构建一切已不现实,因为几乎所有的研究和开发都是基于前人的努力或者成果。
例如Transformer架构(由谷歌2017年提出)已成为几乎所有现代大模型的基础。无论是GPT、BERT、LLaMA、通义千问还是盘古,都是在其之上的继承和发展。而在开源日益流行的大模型领域更是如此。
这让使用开源模型、开源数据集、参考优秀论文等的自我实现,已经成为行业常态。而在这种背景下,创新的核心其实已经从所谓零开始的完全自研,转向是否提供了新的、有价值的东西。
以盘古Pro MoE为例,从其发布的论文看,面向自家的昇腾硬件就是其核心自主创新之一。因为针对特定硬件进行深度优化,本身就是重要的工程创新,可以提升训练和推理效率;又如其MoGE架构,如果此架构确实如其所言,解决了大规模分布式训练的负载均衡难题,无疑也是相当具有价值的架构创新。
但随之而来的疑问是,如果盘古Pro MoE在架构和硬件适配上有如此重要的创新,为何还需要大量借鉴,甚至可能直接使用了Qwen的核心参数(按照HonestAGI用户的参数指纹验证)呢?
结合上述,我们认为,所谓针对昇腾硬件的优化严格来说只能算是“部署优化”,不涉及模型本身的原创性;而MoGE架构也仅是架构创新,所以二者能否支撑“盘古Pro MoE是完全独立训练的大模型”之说,依然值得商榷。
而提及盘古Pro MoE是完全独立训练的大模型,除了上述盘古Pro MoE的论文外,我们不得不再提及华为盘古团队对于质疑的回应。
回应中,盘古团队强调其“严格遵循开源许可证的要求,在开源代码文件中清晰标注开源代码的版权声明”。这可以被解读为,其承认使用了其他开源模型的代码(可能包括Qwen),但认为自己的使用方式在法律上是合规的。
但问题的关键在于“使用”的程度,其并没有详细说明。
而在我们看来,如果使用仅仅是参考了某个函数的实现方式,或者使用了某些基础库,这在开源社区是完全正常且被鼓励的,但如果是将一个模型的“核心资产”,即人家花费大量算力和数据训练出来的权重参数进行“换皮”式使用,并声称是完全独立训练的大模型,那么即便在代码层面标注了来源,法律上合规,但在道义和学术诚信上也会引发巨大争议,尤其是在开源领域,这种道义和学术诚信上的争议,对于相关企业,乃至中国开源领域都会造成不小的负面影响。
写在最后:俗话说:“欲戴皇冠,必承其重”。当一家企业因为非市场因素的限制,而被部分业内和媒体频频冠以自研,且该企业借此收获大量情绪价值,并能将其转化为实际商业营收和利润之时,该企业难免受到一定的影响。
例如明明某些领域、某些技术的核心来自供应商,该企业充其量是优化或者适配,却被换上个高大上的名字或者艰涩难懂的所谓科技术语,摇身一变成为自研,久而久之,习惯成自然,自研被标签化,仿佛不自研,该企业就不成活。但稍有业内常识的人都清楚,任何产业或者产品的创新和成功,都不可能凭借一家企业的自研之力可为之。
而此次盘古大模型陷抄袭风波足以提醒我们的企业,要么是真的自研,勇于接受市场的质疑和检验;要么在严格遵守相关行业或者产业协议和规则等的前提下,站在巨人的肩膀上去发展。否则,舆论长期停留在“猜测”与“对抗”之间,最终,不仅相关企业会被所谓的自研反噬,还会极大消耗中国科技产业及自主品牌的公信力和竞争力。
华亿配资-华亿配资官网-配资炒股股票-山西配资公司提示:文章来自网络,不代表本站观点。