算力减半、准确率提升这米兰体育- 米兰体育官方网站- APP下载项研究打破大模型“必须达成共识”的铁律

2026-03-05

　　米兰体育,米兰体育官方网站,米兰体育APP下载

算力减半、准确率提升这米兰体育- 米兰体育官方网站- 米兰体育APP下载项研究打破大模型“必须达成共识”的铁律

　　当所有智能体都在“少数服从多数”时，错误也可能被投票放大。但如果不再追求共识，会发生什么？

　　一项研究结果显示，仅通过单轮协作，无需达成共识，多智能体协同反而能实现更高的准确性、效率和鲁棒性。

　　这个有些“反直觉”的结论，来自浙江清华长三角研究院信息技术研究所张海滨教授团队（通讯作者）与北京理工大学团队近期合作的研究，他们研发出一种多智能体协作架构 Free-MAD，打破了多智能体辩论必须“达成共识”的铁律。

　　在多项任务评测中，Free-MAD 在显著降低硬件资源需求的同时，无需达成共识，仅通过单轮协作，能高效组合数个（中小型）开源大模型，在部分复杂任务方面超越国际主流单体大参数模型（如 Gemini 3、GPT-5.2）的性能水平。

　　近年来，多智能体协同正成为提升大模型推理能力的热门方向之一，Anthropic、月之暗面等机构也在关注该方向。

　　传统方法中大模型特有的从众机制是，哪怕是错误的观点也要“少数服从多数”。另一方面，传统多智能体协作方案通常需要两至三轮交互才能达成共识，这会导致模型的准确率和性能均不高，并且费时费钱。

　　该方案摒弃了传统方法，基于奖励评分决策机制评估整个辩论轨迹，而非仅依赖最后一轮结果；同时通过抗从众机制，使智能体有效识别并避免从众错误推理的传播。

　　与传统方法相比，在该框架下仅需单轮多智能体交互，即可实现与传统方法的推理相当的效果；在对抗环境下，具有更强的鲁棒性、较低的推理开销以及更高的可拓展性。

　　该研究为在算力受限环境下实现高性能模型应用，提供了一种兼具成本和性能的技术路径。对工业界而言，意味着可部署更轻量、更便宜、更安全的 AI 协作系统；对学术界而言，它开启了“非共识化多智能体系统”的新方向。

　　当前，全球大模型技术发展呈现出明显的结构性不平衡。一方面，国际上先进的大模型，例如谷歌的 Gemini、OpenAI 的 GPT 以及 Anthropic 的 Claude Opus 系列等仍以闭源为主。尽管在性能和通用能力方面具有优势，但受到技术封锁、合规限制及地缘政治因素等影响，其难以实现广泛获取与使用。

　　另一方面，国内开源模型在透明性、可审计性和自主可控方面具备优势，但不容忽视的一个问题是，其在综合性能、复杂任务处理能力等关键指标上，与顶尖闭源模型仍存在一定的差距。

　　实际部署层面的挑战同样严峻，现有部分 200B 及以上参数规模的大模型（如 DeepSeek-V 系列、Qwen 高参数版本等）往往高度依赖多张NVIDIAH200 级 GPU 硬件，单卡成本较高，这对整体算力来说是一项较高的支出。

　　相比之下，轻量级小参数模型，例如 32B 级开源模型可在多张 NVIDIA 4090 级别的消费级显卡环境下完成部署，但它的局限性在于单模型能力在复杂任务场景和应用深度方面受限。

　　在此背景下，研究团队开发了全新多智能体协作架构 Free-MAD。为有力抑制答案的“盲目跟风”，研究人员引入了反从众的机制来重构辩论阶段。通过鼓励批判性思维，系统可实现主动降低对多数意见的敏感度。

　　张海滨对 DeepTech 解释道：“不能为了达成共识而达成共识，而是应该去思考问题的本身。每个大模型或智能体都会产生自己的思考结果，其不仅要收到对方的结果来做决定，更重要的是，要用批判性思维来看待对方的推理过程是否合理。”

　　在决策阶段，研究团队基于纯算法逻辑引入了奖励评分决策机制，来评估整个辩论轨迹。这样，最终决策并非取决于最后一轮“谁声量高听谁的”，而是通过全程追踪辩论过程中所有智能体的每次推理轨迹变化。

　　图丨 Free-MAD 框架的推理过程。当最终轮次中正确答案为少数时，该框架仍能识别正确答案作为最终答案（来源：arXiv）

　　这种决策逻辑带来的好处是，无需在辩论阶段达成共识，即便正确答案在末轮未获得多数投票，系统仍可能基于它在辩论过程中的稳定表现或合理转变而获得结论。

　　除了开发全新的推理框架，这项研究还揭示了多智能体协同中有趣的现象：有的场景下，异构模型的效果强于同构模型；但其他场景下，同构模型反而更强，甚至对应不同的工作或者任务，需要动态调整核心算法与参数。

　　对于非专业的用户来说，Free-MAD 无异于通用大模型或智能体应用，而针对专业用户，研究团队在此基础上进行参数调优，进化出高度优化的通用版本 MAX-MAD，使性能和准确率进一步提升，以应对不同的场景和赛道。

　　“参数调优的好坏直接关系到准确性，甚至关系到整个共识达成的速度。因此，我们设置了额外的一些重要的参数调优。”该论文第一作者崔宇对 DeepTech 表示。

　　据悉，该系统前置了三个重要模块：针对输入任务的分类（例如数学、推理、哲学，或其他问题）等，对任务复杂度评估以及策略参数优化器。此外，研究人员还开发了智能体的自适应模块以及反馈机制的收集。

　　在实验部分，研究团队的测试覆盖了 8 个数据集，包括数学推理（GSM-Ranges、AIME2024、AIME2025 和 MATH500）、逻辑推理（StrategyQA 和 MMLU 的逻辑谬误数据集）、知识和理论推理（AICrypto 的多选题数据集）等。

　　据团队介绍，在综合数学推理测试中，研究人员综合使用国内的四大开源模型组合（Qwen3-235B、DeepSeek-V3.2、Kimi-K2 和 GLM-4.7）以及调用同一个国产大模型的单一组合（以上任意一种大模型，如 Qwen3-235B）。

　　综合来看，Free-MAD 和 MAX-MAD 通过多智能辩论后，能够达到约 86.67%-90% 的准确率，不仅将四个单体模型本身的准确率大幅提升了 15-30%，更值得关注的是，该准确率也超过了主流闭源模型（如 Gemini 3、GPT-5.2）在相同数据集上的公开成绩。

　　图丨针对多种基准测试的 MAD 框架的综合比较实验结果（注：Free-MAD-N 代表结合反从众辩论过程和基于评分的决策阶段；Free-MAD-C 代表结合基于从众的辩论过程和基于评分的决策阶段）（来源：arXiv）

　　基线方法采用了被广泛采用的多智能体辩论框架 SoM，结果显示，Free-MAD-N（反从众辩论+评分决策）在单轮辩论（R=1）时准确率达 64.43%，比基线%，比基线%。

　　值得关注的是，基线方法在单轮辩论时效果不佳，单轮无法形成共识；而 Free-MAD 不需要共识，单轮结果优于基线两轮成绩。

　　从 token 消耗结果来看，Free-MAD 或 MAX-MAD 的轮数由原来的两三轮变成现在的单轮，相当于整个 token 的使用量或带宽的使用量降为原来的一半。“这也是一项重要的成本节省。”张海滨说道。

　　在安全性方面，研究团队也进行了相关设计。智能体往往涉及到多智能体协作，50% 智能体被断网时，基线%。因此，需要考虑的情况是：万一部分智能体无法正常工作，或系统的一部分不工作的情况，是否能保障系统的安全性，以及是否仍能够按时获得输出结果。

　　经过研究人员测算，Free-MAD 或 MAX-MAD 系统在抵御宕机或通信攻击情况下的表现较为理想。实验结果显示，即便智能体（短暂）离线，或受到敌手攻击，不能把自己的信息发送情况下，其余的智能体也能准确地完成任务。

　　据研究团队介绍，来自研究社区的英国独立研究团队已基于该成果复现了 Free-MAD。值得注意的是，相关团队将包括权重在内的所有系统超参数设为自适应可配置，并引入了基于归一化的方法及若干额外工程化策略，显著提升了系统的实用性与并行能力。

　　这种兼具安全性和性能优势的框架有望用于高质量推理内容生成，以及智慧医疗、舆情治理、金融分析等高安全敏感应用领域。

　　在高质量内容生成领域，基于框架较强的通用性，该方案可直接用于任意大模型和智能体进行传统的智能问答。尽管它在结果返还速度上相对传统大模型较慢，但基于辩论优化逻辑链，可大幅度提升政策解读、行业报告等文本的专业性与可信度。

　　在智慧医疗领域，该成果有望模拟心内、影像、病理等多科室专家会诊，甚至产生辩论，来对疑难病症进行诊断。

　　例如，三个智能体分别对患者病情进行评估，在其中两个智能体误判为良性，一个智能体坚持是恶性的情况下，传统的 MAD 方法有可能因为共识压力输出错误的结果，而该方案能通过特有的轨迹分析，识别出少数派的扎实推理理念，进而做出更精准的评估。

　　在舆情治理方面，可构建虚拟的辩论社区，多角度解构舆情领域的脉络，实现风险的早识别、早干预。目前，在汽车舆情的治理方面，研究团队已经有相关落地案例。张海滨指出，“从结果来看，通过辩论得到的结果，明显优于单模型或传统共识型多智能体方案。”

　　在金融分析领域，多 Agent 协同有利于更好地研判市场信号，生成逻辑严密的投资策略和风控报告。

　　张海滨教授目前担任浙江清华长三角研究院信息技术研究所所长、学术带头人，其团队致力于为 AI 提供从数据层、模型层到应用层的完善解决方案。

　　该团队承担多项国家级与省部级科研项目，例如“天枢·可信数据空间”。围绕可信数据空间与多智能体协同架构展开研究，并落地大小模型协同的“天迹·工业智能体”。相关成果已在能源、电信、国家电网、国家管网等领域落地，并参与包括央行数字货币等在内的多边金融基础设施项目建设。

　　在未来的研究中，该团队计划构建新一代策略参数优化的更高性能、更准确的多智能体协作框架。目前，他们正在探索将该框架与硬件系统结合的可能性，旨在通过硬件优化解决多智能体辩论中分词、解码及广播带来的带宽消耗和延迟问题。

上一篇：我国米兰体育- 米兰体育官方网站- APP下载数字人民币技术研发进展 2021数字货币央行最新消息

下一篇：博米兰体育- 米兰体育官方网站- APP下载商软件大事记