算力减半、准确率提升这米兰体育- 米兰体育官方网站- APP下载项研究打破大模型“必须达成共识”的铁律

2026-03-05

  米兰体育,米兰体育官方网站,米兰体育APP下载

算力减半、准确率提升这米兰体育- 米兰体育官方网站- 米兰体育APP下载项研究打破大模型“必须达成共识”的铁律

  当所有智能体都在“少数服从多数”时,错误也可能被投票放大。但如果不再追求共识,会发生什么?

  一项研究结果显示,仅通过单轮协作,无需达成共识,多智能体协同反而能实现更高的准确性、效率和鲁棒性。

  这个有些“反直觉”的结论,来自浙江清华长三角研究院信息技术研究所张海滨教授团队(通讯作者)与北京理工大学团队近期合作的研究,他们研发出一种多智能体协作架构 Free-MAD,打破了多智能体辩论必须“达成共识”的铁律。

  在多项任务评测中,Free-MAD 在显著降低硬件资源需求的同时,无需达成共识,仅通过单轮协作,能高效组合数个(中小型)开源大模型,在部分复杂任务方面超越国际主流单体大参数模型(如 Gemini 3、GPT-5.2)的性能水平。

  近年来,多智能体协同正成为提升大模型推理能力的热门方向之一,Anthropic、月之暗面等机构也在关注该方向。

  传统方法中大模型特有的从众机制是,哪怕是错误的观点也要“少数服从多数”。另一方面,传统多智能体协作方案通常需要两至三轮交互才能达成共识,这会导致模型的准确率和性能均不高,并且费时费钱。

  该方案摒弃了传统方法,基于奖励评分决策机制评估整个辩论轨迹,而非仅依赖最后一轮结果;同时通过抗从众机制,使智能体有效识别并避免从众错误推理的传播。

  与传统方法相比,在该框架下仅需单轮多智能体交互,即可实现与传统方法的推理相当的效果;在对抗环境下,具有更强的鲁棒性、较低的推理开销以及更高的可拓展性。

  该研究为在算力受限环境下实现高性能模型应用,提供了一种兼具成本和性能的技术路径。对工业界而言,意味着可部署更轻量、更便宜、更安全的 AI 协作系统;对学术界而言,它开启了“非共识化多智能体系统”的新方向。

  当前,全球大模型技术发展呈现出明显的结构性不平衡。一方面,国际上先进的大模型,例如谷歌的 Gemini、OpenAI 的 GPT 以及 Anthropic 的 Claude Opus 系列等仍以闭源为主。尽管在性能和通用能力方面具有优势,但受到技术封锁、合规限制及地缘政治因素等影响,其难以实现广泛获取与使用。

  另一方面,国内开源模型在透明性、可审计性和自主可控方面具备优势,但不容忽视的一个问题是,其在综合性能、复杂任务处理能力等关键指标上,与顶尖闭源模型仍存在一定的差距。

  实际部署层面的挑战同样严峻,现有部分 200B 及以上参数规模的大模型(如 DeepSeek-V 系列、Qwen 高参数版本等)往往高度依赖多张NVIDIAH200 级 GPU 硬件,单卡成本较高,这对整体算力来说是一项较高的支出。

  相比之下,轻量级小参数模型,例如 32B 级开源模型可在多张 NVIDIA 4090 级别的消费级显卡环境下完成部署,但它的局限性在于单模型能力在复杂任务场景和应用深度方面受限。

  在此背景下,研究团队开发了全新多智能体协作架构 Free-MAD。为有力抑制答案的“盲目跟风”,研究人员引入了反从众的机制来重构辩论阶段。通过鼓励批判性思维,系统可实现主动降低对多数意见的敏感度。

  张海滨对 DeepTech 解释道:“不能为了达成共识而达成共识,而是应该去思考问题的本身。每个大模型或智能体都会产生自己的思考结果,其不仅要收到对方的结果来做决定,更重要的是,要用批判性思维来看待对方的推理过程是否合理。”

  在决策阶段,研究团队基于纯算法逻辑引入了奖励评分决策机制,来评估整个辩论轨迹。这样,最终决策并非取决于最后一轮“谁声量高听谁的”,而是通过全程追踪辩论过程中所有智能体的每次推理轨迹变化。

  图丨 Free-MAD 框架的推理过程。当最终轮次中正确答案为少数时,该框架仍能识别正确答案作为最终答案(来源:arXiv)

  这种决策逻辑带来的好处是,无需在辩论阶段达成共识,即便正确答案在末轮未获得多数投票,系统仍可能基于它在辩论过程中的稳定表现或合理转变而获得结论。

  除了开发全新的推理框架,这项研究还揭示了多智能体协同中有趣的现象:有的场景下,异构模型的效果强于同构模型;但其他场景下,同构模型反而更强,甚至对应不同的工作或者任务,需要动态调整核心算法与参数。

  对于非专业的用户来说,Free-MAD 无异于通用大模型或智能体应用,而针对专业用户,研究团队在此基础上进行参数调优,进化出高度优化的通用版本 MAX-MAD,使性能和准确率进一步提升,以应对不同的场景和赛道。

  “参数调优的好坏直接关系到准确性,甚至关系到整个共识达成的速度。因此,我们设置了额外的一些重要的参数调优。”该论文第一作者崔宇对 DeepTech 表示。

  据悉,该系统前置了三个重要模块:针对输入任务的分类(例如数学、推理、哲学,或其他问题)等,对任务复杂度评估以及策略参数优化器。此外,研究人员还开发了智能体的自适应模块以及反馈机制的收集。

  在实验部分,研究团队的测试覆盖了 8 个数据集,包括数学推理(GSM-Ranges、AIME2024、AIME2025 和 MATH500)、逻辑推理(StrategyQA 和 MMLU 的逻辑谬误数据集)、知识和理论推理(AICrypto 的多选题数据集)等。

  据团队介绍,在综合数学推理测试中,研究人员综合使用国内的四大开源模型组合(Qwen3-235B、DeepSeek-V3.2、Kimi-K2 和 GLM-4.7)以及调用同一个国产大模型的单一组合(以上任意一种大模型, 如 Qwen3-235B)。

  综合来看,Free-MAD 和 MAX-MAD 通过多智能辩论后,能够达到约 86.67%-90% 的准确率,不仅将四个单体模型本身的准确率大幅提升了 15-30%,更值得关注的是,该准确率也超过了主流闭源模型(如 Gemini 3、GPT-5.2)在相同数据集上的公开成绩。

  图丨针对多种基准测试的 MAD 框架的综合比较实验结果(注:Free-MAD-N 代表结合反从众辩论过程和基于评分的决策阶段;Free-MAD-C 代表结合基于从众的辩论过程和基于评分的决策阶段)(来源:arXiv)

  基线方法采用了被广泛采用的多智能体辩论框架 SoM,结果显示,Free-MAD-N(反从众辩论+评分决策)在单轮辩论(R=1)时准确率达 64.43%,比基线%,比基线%。

  值得关注的是,基线方法在单轮辩论时效果不佳,单轮无法形成共识;而 Free-MAD 不需要共识,单轮结果优于基线两轮成绩。

  从 token 消耗结果来看,Free-MAD 或 MAX-MAD 的轮数由原来的两三轮变成现在的单轮,相当于整个 token 的使用量或带宽的使用量降为原来的一半。“这也是一项重要的成本节省。”张海滨说道。

  在安全性方面,研究团队也进行了相关设计。智能体往往涉及到多智能体协作,50% 智能体被断网时,基线%。因此,需要考虑的情况是:万一部分智能体无法正常工作,或系统的一部分不工作的情况,是否能保障系统的安全性,以及是否仍能够按时获得输出结果。

  经过研究人员测算,Free-MAD 或 MAX-MAD 系统在抵御宕机或通信攻击情况下的表现较为理想。实验结果显示,即便智能体(短暂)离线,或受到敌手攻击,不能把自己的信息发送情况下,其余的智能体也能准确地完成任务。

  据研究团队介绍,来自研究社区的英国独立研究团队已基于该成果复现了 Free-MAD。值得注意的是,相关团队将包括权重在内的所有系统超参数设为自适应可配置,并引入了基于归一化的方法及若干额外工程化策略,显著提升了系统的实用性与并行能力。

  这种兼具安全性和性能优势的框架有望用于高质量推理内容生成,以及智慧医疗、舆情治理、金融分析等高安全敏感应用领域。

  在高质量内容生成领域,基于框架较强的通用性,该方案可直接用于任意大模型和智能体进行传统的智能问答。尽管它在结果返还速度上相对传统大模型较慢,但基于辩论优化逻辑链,可大幅度提升政策解读、行业报告等文本的专业性与可信度。

  在智慧医疗领域,该成果有望模拟心内、影像、病理等多科室专家会诊,甚至产生辩论,来对疑难病症进行诊断。

  例如,三个智能体分别对患者病情进行评估,在其中两个智能体误判为良性,一个智能体坚持是恶性的情况下,传统的 MAD 方法有可能因为共识压力输出错误的结果,而该方案能通过特有的轨迹分析,识别出少数派的扎实推理理念,进而做出更精准的评估。

  在舆情治理方面,可构建虚拟的辩论社区,多角度解构舆情领域的脉络,实现风险的早识别、早干预。目前,在汽车舆情的治理方面,研究团队已经有相关落地案例。张海滨指出,“从结果来看,通过辩论得到的结果,明显优于单模型或传统共识型多智能体方案。”

  在金融分析领域,多 Agent 协同有利于更好地研判市场信号,生成逻辑严密的投资策略和风控报告。

  张海滨教授目前担任浙江清华长三角研究院信息技术研究所所长、学术带头人,其团队致力于为 AI 提供从数据层、模型层到应用层的完善解决方案。

  该团队承担多项国家级与省部级科研项目,例如“天枢·可信数据空间”。围绕可信数据空间与多智能体协同架构展开研究,并落地大小模型协同的“天迹·工业智能体”。相关成果已在能源、电信、国家电网、国家管网等领域落地,并参与包括央行数字货币等在内的多边金融基础设施项目建设。

  在未来的研究中,该团队计划构建新一代策略参数优化的更高性能、更准确的多智能体协作框架。目前,他们正在探索将该框架与硬件系统结合的可能性,旨在通过硬件优化解决多智能体辩论中分词、解码及广播带来的带宽消耗和延迟问题。

地址:广东省广州市天河区88号 客服热线:400-123-4567 传真:+86-123-4567 QQ:1234567890

Copyright © 2012-2025 米兰体育- 米兰体育官网- 米兰体育APP下载 版权所有 非商用版本