艾瑞数智|艾瑞咨询| 艾瑞网|艾瑞智慧

艾瑞网

搜索
登录登录用户注册

搜索历史

热搜词

移动互联网

巨头狂炼大模型，百度却不愿意“卷”参数了

罗超

2022/5/23 15:49:00

现在只要是跟AI主题有关的活动都绕不开一个话题：AI大模型。

在刚刚结束的Google I/O大会上，谷歌展示了其如何将最先进的预训练大模型应用在日常工作中，比如谷歌文档的自动总结功能可将几十页文件总结成几句话。在 4 月提交的论文中谷歌研究人员训练了一个 5400 亿参数的大型语言模型——PaLM，可以自动生成代码、解决数学问题、修复 bug、解释笑话的梗。AlphaBet CEO桑达尔·皮查伊表示PaLM的优点在于可区分因果关系，理解上下文中的概念组合，其在数学问题上的准确率提升到 58%，接近 60% 的 9 到 12 岁儿童解决问题的水平。

国内AI巨头百度不遑多让，其在2019年就已开始积累AI预训练模型技术，2021年12月正式发布了全球首个知识增强千亿大模型鹏城-百度·文心，参数规模2600亿。在5月20日的WAVE SUMMIT 2022深度学习开发者峰会上，百度公布了飞桨文心大模型最新全景图，提出支撑大模型产业落地的3个关键路径，在业内首发行业大模型。文心大模型是一个大模型家族或者说大模型IP，在WAVE SUMMIT 2022，文心大模型家族迎来十大新成员，涵盖基础、任务和行业等不同类型大模型。

跟谷歌一样，百度也将AI大模型的重点放在了语言、知识等维度，或许这与两家AI巨头有着搜索引擎这一共同出身有关，因为搜索引擎本质就是用NLP技术处理知识，知识是AI的内核，因此两家搜索引擎也成为AI技术的关键玩家。

对AI大模型上心的不只是谷歌和百度，2021年国外的微软、英伟达、谷歌，国内的浪潮、华为和阿里……越来越多科技巨头都在布局AI大模型。2022年AI大模型竞赛正愈演愈烈，大有成为AI技术关键角逐场的趋势。

国内外科技巨头狂炼AI大模型为哪般？

AI大模型更准确地称呼是“AI预训练大模型”，“预训练”字面意思很容易理解：预先训练好，这样应用开发者可得到相对现成的训练结果，基于此直接开发AI应用，不再需要从0到1训练数据、建立模型。

AI大模型通过堆叠数据集“贪婪式”地训练模式，拥有较强的通用性，理论上可泛化到多种应用场景，而小样本或零样本的技术实现，则可让应用开发者快速基于其构建工程应用。

AI大模型是深度学习技术的新突破，进一步增强了AI技术的通用性。

深度学习高速发展十年来，AI技术已被广泛应用。信息技术在今天已成为世界运转的基础设施，AI技术也在走向这一阶段，也就是AI工业化。当AI工业化阶段来临，AI要支撑更加广泛普适的场景，要支撑更大更复杂的AI计算需求，要实现从弱人工智能到强人工智能的升级，依靠传统训练模式已很难满足，具有“巨量数据、巨量算力、巨量算法”特性的AI大模型生逢其时。

可以说，AI大模型本质就是深度学习的“加强版”，通过给模型“填喂”大数据提高其自学习能力，进而具有更强的智能程度，比如在自然语言处理上表现更佳。百度、谷歌等巨头的探索表明，基于预训练大模型的NLP技术的效果已超过过去最好的机器学习能力。

AI大模型是AI工业化的关键，正是因为此，全球科技巨头不约而同重注AI大模型。

2021年底微软董事长兼CEO萨提亚·纳德拉就直言，他现阶段关注的一个重点方向就是“正在成为平台的大规模模型，这种大型模型背后的计算，如何继续构建系统。”他认为深度学习在过去20年或10年取得巨大进展，大模型则将是下一个值得期待的大事件，是微软将继续推进的绝佳领域。微软和英伟达联合发布Megatron-Turing自然语言生成模型(MT-NLG)，拥有5300亿参数，堪称“巨无霸”，官方宣称同时夺得单体Transformer语言模型界“最大”和“最强”两个称号。

当然，AI大模型依然存在一些不确定性，但这也意味着更大的可能性。AI大模型最终会带来什么样的成果无人知晓，它可能是强人工智能的终极模式，也可能只是过渡手段，但截至目前其已经越来越清晰地呈现出魅力：在NLP等领域展现出肉眼可见的优势，是人类当前看到的最接近强人工智能的训练方式，是推进AI认知智能突破、挑战人类智能的关键。

AI大模型俨然已成AI产业继深度学习后的第二波技术浪潮。深度学习技术让AI从实验室走向商业化，AI大模型则展现出推动AI从作坊式应用迈向工业化生产的潜力。

这正是百度此时此刻加码AI大模型的缘故。

作为全球首批、国内最早布局AI技术的企业，百度不会旁落各类AI技术方向的探索。AI大模型技术百度在2019年就已在布局，这一年在首届WAVE SUMMIT 上百度CTO王海峰前瞻性提出“深度学习推动人工智能进入工业大生产阶段”，过去三年，AI工业大生产正在变为现实，特别是在疫情驱动社会数智化、国家大力推动智能数字经济等因素下，AI工业大生产正在进一步加速，大有进入千行百业成为跟互联网一样的基础设施的趋势。

AI 大模型生逢其时，从本次WAVE SUMMIT上最新的文心全景图来看，百度在大模型布局上持续投入加码，并构建了一套更适宜产业应用的大模型体系，配套工具平台及开放生态促创新，跟同行们走了一条不太一样的路。

百度文心AI大模型不卷参数卷什么？

2018年谷歌发布了拥有3亿参数的BERT预训练模型，正式开启AI的大模型时代，接下来几年，大模型的“擂台”上，各路挑战者接踵而至，但比拼的焦点一直是围绕参数：

2019年OpenAI推出NLP大模型GPT-2，拥有15亿参数，英伟达则发布了83亿参数的威震天（Megatron-LM），谷歌又发布了110亿参数的T5，微软发布170亿参数的图灵Turing-NLG；

2020年OpenAI推出NLP大模型GPT-3，拥有1750亿参数，首次将大模型参数规模提升到千亿级，逼近人类神经元数量，其在传统的NLP能力外，还可以算术、编程、写小说、写论文摘要。

2021年浪潮推出的“源1.0”拥有2457亿参数，参数量超越GPT-3，比肩“巨无霸”MT-NLG。源1.0在中文数据集拥有差异化优势，问鼎全球最大规模的中文AI巨量模型，它可以撰写对话、续写小说、新闻、诗歌、对联。

2022年刚刚结束的谷歌I/O大会上，谷歌公布的PaLM 语言大模型则已拥有5400 亿参数。

参数从大到更大再到巨大。

然而，百度在WAVE SUMMIT 2022上发布的飞桨文心大模型系列却没有强调参数本身，百度集团副总裁吴甜认为，参数不是AI大模型唯一要追求的方向，落地到真实场景才是关键。百度文心一口气发布十款大模型，都做到在同等规模参数下能力更强、效果更好、效果更高，对此其有一个形象的比喻：“身材合适，内涵丰富。”

此前阶段的AI大模型竞赛则更像是重量级本身的PK，今天则颇有点拳击比赛的意味。拳击比赛，显然不是越胖的选手越厉害。飞桨文心AI大模型不一味追求参数“虚胖”，而是在“身材合适”（参数足够）的基础上强化“丰富内涵”，这里的内涵就是“知识”——这一点跟人一样。

本次百度文心大模型体系一次性发布10个大模型，涵盖基础大模型、任务大模型和行业大模型三级体系，没有一个大模型强调参数本身，而是强调“产业级知识增强”的特性。

10个AI大模型中最值得关注的是文心·行业大模型，这是行业首个行业级AI大模型。百度基于通用数据训练的文心大模型，加上行业应用场景中大量存在着行业特有的大数据和知识，结合行业相关的创新算法设计，推出行业大模型更适合在对应行业进行AI工业级应用，比如联合国家电网研发知识增强的电力行业NLP大模型国网-百度·文心，联合浦发银行研发了知识增强的金融行业NLP大模型浦发-百度·文心。

除了两个行业大模型外，百度还发布了文心基础大模型和任务大模型一共八个：融合任务相关知识的千亿NLP大模型ERNIE 3.0 Zeus，多任务视觉表征学习VIMER-UFO 2.0、商品图文搜索表征学习VIMER-UMS、文档图像表征学习VIMER-StrucTexT 2.0，语音-语言跨模态大模型ERNIE-SAT、地理-语言跨模态大模型ERNIE-GeoL，以及面向生物计算领域的化合物表征学习HELIX-GEM和蛋白质结构分析HELIX-Fold。NLP、CV视觉、跨模态这些都是属于各行各业都要用的基础AI大模型，而像地理-语言跨模态大模型这些则是面向特征任务。

从百度文心AI大模型体系来理解一下百度做AI大模型的思路：

一方面，做有知识增强的AI大模型。

AI大模型都在贪婪地吃着“数据集”进行训练，百度文心AI大模型则是有选择性地“吃知识”，包括人类普遍拥有的通识型知识、面向任务的领域专业型知识、面向产业的行业场景类知识。

强化知识增强，一方面，可以让AI大模型学习效果更好、效率更高，用吴甜的话说就是“知识增强的文心大模型，基于语义单元学习，学习效率更高”；另一方面，让AI大模型真正走向强人工智能。现在AI大模型被诟病的问题较多的是数据多不一定就准、回报存在不确定性、依然存在认知缺陷，知识增强可以规避不少问题，因为知识是更有意义的数据，可以让机器智能从感知到认知升华。

《人类简史》认为认知革命是人类走出动物界的一次革命，认知革命本质不是语言能力，因为动物也有，而是想象力，基于此人类拥有获取和形成知识的能力，再不断进步。

在2017年的AI World 世界人工智能大会上，王海峰就谈到一个观点：“知识是人工智能的基石。机器可以模仿人类的视觉、听觉等感知能力，但这种感知能力不是人类的专属，动物也具备感知能力，甚至某些感知能力比人类更强，比如狗的嗅觉。而认知是人特有的，语言是人区别于其他动物的能力。同时，知识也使人不断地进步，不断地凝练、传承知识，是推动人不断进步的重要基础。”而知识对于人工智能的价值就在于，让机器具备认知能力。

百度做AI一直重视基于知识增强的强认知型AI，不论是深度学习技术还是其上的语音、视觉、NLP，还是更上层的搜索、翻译等AI应用，都追求让机器从听清到听懂，从认识到理解，从感知到认知。

“知识让机器具备认知能力”的逻辑同样适用于AI大模型。当科学家、工程师们给AI大模型填喂的不再只是原生数据而是各类知识时，AI大模型就可以让机器具备跟人一样的认知能力。

AI大模型的知识增强比参数量本身更重要，这并不难理解。神经元的数量通常与动物的智商有着一定的关系，但也不绝对，比如非洲象的大脑重约5千克，含有2570亿个神经元，远超人脑（约1.4千克，约860亿个神经元）。章鱼则拥有无脊椎动物中最多的神经元，它们都有9个大脑，两个记忆系统，且所有大脑中的神经元加起来超过5亿个，其中扮演“中央处理器”的主脑就拥有2亿个神经元，其余部分就分散于各个“次脑”。

2020年面世的NLP大模型GPT-3拥有1750亿参数，已逼近人类神经元数量，但如果不做知识增强，AI大模型参数再上一个数量级也不可能比人类聪明。

AI大模型再单纯地拼参数已远远不够。想明白这个道理的百度决定不在参数本身上内卷，而是让每一个文心大模型拥有更强的知识，比如千亿规模参数的NLP基础大模型ERNIE 3.0 Zeus在学习海量数据和知识的基础上，进一步学习百余种不同形式的任务知识，增强模型效果；融合层次化提示的预训练，更好地建模不同任务的共性与特性；将不同任务组织成统一的自然语言形式，统一建模增强模型的泛化能力，其相较于其他NLP大模型在各类NLP任务上表现出了更强的零样本和小样本学习能力。也就是说，ERNIE 3.0 Zeus可能不是参数规模最大的NLP大模型，但却是更具知识属性能做任务的。强化知识增强而不是参数规模的AI大模型玩家，现在也只有百度。

另一方面，与产业场景深度结合的AI大模型。

百度文心AI大模型的“产业级”要一分为二地看：

一方面是百度文心AI大模型做知识增强本身就重视产业场景相关的知识输入；另一方面百度文心AI大模型在实践应用中结合产业场景的应用特性，与产业里面的佼佼者玩家如国家电网、浦发银行合作，通过结合行业数据、知识和算法，针对性地推出行业AI大模型。

当然，百度文心的行业大模型与基础大模型不是孤立的，后者给前者提供基础，比如浦发-百度·文心模型就使用了基于通用文心大模型的行业知识挖掘技术，从海量数据中挖掘金融相关的语料，再与浦发业务场景的大规模无标注数据联合训练，训练中设计了财报领域判别、金融客服问答匹配等算法来做预训练任务，让模型学习到金融行业特有知识。

基于这种通用+任务+行业结合的三层模型体系，更有利于产业依据自身特色把AI大模型实际用起来，百度文心也更有机会成为千行百业AI工业化大生产的基础设施。

强调知识增强和产业结合，让百度AI大模型成为业界唯一的“产业级知识增强”AI大模型，这也意味着百度AI大模型不需要再在参数上“内卷”。

百度率先打破内卷，是因为百度自身的业务优势给文心大模型主打“知识增强”构建的基础。C端业务上，百度有海量的AI应用场景，可提供知识输入。2019年3月文心ERNIE1.0发布以来，几乎百度全系列产品都在逐步使用飞桨文心大模型，现在百度搜索、信息流、智能音箱等互联网产品正在大规模应用文心大模型，文心大模型显著提升了百度产品的用户体验。B端业务上，依托百度智能云、百度飞桨等百度AI开放给各行各业，文心大模型对外日均调用量已超过五千万次。在更多产业、更多场景、更多产品被使用，百度文心大模型就可以获取更多知识，进而实现产业级知识增强。

落地到应用场景，是大模型玩家们的头等大事

“今年是大模型产业落地的关键年。”在峰会上吴甜直言：“要做好落地，需要解决的关键问题是，前沿的大模型技术如何与真实场景的方方面面要求相匹配。”吴甜给出了支撑大模型产业落地的3个关键路径：建设更适配场景需求的大模型体系，提供全流程支持应用落地的工具和方法，营造激发创新的开放生态。而在WAVE SUMMIT 2022上公布的百度文心大模型的动作，正是围绕着这三个关键路径。

让AI大模型与真实场景方方面面更匹配，让开发者可以更低门槛、更有效率、更低成本地应用AI大模型，让AI大模型从巨头的参数游戏成为产业的普惠技术，是百度文心正在努力做的事情。

除了独特的大模型体系外，百度文心提供了两大关键能力助力AI大模型在应用场景的落地：

一个是全流程支持AI大模型应用落地的工具和方法。

AI大模型在AI产业被寄予厚望。深度学习理论上人人都可参与研发探索，但具有“巨量数据、巨量算法、巨量算力”三大特征的AI大模型却成了门槛很高的技术竞赛。打造一个大模型需要海量数据、海量算力和海量研发，金钱、时间、人力投入同样“巨量”——微软甚至宣称其用了价值10亿美元的超级计算机来训练其AI大模型，可以说只有科技巨头才有实力研发可以工业化的AI大模型。

科技巨头研发再开放给各行各业的开发者是AI大模型的落地方式，然而对于非巨头开发者来说，AI大模型的应用门槛比深度学习高得多。如何让开发者可以快速、高效、简单地应用AI大模型是业界难题。针对此，百度依托飞桨多年服务AI开发者的能力与经验，在工具和方法上下功夫。

飞桨是我国首个自主研发、功能丰富、开源开放的产业级深度学习平台，在深度学习平台开发工具和方法上有着多年的丰富积累，涵盖训练、推理等环节。针对开发者使用文心大模型的场景，百度特意发布了一系列大模型开发套件、大模型API和集成文心大模型的飞桨企业版EasyDL和BML开发平台，面向不同类型的开发者，全面释放大模型的使用效能，进一步降低应用门槛。

简单地说，百度文心不只是有更强的AI大模型，也有更完整的配套工具帮助开发者轻松应用。现在EasyDL和BML平台已有累计超过1万名开发者基于文心大模型开发，创建超过3万个任务，并应用到输电通路巡检、零部件瑕疵检测、农业病虫害识别、新闻资讯创作等大量场景中。

另一个则是提供应用交流的创新生态平台。

任何编程语言要普及应用都离不开繁荣的开发者社区，既提供文档资料分享、技术问题解决等功能，更可营造分享交流的创新环境。AI大模型相对于发展20来年的深度学习技术来说是新的技术体系，对于应用者来说相关资料都比较匮乏，不同场景的应用案例还比较稀缺，针对此，百度文心大模型在飞桨生态下构建AI大模型生态，推出了基于文心大模型的创意社区——文心·旸谷社区，让更多用户零距离感受到文心大模型的魅力和应用创新潜力，迸发出更多富有想象力的新事物。

从“不卷参数卷知识”的产业级知识增强的大模型体系，到依托飞桨的全流程的工具、方法论以及创新生态，都能看出百度文心对于AI大模型的努力方向有且只有一个：让AI大模型不再是巨头炫技的军备竞赛，而是成为实实在在落地到产业场景的AI基础设施，最终将让机器具备认知智能，实现AI工业化大生产，让产业AI化不再只是口号。

百度已在AI领域深耕超十年，它也是国内最早布局人工智能的企业。最难能可贵的是，尽管这些年科技产业环境不断变迁，但百度却一直坚持深耕AI，一方面持续重注AI技术研发，储备芯片、深度学习平台、AI大模型、AI应用技术等全栈AI技术；另一方面，则将自身的AI技术能力开放出来，以百度智能云为基础推动企业实现数字化和智能化升级。

加速产业AI化，推动AI工业大生产，让AI成为互联网、电力、信息科技一样的社会基础设施是百度的夙愿。AI大模型、飞桨、百度智能云等都是百度实现愿景的工具。正是因为百度的终极目标是AI工业化大生产，因此百度做AI大模型要强调“产业级知识增强”，不拼参数拼落地。百度的选择，也将成为AI大模型玩家们的共同抉择。

今天，AI大模型拼参数的军备竞赛时代结束了，更关注产业场景的落地时代正式来临。