资源描述
本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请务必阅读正文之后的免责条款和声明。证券研究报告证券研究报告海外行业深度海外行业深度 逐浪大模型:互联网巨头逐浪大模型:互联网巨头的的 A AI I 野望野望 核心观点核心观点 语言模型已步入大模型发展阶段,国内大模型研发应用热潮持续高涨,科技大厂在模型、算力、平台、应用进行了四位一体的全面布局,如阿里的“通义大模型+飞天智算平台+魔塔社区+行业应用”、百度的“文心大模型+昆仑芯+飞桨平台+行业应用”、腾讯的“混元大模型+HCC 算力集群+太极机器学习平台+行业应用”、字节的“视觉语言模型+火山高速训练引擎+火山机器学习平台+行业应用”。大模型落地将形成 API、PaaS 和 MaaS 三种收费模式,目前仍以内部应用为主,后续主要向 B 端企业拓展服务,预计少数企业将在 C 端市场形成规模。摘要摘要 大模型发展全面加速,通过“预训练大模型发展全面加速,通过“预训练+精调”模式进行落地。精调”模式进行落地。语言建模经过统计语言模型、神经语言模型、预训练语言模型,已经全面迈入百亿、千亿参数规模的大语言模型阶段。大语言模型具备优秀的上下文学习能力、上下文学习能力、可观的知识容量、优秀的泛化性和复杂推理能力。大模型研究存在 Google 的Bert 模式、OpenAI 的 GPT 模式和国内的混合模式三条技术线,以 ChatGPT 为主导 GPT 模式目前已经占据主流。目前,国内已有至少 19 家企业及科研院所参与人工智能大模型训练,主要分为大型科技公司、科研院所和初创科技团队三类。国际对比来看,目前美国领跑,中国跟跑,但差距不断缩小。在实践中,预训练大模型在基于海量数据的自监督学习阶段完成了“通识”教育,再借助“预训练+精调”等模式,在共享参数的情况下,根据具体应用场景的特性,用少量数据进行相应微调,即可高水平完成任务。互联网大厂在“模型、算力、平台和应用”互联网大厂在“模型、算力、平台和应用”进行进行四位一体布四位一体布局。阿里“通义大模型局。阿里“通义大模型+飞天智算平台飞天智算平台+魔塔社区魔塔社区+行业应用”:行业应用”:在模型层,阿里达摩院主导大模型研究,发布通义大模型,包括通义 M6 多模态模型、通义 AliceMind 自然语言处理模型、通义视觉计算机视觉模型。在算力层,阿里云推出全栈智能计算解决方 维持维持 强于大市强于大市 孙晓磊 SAC 编号:S1440519080005 SFC 编号:BOS358 崔世峰 SAC 编号:S1440521100004 于伯韬 SAC 编号:S1440520110001 发布日期:2023 年 05 月 31 日 市场表现市场表现 相关研究报告相关研究报告 -14%6%26%46%66%86%2022/5/302022/6/302022/7/312022/8/312022/9/302022/10/312022/11/302022/12/312023/1/312023/2/282023/3/312023/4/30传媒标普500互联网互联网 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。案“飞天智算平台”,并启动两座超大规模智算中心。此外,阿里不仅拥有最多的英伟达 A100 芯片,还拥有自研芯片含光 800、倚天 710 芯片,共同为人工智能大模型提供算力。在平台层,阿里推出 AI 开源社区“魔搭”,旨在打造下一代“模型即服务”的共享平台,整合业界多方模型提供者,为开发者提供预训练基础模型和 API接口。在应用层,阿里已宣布旗下所有产品未来将全面改造并接入通义大模型,包括天猫、钉钉、高德地图、淘宝、优酷、盒马等。百度“文心大模型百度“文心大模型+昆仑芯昆仑芯+飞桨平台飞桨平台+行业应用”:行业应用”:在模型层,百度文心大模型构建了“基础+任务+行业”三级模型;在算力层,算力基础设施均由百度智算中心支持,昆仑芯二代已广泛应用在文心大模型,预计昆仑芯三代将于 2024 年初量产;在平台层,百度飞桨 PaddlePaddle 是其自主研发的深度学习平台,文心大模型通过百度飞桨平台,实现模型训练、推理部署和场景应用;在应用层,文心大模型将应用在电力、燃气、金融、生物医药、航天、传媒、城市、影视、制造、社科等多个行业。腾讯“混元大模型腾讯“混元大模型+HCC 算力集群算力集群+太极机器学习平台太极机器学习平台+行业应用”:行业应用”:在模型层,2022 年 4 月,腾讯对外披露了混元大模型,涉及自然语言处理、计算机视觉、多模态等多个领域。腾讯自研的太极机器学习平台为混元大模型提供算力,可支持 10TB 级模型训练、TB 级模型推理计算能力等。2023 年 3 月,腾讯对标 ChatGPT 已成立“混元助手”战略级项目组;在算力层,2023 年 4 月 14 日,腾讯云发布新一代 HCC 高性能计算集群,其采用最新一代星星海自研服务器,搭载 NVIDIA H800 Tensor Core GPU,并基于自研网络、存储架构,带来3.2T 超高互联带宽 TB 级吞吐能力和千万级 IOPS;在平台层,腾讯自研搭建了业界一流的太极机器学习平台,致力于让用户更加聚焦业务 AI 问题解决和应用,一站式的解决算法工程师在 AI 应用过程中特征处理,模型训练,模型服务等工程问题;在应用层,混元大模型已成功应用于腾讯广告,将全面接入微信端、QQ 端和王者荣耀、英雄联盟游戏端,提供智能聊天、内容推荐、情感分析、故事生成、角色塑造等功能,以及腾讯混元大模型有望将在游戏、社交、金融、教育、医疗等领域发展生态。字节“视觉语言模型字节“视觉语言模型+火山高速训练引擎火山高速训练引擎+火山机器学习平台火山机器学习平台+行业应用”:行业应用”:在模型层,字节在 AI 方面的积累主要集中在机器翻译、智能语音、视频图像和多模态四个领领域。字节跳动的研究成果包括非自回归模型 DA-Transformer、端到端语音到文本翻译模型 ConST、多颗粒度的视觉语言模型 X-VLM、图片和文本统一生成模型 DaVinci 等;在算力层,火山引擎在春季火山引擎 FORCE 原动力大会上正式发布自研 DPU 等系列云产品,并正式推出智能推荐-高速训练引擎,支持 100GB 至 10TB 以上超大模型的高效训练;在平台层,火山引擎在2023 春季 FORCE 原动力大会发布了机器学习平台升级版,在数据管理、资源管理、流程和模型三大领域具备核心优势;在应用层,火山引擎的 AI 场景产品主要包括智能创作、智能体验以及智能营销,目前已服务数百家客户,分别在视频创作、互动创作、直播短视频构建中推动客户业务增长。此外,字节在内部的相关产品持续引入 AI,包括海绵乐队、飞书 My AI 等。商业应用尚处早期,以商业应用尚处早期,以 API、PaaS、MaaS 三种模式为主。三种模式为主。当前全球大模型产业落地仍处于早期探索阶段,需要与下游场景企业合作建立大模型商业模式,但下游企业目前对于大模型的理解相对有限,所需要的资源支撑比较薄弱。总的来说,大模型落地可以通过 API 接口调用付费、或者大厂提供落地所需的开发工具、云平台、服务等的 PaaS 模式、更进一步是直接提供相关定制好的模型调用的 MaaS 模式。海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。目录目录 摘要.1 一、大模型发展情况.1 1、行业发展历程.1 2、大语言模型概览.3 3、产业发展趋势.6 二、互联网大厂模型.8 1、阿里.8 1.1 模型.8 1.2 算力.12 1.3 平台.14 1.4 应用.15 2、百度.17 2.1 模型.18 2.2 算力.34 2.3 平台.36 2.4 应用.39 3、腾讯.42 3.1 模型.42 3.2 算力.44 3.3 平台.45 3.4 应用.47 4、字节.51 4.1 模型.51 4.2 算力.52 4.3 平台.53 4.4 应用.54 三、商业模式.56 1、API 模式.56 2、PaaS 模式.57 3、MaaS 模式.59 风险提示.60 图目录 图 1:语言模型发展时间线.2 图 2:ChatGPT 发展时间线.3 图 3:大模型发展时间线.4 图 4:国产大模型发展时间表.5 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图 5:AIGC 模型十大开发机构.6 图 6:预训练语言模型参数量.6 图 7:训练大模型“预训练+精调”模式.6 图 8:通义大模型架构.9 图 9:通义 M6 发展历史.9 图 10:M6-OFA 模型-任务完成模式(架构统一).10 图 11:M6-OFA 模型-预训练模式(模态统一).10 图 12:通义-AliceMind 发展历程.10 图 13:通义-AliceMind 在 CLUE 榜单中名列前茅.11 图 14:通义-视觉框架.11 图 15:飞天智算平台.12 图 16:S4 框架.14 图 17:魔塔社区特点.15 图 18:阿里所有产品将接入大模型升级.16 图 19:百度 AI 大底座.17 图 20:文心大模型全景图.18 图 21:文心基础大模型组成.18 图 22:文心 NLP 大模型发展历程.20 图 23:从大规模知识图谱和海量无结构数据中学习.21 图 24:融合自编码和自回归结构.21 图 25:基于飞桨 4D 混合并行技术进行高效训练.22 图 26:层次化提示(Prompt)学习技术.23 图 27:文心 PLATO 技术研发框架.23 图 28:PLATO 基于隐变量的生成式开放域对话大模型.24 图 29:PLATO 提出隐变量建模 Context 和 Response 的映射信息来解决一对多问题.25 图 30:PLATO-2 引入两阶段训练.25 图 31:PLATO-X 引入 role embedding 感知用户角色.26 图 32:UFO 架构.26 图 33:UFO 多任务联合优化.27 图 34:网络稀疏化(Path Routing).28 图 35:多规模网络学习(Stochastic Architecture Slimming).29 图 36:VIMER-UFO 2.0 单模型 28 个公开测试集 SOTA.29 图 37:VIMER-StrucTexT 2.0 文档图像表征学习.30 图 38:商品搜索中多模态信息存在信息缺失问题.31 图 39:商品搜索中多模态信息存在信息缺失问题.31 图 40:基于 VIMER-UMS 的多模态商品搜索.32 图 41:ERNIE-ViL 架构图.33 图 42:ERNIE-ViL 融合场景进行判断.33 图 43:文心 ERNIE-ViLG 2.0 架构图.34 图 44:文心 ERNIE-ViLG 2.0 生成图示例.34 图 45:文心 ERNIE-ViLG 2.0 应用场景.34 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图 46:昆仑芯发展历程.35 图 47:昆仑芯产品迭代.35 图 48:飞桨平台全景图.36 图 49:飞桨四大领先技术.37 图 50:飞桨主流模型概览.37 图 51:飞桨硬件生态.38 图 52:飞桨产业实践范例库.38 图 53:飞桨位列中国深度学习市场应用规模第一.39 图 54:飞桨在各指标位列榜首.39 图 55:百度全新 AI 搜索体系.40 图 56:百度文心行业大模型全景.41 图 57:文心大模型产品矩阵.42 图 58:腾讯混元 AI 大模型架构.43 图 59:HCC 大幅提速大模型训练.44 图 60:星星海自研服务器.44 图 61:网络集群算力.45 图 62:HCC 存储架构.45 图 63:太极机器学习平台架构.46 图 64:太极 AngelPT
展开阅读全文