2021年,ai大模型会给人们带来哪些惊喜?( 三 )


在2021年1月 , 谷歌发布了全球首个万亿级模型SwitchTransformer 。11月 , 阿里巴巴达摩院的多模态大模型M6的参数规模更是跃升至10万亿级别 。参数数量成为AI预训练大模型规模的一个衡量指标 。
现在业界提高模型参数数量主要有两种技术路线:
一种是单体模型 , 将所有数据中学习得到的规律都记录在一张网络内 , 使用时网络上的任何点位都会被计算到 。
浪潮的源大模型、华为的盘古大模型、百度的文心大模型、英伟达联合微软发布的自然语言生成模型MT-NLG等走的都是单体模型路线 。
另一种是混合模型 , 由多个不同网络通过门控机制集成在一起 , 在单次计算中可能只会使用部分子网络的参数 。智源的悟道模型、阿里M6等走的就是混合模型路线 。
03国内5大AI预训练大模型风采各异
阿里达摩院M6三连跳:万亿、商用、低功耗 。
2021年1月 , 阿里达摩院M6达成百亿参数 , 3月达成千亿参数 , 5月在全球范围内首次大幅降低了万亿参数超大模型的训练能耗 , 12月参数达到10万亿 。
其中达摩院训练出万亿参数模型M6 , 仅仅使用了480卡V10032GGPU , 节省算力资源超80% , 且训练效率提升近11倍 。
M6拥有超越传统AI的认知和创造能力 , 擅长绘画、写作、问答 , 在电商、制造业、文学艺术等诸多领域拥有广泛应用前景 。
M6还是国内首个实现商业化落地的多模态大模型 。例如 , 经过一段时间的试用 , M6将作为AI助理设计师正式上岗阿里新制造平台犀牛智造 。
百度ERNIE3.0Titan:知识增强体现出学习效率更高、学习能力更强的优势 。
鹏城实验室与百度共同研发的鹏城-百度·文心(ERNIE3.0Titan)模型参数规模达到2600亿 。
知识增强是该大模型的最大特点 , 在学习过程中融入知识 , 进而实现将海量知识与海量数据融合学习 。
同时 , 在融入知识的基础上 , 该模型也会进行跨语言学习、跨模态学习 , 从而体现出学习效率更高、学习能力更强的优势 。
ERNIE3.0Titan在包括机器阅读理解、文本分类、语义相似度计算等60多项任务上取得好的效果 , 并在30余项小样本和零样本任务上刷新基准 。
浪潮人工智能研究院“源1.0” , 以开放API、开放数据集、开源代码等多种形式开放合作 。
浪潮人工智能研究院的浪潮源1.0大模型在算法、数据、算力三个层面上实现超大规模 , 其中在算法上 , 大模型总共用了2457亿的参数 , 超过1750亿参数的GPT-3 。
在数据上 , 研制高质量文本分类模型 , 形成新中文数据集生成方法 , 最终获得5000GB高质量数据集 , 是迄今业界最大的高质量中文数据集 。
在算力上 , 共4095PD(PetaFlop/s-day)的计算量 , 获得高达2457亿的参数量 , 相对于GPT-3消耗3640PD计算量得到1750亿参数 , 源1.0大模型计算效率大幅提升 。
2021年10月 , 源1.0宣布开源开放计划 , 将以开放API、开放数据集、开源代码等多种形式为业界提供开放合作 , 用户可基于“源1.0”模型探索算法创新以及开发各类智能化应用 。
华为云盘古大模型:实现人工智能工业化开发 。
于2021年4月亮相的华为云盘古大模型括中文语言(NLP)、视觉(CV)大模型 , 多模态大模型、科学计算大模型 , 旨在建立一套通用、易用的人工智能开发工作流 , 实现人工智能工业化开发 。
未来 , 华为云盘古预训练大模型将上线华为云AI资产共享社区(AIGallery) 。
盘古研发团队将继续对盘古多模态大模型进行迭代演进 , 持续开发上游通用能力 。
同时也会将把大模型拓展到更多的行业领域 , 让盘古多模态大模型演化成诸多盘古行业多模态大模型 , 加速盘古系列预训练大模型的“上天”(通用能力打造)与“入地”(行业落地)步伐 。