从实践中深化对数据中心“数学”与“算术”的认识

本文转自:人民邮电报
从实践中深化对数据中心“数学”与“算术”的认识
文章图片

文章图片

【从实践中深化对数据中心“数学”与“算术”的认识】7月30日 , 在2022中国算力大会“算力筑基高质量发展”主论坛上 , 中国工程院院士邬贺铨详细阐述了对数据中心“数学”与“算术”的思考 。他表示 , “数学”指的是研究数据的科学 , “算术”是研究算力的技术 。
在“以算为主”还是“以存为主”方面 , 邬贺铨表示 , 人工智能驱动算力需求快速增长 , 基于GPU等构建的人工智能智算中心适用于训练数据导出模型 , 训练出数学模型后 , 深度神经网络并不需要调度非常多的参数 , 降低了对算力的需求;基于CPU的通用算力的IDC适用于在已知数学模型下进行计算 。因此他表示 , 人工智能智算中心主要任务是算 , IDC互联网数据中心主要任务是存 。
在三类算力比例方面 , 邬贺铨表示 , 在基础算力、智能算力和超算三个算力中 , 美国分别占全球的35%、15%、30% , 而中国分别占27%、26%和20% , 美国是以基础算力为主 , 中国智能算力的能力远超美国 。中国的超算和智能算力基本以政府为主建设 , 基础算力以运营商和互联网企业为主建设 。
在冷数据与热数据方面 , 邬贺铨表示 , 数据从大的方面分为冷数据和热数据 , 热数据主要指需要实时计算的数据 , 相比之下冷数据的计算需求非常态化 。东西部分别适合处理热数据和冷数据 , “东数西算”实际是“东数西存” 。
在存算分离与存内计算方面 , 邬贺铨表示 , 存算分离可采用开放存储体系和磁带存储介质 , 存储器可同时服务多个服务器 , 池化存储支持多云 , 提高利用率 , 降低成本能耗 , 可用于对冷数据的处理;存内计算适于对热数据的处理 , 例如 , 自动驾驶可以在车内同时完成存与算 。
在封闭系统与开放系统存储方面 , 邬贺铨表示 , 开放系统存储实现存算分离 , 存储容量为多服务器共享 , 以池化方式支持多云应用 。不同存储架构适应不同任务 , 可按照任务来软件定义存储 。
在PUE与IT能效方面 , 邬贺铨表示 , 在IDC的IT系统能耗中 , 服务器约占50% , 存储系统占35% , 网络通信设备占15% , 大部分电能用于维持服务器的状态 , 只有6%至12%用于计算 。因此他建议 , 要减低能耗 , 对冷数据处理建议用磁带代替磁盘 , 100PB存储成本10年可下降73%;对热数据处理用闪存代替磁盘 , 但目前成本比较高 。另外 , 还可通过数据预处理提升能效 , 去掉一些无效值、空格和缺失及过时的数据 。
在数据可信性与灾备保护方面 , 邬贺铨表示 , 灾备是数据中心刚性需求 , 美国数据保护占存储投资的1/3 , 全球平均占比为27.4% , 而中国仅为7.8% , 尤其异地备份的比例更低 , 所以灾备能力是不足的 , 所以在这点上我们还是要改进 , 同时 , 究竟是备份数据还是备份算力 , 这是值得研究的问题 。
此外 , 在谈到“东数西算”时 , 邬贺铨表示 , “东数西算”使算力设施的布局超越了数据中心枢纽的范畴 , 东部与西部互为冷热数据的配对方面 , 要有合适的比例 。同时 , 同一数据中心枢纽或集群内部也有很多数据需要优化 。
“关于数据中心的‘数学’和‘算术’ , 还有很多需要深入研究的内容 , 我们要善于从实践中学习创新 。”邬贺铨最后表示 。