深度解析 | 柏科数据ISCloud分布式存储系统,多协议互通特性(一)

构建高性能计算HPC(High Performance Computing)集群可提升业务的运算速度(使其达到每秒万亿次级的计算速度) , 因此HPC被应用于解决大规模科学问题的计算和海量数据的处理 , 其中就包括科学研究、气象预报、计算模拟、军事研究、生物制药、基因测序等 。为保障文件、对象、大数据等多种格式数据 , 在HPC场景下 , 进行统一存储性能的高要求 , 这无疑是对传统数据存储方式发起了存储重构挑战 。
深度解析 | 柏科数据ISCloud分布式存储系统,多协议互通特性(一)
文章图片

文章图片
目前HPC应用正从过去的传统科研领域计算密集型 , 逐渐向新兴的大数据、人工智能以及深度学习等方向进行融合和演进 。继而 , 数字时代无论是智能制造、智慧医疗、智慧城市、智能家居 , HPC都将成为核心技术 。特别是近两年备受关注的人工智能领域 , 如自动驾驶汽车、无人机、人脸识别、医疗诊断以及金融分析和商业决策等 , 其核心是大数据支持 , HPC成为人工智能模型训练的重要支撑平台 。
HPC通过极快的处理速度 , 获取大量数据进行复杂的运算 , 实现数据即时分析 , 达到快速决策的目标 。因此 , HPC集群对于存储有着较高的性能要求 , 保证来自多个HPC服务器密集而多样的分析行为 。
同时 , 由于未分析的原始数据会越积越多 , 并且未来还会有更多的数据需要研究/处理 , 因此容量和扩展性也是重要的考虑因素 。HPC的总体数据最终会达到PB级别 , 需要超大的存储容量才能完成归档 。
在多样化的HPC场景下 , 日均产生的三维数据可达几百TB甚至PB级 , 因此 , 对存储性能有着更高的要求 。在海量数据的处理过程中 , 一次数据处理需要经过文件、对象、大数据等多种格式的数据处理 , 这无疑是对传统数据存储方式发起了巨大的重构挑战 。就“自动驾驶”、“石油勘探”场景为例 , 数据采集的原始数据是NFS格式 , 需要先转换为HDFS格式 , 才能利用大数据系统对数据进行预处理 , 最终将数据转换为NFS格式导入进人工智能训练集群及演练仿真集群, 对数据进行深度挖掘 , 进一步调整自动驾驶策略 。
在整个数据处理闭环中 , 数据转换格式的时间占全过程的35%以上 , 如何提升多样性格式数据的处理效率 , 逐渐成为存储领域新型技术的主流趋势 。传统存储厂商仍通过共享硬件资源池 , 在一套硬件集群上划分出多了独立的逻辑资源池 , 分别部署对象、块、文件系统的存储池 , 实现硬件集群多样化格式的共享存储 。但在该资源池中 , 每一个逻辑资源池仅仅只会支持一种访问协议 , 对于跨协议访问时 , 仍需要先行拷贝原格式的原始数据 , 再将其进行数据格式转换 , 实现不同格式之间的数据相互转换及交互 。
在数据处理的过程中 , 数据拷贝产生的冗余副本不仅占用数据的存储空间 , 同时在数据格式转化的过程中 , 将会产生大量的数据丢失 。因此 , 传统的共享硬件资源池 , 仅能提高硬件资源的利用率 , 无法满足格式差异化要求及数据处理效率 , 以满足日均PB级的数据存储需求 。
深度解析 | 柏科数据ISCloud分布式存储系统,多协议互通特性(一)
文章图片

文章图片
? 共享硬件资源池 , 存储多个逻辑资源池
? 频繁跨协议访问 , 无法满足数据格式差异化处理效率
? 产生的冗余副本占用大量的存储空间
? 语义翻译过程中 , 存在数据丢失
柏科数据ISCloud分布式存储可采用多种协议互通技术 , 重构底层逻辑架构 , 部署统一的增值服务 , 语义抽象层 , 对多格式的非结构化数据进行统一管理 , 实现真正意义上的协议互通特性 , 来解决HPC场景下数据结构多样化的处理效率 , 满足日均PB级的数据存储需求 。