资源描述
ICS 35.240 L 62 团 体 标 准 T/CESA 10432019 面向深度学习的服务器规范 Server for deep learning specification 2019-04-01 发布 2019-04-01 实施 中国电子工业标准化技术协会 发 布 T/CESA 10432019 I 目 次 前 言.II 1 范围.1 2 规范性引用文件.1 3 术语和定义.1 4 缩略语.1 5 技术要求.2 5.1 架构与组成.2 5.2 外观与结构.3 5.3 功能要求.3 5.4 性能要求.5 5.5 安全要求.5 5.6 噪声要求.5 5.7 电磁兼容性要求.5 5.8 环境要求.5 5.9 可靠性要求.5 5.10 电源能耗要求.5 6 测试方法.6 6.1 试验环境条件.6 6.2 外观和结构检查.6 6.3 功能和性能检查.6 6.4 安全试验.6 6.5 噪声试验.6 6.6 电磁兼容性试验.6 6.7 环境试验.7 6.8 可靠性试验.7 6.9 电源能耗试验.7 T/CESA 10432019 II 前 言 本标准按照GB/T 1.12009标准化工作导则 第1部分:标准的结构和编写给出的规则起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。本标准由中国电子技术标准化研究院提出并归口。本标准起草单位:中国电子科技集团公司第十五研究所、中国电子技术标准化研究院、第四范式(北京)技术有限公司、曙光、联想(北京)有限公司、浪潮(北京)电子信息产业有限公司、杭州海康威视数字技术股份有限公司、海尔优家智能科技(北京)有限公司、广州广电银通金融电子科技有限公司、中国电子科技集团公司电子科学研究院、华夏芯(北京)通用处理器技术有限公司 本标准主要起草人:张超、胡怀湘、吴春春、代红、董建、张群、汪小娟、马珊珊、王燕妮、石光川、郑曌、王一鹤、沙超群、郑宇、林巍巍、吕飞燕、赵江、罗仕胜、杨扬、胡江明、梁添才、赵清利、袁柳、魏星、刘军T/CESA 10432019 1 面向深度学习的服务器规范 1 范围 本标准规定了面向深度学习的服务器的技术要求和测试方法。本标准适用于面向深度学习的服务器的设计、制造、检验等过程。2 规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB 4943.1 信息技术设备安全 第1部分:通用要求 GB 9254 信息技术设备的无线电骚扰限值和测量方法 GB/T 9813.3 计算机通用规范 第3部分:服务器 GB/T 17618 信息技术设备 抗扰度 限值和测量方法 GB 17625.1 电磁兼容 限值 谐波电流发射极限 GB/T 18313 声学 信息技术设备和通信设备空气噪声的测量 3 术语和定义 下列术语和定义适用于本文件。3.1 面向深度学习的服务器 server for deep learning 信息系统中,能够为基于深度学习的人工智能应用提供高效能计算处理能力的专用服务器。注:一般须包括通用计算部件(包括但不限于通用处理器、内存及存储、总线及网络等)、深度学习算法支撑硬件、深度学习算法支撑软件框架等组成部分。3.2 智能处理单元 intelligence processing unit 服务器中用于提供深度学习算法计算处理调用的专用协处理加速部件,一般包括但不限于GPU加速单元、FPGA加速单元、ASIC加速单元等至少一种协处理部件。4 缩略语 下列缩略语适用于本文件。CPU:通用处理器(Central Processing Unit)IPU:智能处理单元(Intelligence Processing Unit)T/CESA 10432019 2 GPU:图形处理单元(Graphic Processing Unit)ASIC:特定用途集成电路(Application Specific Integrated Circuit)FPGA:现场可编程门阵列(Field Programmable Gate Array)PCIe:快速外设组件互联(Peripheral Component Interconnect Express)USB:通用串行总线(Universal Serial Bus)SATA:串行高级技术附件(Serial Advanced Technology Attachment)SAS:串行附属小型计算机系统接口(Serial Attached Small Computer System Interface)DDR:双倍速率SDRAM(Double Data Rate SDRAM)HDD:硬盘驱动器(Hard Disk Drive)SSD:固态硬盘(Solid State Disk)NVMe:快速非易失存储(None Violated Memory Express)CDROM:只读光盘(Compact Disc Read-only Memory)FC:光纤通道接口(Fibre Channel)ISCSI:互联网小型计算机系统接口(Internet Small Computer System Interface)NAS:网络附属存储(Network Attached Storage)KVM:键盘视频鼠标控制器(Keyboard Video Mouse)IP:网络互联协议(Internet Protocol)MTBF:平均失效间隔工作时间(Mean Time Between Failure)5 技术要求 5.1 架构与组成 面向深度学习的服务器的核心应基于CPU与IPU构建协同式计算架构。整个系统由CPU提供统一应用接口,IPU主要为人工智能应用提供高效运算加速处理服务。面向深度学习的服务器硬件部分包括但不限于通用计算子系统、存储子系统、深度学习加速计算子系统、互联子系统、监控子系统、供电子系统、结构及散热子系统。面向深度学习的服务器软件部分应包括操作系统和深度学习应用支撑软件。深度学习应用支撑软件操作系统软件部分硬件部分通用计算子系统深度学习加速计算子系统存储子系统互联子系统监控子系统供电子系统结构及散热子系统 图1 面向深度学习的服务器组成架构 T/CESA 10432019 3 5.2 外观与结构 经外观和结构检查测试,产品外观和结构应符合GB/T 9813.3的规定。5.3 功能要求 5.3.1 硬件部分 5.3.1.1 通用计算子系统 经功能检查测试,通用计算子系统满足但不限于以下要求:a)以 CPU 为核心的硬件装置,应支持单处理器或多处理器,应包括运算单元、缓存、内存控制器、总线控制器等;b)应支持主从式总线扩展功能;c)应支持硬件状态监控管理、远程管理;d)宜支持内存查错/纠错;e)宜支持内存镜像/热备;f)宜支持低速外设总线扩展;g)宜支持板载通用串行接口、键盘鼠标接口。5.3.1.2 存储子系统 经功能检查测试,存储子系统满足但不限于以下要求:a)提供通用计算子系统的存储扩展接口,包括内存扩展接口、外部大容量存储扩展(HDD、SSD、PCIe NVME、网络存储接口等);b)应支持扩展 DDR3、DDR4 或以上内存版本;c)应支持扩展 USB、SATA、SAS、PCIe 接口或类似的存储设备,存储媒体包含机械硬盘、SSD;d)宜支持基于多硬盘备份的本地数据保护方式;e)宜支持扩展连接 FC、ISCSI、NAS 等协议的存储系统。5.3.1.3 深度学习加速计算子系统 经功能检查测试,深度学习加速计算子系统应具备面向深度学习的加速处理功能,满足但不限于以下要求:a)以 IPU 为核心的专用计算装置,提供专用计算资源,协助通用计算子系统运算处理;b)能够提供智能应用加速的专用计算资源,通过互联子系统与通用计算子系统连接的模块、板卡或者芯片,如 GPU 加速单元、FPGA 加速单元、ASIC 加速单元等计算资源;c)具备多线程并发、流水线等模式的计算处理能力;d)具备独立内存控制器,提供用于加速计算任务的独立内存空间;e)具备高速总线接口与主处理器互连;f)运行在通用计算子系统上的主程序应能够配置、使用、管理深度学习加速计算子系统上的硬件计算资源;g)运行在通用计算子系统上的主程序与深度学习加速计算子系统之间应具有高效的数据交换协议,包括与主 CPU 内存地址之间的映射关系。5.3.1.4 互联子系统 经功能检查测试,互联子系统提供设备内及跨设备互联功能,满足但不限于以下要求:T/CESA 10432019 4 a)提供通用计算子系统与深度学习加速计算子系统之间的互联,通常采用 PCIe 接口互联形式;b)提供本地深度学习加速计算子系统中不同加速卡之间的互联;c)具备网络连接功能,包括服务器之间、服务器与终端之间的网络互联;d)宜具备本地深度学习加速计算子系统与其他设备本地深度学习加速计算子系统的直接互联(不经过通用计算子系统)。5.3.1.5 监控子系统 经功能检查测试,监控子系统应具备常规系统监控功能,满足但不限于以下要求:a)提供对主机硬件运行状态部分参数的监控功能,如 CPU 温度、电源电压、风扇转速等;b)应支持远程登录控制台,监视系统运行状态;c)应支持远程外设挂载、安装程序;d)应支持远程日常维护,日志记录、查询;e)宜支持 KVM over IP 功能。5.3.1.6 供电子系统 经功能检查测试,供电子系统为上述子系统提供必要的电源供应,满足但不限于以下要求:a)应具备 AC/DC 转换功能,可为电子部件提供各种电压不同电流能力的电源;b)应具备加电时序控制功能;c)宜具备电源冗余控制功能,具备在局部故障时提供电源的能力;d)宜具备故障报警,提供给监控系统运行状态。5.3.1.7 结构及散热子系统 经功能检查测试,结构及散热子系统满足但不限于以下要求:a)承载上述系统电子部件,方便安装、使用;b)保证电子部件在合适的温度环境中工作;c)散热方式一般为风冷方式,也可以是液冷及传导散热方式;d)散热状态在监视子系统中可见。5.3.2 软件部分 5.3.2.1 操作系统 经功能检查测试,操作系统满足但不限于以下要求:a)管理控制服务器的硬件和软件资源,提供各类设备的驱动,按照程序请求有效地分配资源,提高系统运行效率;b)管理和控制程序运行;c)提供人机操作界面;d)应提供深度学习应用支撑软件及应用软件运行环境;e)应提供监控系统信息、能够优化监控工具;f)应具备完整的系统日志和事件日志机制;g)宜支持虚拟机或容器技术。5.3.2.2 深度学习应用支撑软件 经功能检查测试,深度学习应用支撑软件满足但不限于以下要求:T/CESA 10432019 5 a)对于 IPU,支持相应硬件的驱动程序,为用户提供通用、高效、稳定的标准化接口;b)支持 IPU 的编译器,用户可以用标准的程序语言开发人工智能应用,编译并高效地在 IPU 上执行;c)宜支持至少一种处理器或编程部件的并行、分布式计算编程,如 CPU、GPU、FPGA、ASIC 等部件;d)宜支持至少一种深度学习计算框架,如 TensorFlow、MXNet、Caffe/Caffe2、Spark MLLib、PyTorch 等框架;e)宜支持主流深度学习模型,如 CNN、RNN、GAN 等模型;f)宜提供模型训练端到端的支持:包括数据集管理、网络拓扑管理、模型管理等。同时支持迁移学习。5.4 性能要求 经性能检查测试,产品的主要功能单元(包括但不限于通用计算子系统、存储子系统、深度学习加速计算子系统、互联子系统、监控子系统、供电子系统、结构及散热子系统、操作系统、深度学习应用支撑软件等)的性能技术指标及其参数,应在产品标准中规定或在产品随机文件中说明。5.5 安全要求 经安全检验测试,产品安全要求应符合GB 4943.1的要求。5.6 噪声要求 经噪声检验测试,产品在空闲运行状态(开机后无操作状态),噪声值不大于65dB。5.7
展开阅读全文