服务邮箱:support@lianchuang.com

容器化人工智能开发平台解决方案实现了对深度学习开发环境的快速部署,针对深度学习开发流程,对运算资源按照训练任务进行分割和分发,并额外支持容器镜像管理、权限管理、交互界面图形化等功能,以帮助用户更快速的介入人工智能领域,聚焦实际算法的优化和迭代,促进人工智能技术在各行各业的快速落地。

方案架构


产品架构图调整_容器化人工智能开发平台.png

方案技术架构

人工智能-容器化人工智能开发平台.png

方案物理架构

方案构成

SothisAI软件平台:曙光SothisAI是容器化的企业级分布式深度学习平台,提供高效快速的人工智能解决方案,一站式深度学习解决方案。帮助用户解决多用户组资源分配、开发环境快速搭建、应用程序灵活迁移等技术需求。SothisAI支持主流深度学习框架,提供图形化、SSH、Jupyer等多种接入方式,并采用Slurm和Kubernetes双调度引擎支撑,可满足不同应用场景特点。

基于GPU的异构计算集群:针对深度学习的应用特点,采用4U8卡的高密度自研服务器X780和X795,搭配主流人工智能异构加速卡,为集群提供强劲的运算能力支撑。同时集群采用的高带宽、低延迟的Infiniband网络,能满足深度学习多机多卡网络模型训练时,对PCI-E的传输带宽的高要求,并保证整个系统的数据传输效率,减少网络数据传输带来的影响。

ParaStor存储系统:ParaStor是曙光自主开发的分布式并行存储系统,目前最新版本为Parastor300,采用多副本、N+M纠删码等数据保护技术、全冗余设计,支持单一存储命名空间、支持容量海量扩展,性能线性扩展,能够充分满足深度学习应用场景中存在对数据集的频繁读写,多用户同时并发访问,训练时频繁的数据交互等应用需求。



下一篇:没有了