阿里云AI基础设施全面升级模型算力利用率提升超20%
2024-09-24 12:44:22
9月20日,2024云栖大会现场,阿里云全面展示了全新升级后的AI Infra系列产品及能力。通过全栈优化,阿里云打造出一套稳定和高效的AI基础设施,连续训练有效时长大于99%,模型算力利用率提升20%以上。
“AI创新需要新形态的云基础设施。”阿里云副总裁、弹性计算及存储产品线负责人吴结生表示,阿里云整合底层的计算、存储、网络等资源,实现了统一调度和软硬一体优化,以满足模型训练和推理的爆发式AI算力需求。
基于全新的CIPU2.0,阿里云新推出磐久AI服务器,实现单机16卡、显存1.5T以上,支持Solar RDMA互联。磐久AI服务器采用超钛金电源实现97%以上的高能效,并可通过AI算法预测GPU故障,准确率达92%,保障 AI 算力的性能和稳定性。
在存储方面,阿里云并行文件存储CPFS实现端到端全链路性能提升,单客户端吞吐达25GB/s,高性能数据流动达到100GB/s,为AI智算提供指数级扩展存储能力。
为AI设计的高性能网络架构HPN7.0,性能和稳定性也再次提升,其中,集合通信性能提升1倍以上,模型端到端训练性能提升10%以上。
通过底层计算、存储、网络等基础设施的升级,阿里云灵骏集群可提供超大规模、超强性能的智能算力,万卡规模性能线TB/s,万卡规模下网络带宽利用率超过99%,可支持单集群十万卡级别AI算力规模。
面向AI业务,阿里云计算产品也大幅演进更新。本次云栖大会上,容器服务ACK面向AI实现重磅升级,大模型应用冷启动延迟降低85%,并可提供15000个超大规模节点支持。同时,容器计算服务ACS 即将推出 GPU容器算力。
阿里云发布全新的弹性计算产品家族。基于全面升级的云基础设施处理器CIPU2.0,通用计算、加速计算、容器计算等三大弹性计算产品系列均实现性能大幅提升。阿里云全新推出第九代ECS企业级实例,可实现高达30%的性能提升。
当前,以GPU为代表的加速计算需求快速增长,容器也成为新的技术标准与用云范式。为此,云基础设施处理器CIPU也全新升级到2.0版本。通过软硬一体协同优化,CIPU2.0实现了400Gbps的高吞吐硬件数据加速架构,将整机稳定性提升20%。同时,CIPU2.0还大幅提升了安全性,创新实现数据全生命周期安全。
依托自研的“飞天+CIPU”架构体系,阿里云完成了通用计算、加速计算和容器计算的弹性计算产品家族的全新升级。
在通用计算方面,阿里云发布第九代ECS企业级实例。其中,g9i实例基于Intel最新的第六代至强处理器GNR,内存带宽提升70%,在web场景性能相比8代实例最大提升20%;g9a实例基于AMD最新Zen5处理器,搭配阿里云最新CIPU架构,单核性能提升20%,搜推广场景下分布式训练集群性能提升30%。
在加速计算方面,阿里云基于CIPU2.0打通高性能网络架构HPN7.0、升级的CPFS并行文件存储等AI Infra,并发布全新的磐久AI服务器。灵骏集群也进一步升级,可支持十万卡级别的AI算力规模。
在容器计算方面,阿里云容器计算服务ACS率先商业化,并将推出全新的GPU容器算力。新升级的ACS以0.5vCPU、1GiB步长递进,实现更柔性的秒级自动热变配;每分钟可弹至10000个pod,并推出按天承诺消费的节省计划,综合算力成本最高可降55%。
为了提供更易用、更智能的基础设施产品与服务,阿里云弹性计算还升级了控制台,推出了AI Copilot服务,并实现全链路可观测,提升运维效率、保障系统稳定。
阿里云副总裁、弹性计算及存储产品线负责人吴结生表示:“从支撑数字化创新到智能化创新,云计算始终是 Scaling Law 的践行者。面向智能时代,阿里云弹性计算持续围绕技术先进、稳定安全、普惠易用、大规模弹性的价值追求,为千行百业提供更强的性能、更高的灵活性、更大的算力规模、更高稳定性的云计算产品服务。”
阿里云宣布云原生安全能力全线升级,首次发布云原生网络检测与响应产品NDR(Network Detection Response,简称NDR)。同时,阿里云还宣布将持续增加免费的安全防护能力,帮助中小企业客户以极低投入完成基础的云上安全风险治理。
云时代复杂的IT体系、碎片化的安全工具和传统的防护思路,以及新技术和新威胁带来的多重变化,让安全运营难以应对挑战。阿里云安全产品负责人欧阳欣表示,阿里云基于多年经验,创新性提出“三体”安全建设思路,将基础设施安全一体化、安全技术域一体化、以及办公安全和生产安全一体化贯彻到安全运营中。
此次推出的阿里云云原生NDR,即是在此背景下的创新。NDR是基于公共云环境原生化部署的威胁检测与响应产品,全面提升了云环境全流量防御能力。与传统第三方产品不同在于,它无需部署即可即时开通,并通过创新的自动留存技术,可以针对攻击事件及攻击发生前后5分钟的流量进行取证保存,兼顾留存需要与成本投入,进而进行溯源和关联分析,帮助客户更快发现高级网络威胁。
基于基础设施安全一体化,阿里云还加强了WAAP、云安全中心、DDoS防护等能力,并且对数据库、网络CDN、计算、存储等云原生产品的安全能力也进行全新升级。
比如数据库与安全产品在数据安全上进行全面融合与能力共建,发布列加密与原生审计技术,可一键开通,增强自动化的安全能力。在CDN安全方面,阿里云将安全功能融入边缘网络,实现一键开启DDoS防护、WAF、Bot管理、API安全、SSL证书等功能,通过全球3200+节点提供原生安全能力,为用户提供边缘云网安全防护体验。
目前,阿里云已经成为Forrester、Gartner、IDC三大国际权威机构认可的全球安全能力最完整的厂商之一。
欧阳欣表示,“在做好平台安全建设同时,阿里云也免费开放更多的安全能力额度,包括云安全中心、内容安全、数据安全中心,让中小企业客户能够增强安全防护,同时还在安全体验上增加一键检测、一键修复等功能,帮助客户共同加入到云上安全维护中。
面向AI,阿里云全新升级了安全体系,通义大模型基于阿里云的安全基座建设了生成式人工智能安全保障的最佳实践,将内容安全能力覆盖到大模型全生命周期中。同时,阿里云安全为百炼平台的专属部署模式设计了VPC安全保障方案,让客户在私域环境中也能获得数据确权归属等系列安全服务。
阿里云瑶池数据库宣布重磅升级,发布首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户敏捷、高效地提取并分析元数据,业务决策效率可提升10倍。
“数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力,以数据驱动决策和创新,为用户提供‘搭积木’一样易用、好用、高可用的使用体验。”阿里云副总裁、数据库产品事业部负责人李飞飞表示。
当前,近80%的企业在建设数据平台时采用多种数据引擎、多数据实例组合的策略,AI兴起也带来了非结构化数据的指数级增长,给企业对数据的高效检索和分析管理提出了更大挑战。此次,阿里云重磅推出由“Data+AI”驱动的多模数据管理平台DMS:OneMeta+OneOps,助力构建企业智能Data Mesh(数据网格),提升跨环境、跨引擎、跨实例的统一元数据管理能力。
DMS创新设计了统一、开放、跨云的元数据服务OneMeta及DMS+X的多模联动模式OneOps。OneMeta首次打通不同数据系统,可支持全域40余种不同数据源,提供数据血缘和数据质量的一站式数据治理。
OneOps则基于数据开发平台DataOps和AI数据平台MLOps,将不同数据库引擎(关系型数据库、数据仓库、多模数据库等)集结到统一平台,让用户“开箱即用”,实现全链路的数据加工和计算能力。
自上线以来,DMS已服务超过10万企业客户。借助跨引擎、跨实例管理和开发以及数据智能一体化,DMS将帮助企业从分散式数据治理升级至开放统一数据智能管理,可降低高达90%的数据管理成本,业务决策效率提升10倍。
李飞飞表示:“这是自云原生数据库2.0后,阿里云瑶池数据库又一次里程碑式的改造升级。DMS:OneMeta+OneOps为企业提供了全域数据资产管理能力,让业务数据‘看得清、查得快、用得好’。”
据介绍,极氪汽车采用DMS+Lindorm一站式多模数据解决方案,实现32万在线车辆上万车机信号数据的弹性处理分析,开发效能提升2倍,降低50%云资源成本。在大模型领域,此方案支撑月之暗面构建AI智能助手Kimi,帮助Kimi准确理解用户的搜索意图、整合与概述多种信息源,实现精准和全面的信息召回,提升用户交互体验。
此外,云原生数据库PolarDB今年首次提出基于“三层解耦, 三层池化”(存储、内存、计算)、AlwaysOn架构的多主多写和秒级Serverless能力,解决了多主架构中冲突处理和数据融合、以及Serverless秒级弹性租户隔离的难题。在高并发场景下,PolarDB性能为业界同类数据库3倍,并凭以上成果成功摘得中国首个ACM SIGMOD和IEEE ICDE工业赛道“最佳论文奖”。
本次云栖大会,阿里云瑶池还正式发布了云原生内存数据库Tair Serverless KV服务,是阿里云首个基于NVIDIA TensorRT-LLM的推理缓存加速云数据库产品。Tair采用NVIDIA TensorRT-LLM一起进行了深度优化。相比开源方案,该服务可实现PD分离/调度优化吞吐30%的提升 ,预计成本可降低 20%