纯净基地 - 专注分享最好用的电脑系统

当前位置: 纯净基地 >  微软资讯 >  阿里云弹性计算升级:CPU上跑推理,模型建成本降低50%

阿里云弹性计算升级:CPU上跑推理,模型建成本降低50%

更新时间:2024-01-15 12:49:15作者:czlaby
作者|武静静

编辑|邓咏仪

1月11日,阿里云升级第八代企业级通用计算实例ECS g8i产品。新产品依托于英特尔在2023年12月发布的第五代至强可扩展处理器,以及阿里云自研的“飞天+CIPU”架构体系所搭建。

升级之后,新产品的在算力、网络、性能、应用场景方面有能力提升:

算力层,ECS g8i实例的ECS g8i实例的L3缓存容量提升到320MB,内存速率提升至5600MT/s;性能方面,整机性能提升了85%,单核性能提升25%;网络方面,PPS达3000万,时延低至8微秒;场景上,新的ECS g8i实例可将MySQL数据库的性能提升至60%,Redis和Nginx的性能分别提升40%和24%。

面对目前火热的大模型需求,新升级的ECS g8i实例进行了升级优化,让大模型跑在CPU上,并有效降低了模型搭建成本。

这对于大模型的商业化落地意味着全新的尝试。一般而言,CPU在浮点、并行维度和内存宽带上都与GPU能力相差甚远,让模型跑在CPU上是一件困难的事。

在技术,ECS g8i上做了一次新的尝试。为了解决首包延迟和吞吐性能技术难题,ECS g8i实例进行了针对性的技术优化,其内置指令集从AVX512升级到了Intel AMX高级矩阵扩展加速技术,可以加速模型运行。

有了加速能力之后,模型推理过程在CPU上也能跑通,大大降低了大模型搭建和推理成本。此外,CPU相较GPU而言,更容易获取,成本也更低,所以,这也为解决算力短缺难题打开了新可能。

阿里云弹性计算产品线总经理张献涛表示:“g8i可更迅速地响应中小规模参数模型,运行知识检索、问答系统及摘要生成等AI工作负载时。起建成本相比A10 GPU云服务器下降50%。”

阿里云弹性计算升级:CPU上跑推理,模型建成本降低50%

阿里云新发布的ECS g8i产品

目前,在CPU上,ECS g8i不仅能支持中小模型的推理计算,还可以支撑72B参数级别的大语言模型分布式推理。以阿里云通义千问开源的Qwen-72B大模型为例,它可在g8i实例eRDMA网络构建的集群实现高效运行。输入小于500字时,首包延时小于3秒,每秒可生成7个Token。

此外,ECS g8i还能支持超过32batchsize的超大参数规模的AI模型负载,涵盖目前市面上的文生图、AI生成代码、虚拟助手以及创意辅助工具等多类模型。

在实际的模型落地中,要结合场景端的需求,综合考量效果和成本。根据阿里云的测试,通过CPU做超高并发,可以充分利用算力,进行长时间计算和推理。目前,ECS g8i在一些对实时性要求不高的离线场景,比如创意广告生成、离线视频摘要生成等AI功能方面,已经有良好的效果。

Copyright ©  2012-2024 纯净基地 版权声明 网站地图