中国首个网络大模型，pick了CPU，性能如何？

更新时间：2024-09-13 19:06:53作者：w7xitong

金磊梦晨发自凹非寺

量子位 | 公众号 QbitAI

当电信网络用上了大模型，会是一种什么体验？

以前网络上若是出了问题，运维人员需得是先靠着经验反复排查，找到了“病根”再“对症下药”。

而现在有了大模型，这事儿的“打开方式”就变得截然不同了。

首先，网络上若是出现了问题，大模型已经学会自己去找“病根”了，然后会把它的判断结果呈现到运维人员的面前。

若是结果跟运维人员的诊断一致，那么OK，“啪的一下”，问题就可以快速得到解决。

其次，即使诊断结果有所偏差或者描述不够详细，运维人员现在也只需做一个动作——问。

大模型不仅会像一位领域专家一样，凭借专业且丰厚的知识，对人类提出的问题做详尽的解答；更重要的是，它还非常得快。

业界一般认为文本生成延时小于100毫秒是人类觉得较为舒适的阈值，而这个大模型它的生成速度则是：

首字符时延在1秒以内，生成延时在50毫秒左右。

因此，即使面对再多再复杂的问题，运维人员工作的感觉就好比旁边有一位“高人”在现场指导一样了。

值得一提的是，这个网络大模型并不只是个现象级产品，而是已经实实在在的做到了“上岗”。

据悉，某电信运营商已经在全国31个省将它铺开应用，日均调用量高达10万次！

也正因如此，就在刚刚落幕的第二届“华彩杯”算力大赛·智能计算专题赛中，它还拿下了一等奖的好成绩，是获得了官方认证的那种。

另外，方案白皮书《中国电信携英特尔积极探索基于至强® CPU 平台的网络大模型推理算力方案》也在中国通信标准化协会CCSA TC610、欧洲电信标准化协会ENI产业标准组主办的云网运营自智与网络大模型技术研讨会上正式发布。

那么接下来，我们就来进一步深入了解一下这个网络大模型。

当大模型“上岗”电信网络

就目前“上岗”的结果来看，该电信运营商的各级运维人员均已接入网络大模型。

正如我们刚才提到的，他们运维的方式已经产生了实质性的改变——

专业知识问答、信息筛选、总结信息等等，统统交给大模型来处理即可。

不仅如此，在网络规划方面，网络大模型也在发挥着作用。

它的推理输出结果已经涵盖了网络建设、网络维护、网络优化和运营决策等场景。

基层运维人员通过这些结果，就可以实现精准理解与分析规则、自动规则核查；同时，网络大模型提供的专业领域专业知识，还可以帮助电信行业方案分析与生成。

或许有小伙伴就要问了，这和市面上的众多大模型问答产品又有什么区别呢？

重点就在于够垂直。

网络大模型作为行业的“专家”，它所提供的答案是可以深入理解运维人员的用户需求和意图的，因此生成的答案和知识更精准、更个性化。

生成内容是够专业了，接下来我们就要聊聊速度的问题。

众多的运维场景都属于边缘端，也正因如此，就会对数据在边侧的即时响应速度提出了较高的要求。

毕竟若是等大模型生成答案还要好几分钟，那么对于运营商网络故障修复来说就成了臃肿的包袱。

对此，该电信运营商的“解法”是：

使用满足OTII标准（边缘硬件产业的新标杆）的边缘服务器。

边缘服务器的部署环境要求要比数据中心高，有时甚至需要部署在一些极端的恶劣情况下。

这意味着边缘服务器需要在功耗、体积、耐用性、 TCO 等方面符合特定的要求，能够在极端高低温、灰尘、腐蚀、震动冲击、电磁干扰下保持设备的正常运行。

而该电信运营商所采用的OTII服务器部署在边缘场景下就具备了相对的优势，例如针对环境适应的问题，它可以在高温55°以下工作。

除此之外，它还支持IP65，符合EMC ClassB设计，支持9级地震烈度，机身小巧，有1U/2U/4U等多种型号，支持挂墙安装等等。

不仅如此，服务器还支持前维护，适应边缘的运维需求，该电信运营商大量的边缘机房无需任何改造，就可以部署基于OTII标准的标准服务器。

也正因为在如此，便让数据的及时交互和响应有了强有力的安全保障。

其生成速度也正如刚才所述，已经达到了首字符时延在1秒以内，生成时延在50毫秒左右，可以满足大模型推理的功能和性能需求。

就目前来看，网络大模型已覆盖网络“规、建、维、优、营”全生命周期五大类场景，围绕知识问答、辅助助手、智能体三个维度，已经打造了12个AI助手。

具体场景和性能表现如下表、图所示：

△网络大模型在不同应用场景中的性能表现

据悉，该电信运营商网络大模型已实现问答准确率85%、方案生成可用率90%、故障处置效率提升30%、高危指令稽核效率提升50%的总体目标。

由此可见，网络大模型已然是一个合格有效且可放心“上岗”的AI了。

而在它能够做到“够快、够准”的背后，该电信运营商还有一个杀手锏——

在背后起关键作用的算力“马达”，某电信运营商pick的是CPU。

Why CPU？

从上述”网络”大模型的应用流程可以看到，模型推理是至关重要的一个环节，它直接决定了故障定位、处置方案的生成速度和准确率。

而这恰恰是CPU大显身手的”主场”。

从电信行业本身的特点来说，历来整个系统中就有大量的CPU存量，无需引入全新的异构架构，而是继续采用成熟的CPU方案，对电信行业来说有几大优势：

减少采购环节，降低总拥有成本。

该电信运营商作为全球规模最大的通信运营商之一，其网络中部署着数以百万计的X86服务器。这些服务器往往还处于使用周期内，完全可以通过软件升级的方式，快速实现大模型的部署与应用。相比重新采购新的硬件设备，这种方式可以大幅降低前期投入，提高投资回报率。

电信行业对系统稳定性要求更高。

电信业务覆盖范围广，涉及社会运行方方面面，从医疗救援到金融交易等等，对连续性要求极高，轻微故障也会直接影响客户体验。现代通信网络又是全球最复杂的工程系统之一，一处小小的异常都可能引发连锁反应，影响整网运转。而以X86平台为代表的英特尔CPU架构安全和稳定性经过几十年的积累和验证，经得起考验。

已建立成熟的运维技术团队。

作为ICT领域的传统企业，该电信运营商拥有一支规模庞大、经验丰富的IT技术团队。这些工程师、运维人员，对英特尔CPU的微架构、指令集、调优工具等都有着深入的理解和掌握。继续采用CPU部署大模型无需太多学习和培训成本，大大降低了新技术的采用门槛。

△网络网络大模型在不同应用场景中的性能表现

具体到CPU产品的选型，“网络”大模型方案使用第五代英特尔® 至强® 可扩展处理器作为算力核心，来应对高强度、高并发的大模型推理需求。

首先,第五代英特尔® 至强® 可扩展处理器配备了更多的处理器内核数量、更强的单核性能和更大的三级缓存（LLC）容量。尤其是LLC容量的提升,使得大多数模型参数能够直接驻留其中,从而大幅提升推理速度。此外,每路处理器还支持多达8个DDR5-4800内存通道,能够有效缓解高内存需求场景下的带宽瓶颈。

更重要的是,第五代至强® 还内置了多个专用于AI加速的引擎。特别是英特尔® AMX(高级矩阵扩展)，采用分块矩阵乘法的创新方式,通过Tile矩阵乘法单元(TMUL)对数据实施矩阵运算。并且AMX支持INT8、BF16等低精度数据类型,在保证精度的前提下显著提高每时钟周期的指令数。

软件方面，方案还引入了一系列英特尔AI工具来进一步释放硬件潜力。

例如,英特尔开源的分布式推理优化框架xFastTransformer（xFT），可基于至强® 平台的指令集实现张量并行、流水线并行等多种性能优化，并支持 BF16、INT8、INT4等多种数据类型以及多种主流大模型。

这些AI 软件工具实现了对主流AI开发框架的全面兼容，使得网络大模型无需修改代码即可从GPU迁移到CPU，真正实现“一次编写，随处部署”。

此外,得益于CPU的能效优势,采用第五代至强® 方案还能显著降低模型运营的能耗成本。数据显示,第五代至强® 的开箱即用能耗比较上一代提升高达34%,启用BIOS优化后还可进一步提高。

除了对CPU本身的选择，网络大模型由于需要部署到生产一线，有时甚至需要在极端恶劣环境部署，对于整个服务器的要求非常高。

为了更好地满足业务需求并提升使用体验，该电信运营商选用了符合OTII标准的边缘服务器。

OTII标准由英特尔联合中国通信标准化协会、该电信运营商等企业共同制定，满足电信边缘场景对开放性、可扩展性的要求。涵盖了服务器外形、散热、电源、管理等各方面的规范，在功耗、体积、耐用性等方面符合特定要求，能在极端高低温、灰尘、腐蚀、震动冲击、电磁干扰等情况下保持运行。

由此可见,选择CPU进行网络大模型推理部署,已被该电信运营商这样的大型企业实际验证。这既是出于技术成熟度与稳定性的考量,更契合了企业客观的IT环境与人才储备。

该电信运营商的实践表明，在时延、吞吐、功耗等关键指标上，CPU不仅可以满足严苛的业务需求，借助软硬件的联合优化，推理成本也大幅下降。

特别是该方案还在2024 华彩杯取得好成绩，为大模型在更多场景应用打造了一个标杆。该电信运营商和英特尔的合作模式，也成为一个可以值得借鉴的“范本”。

随着未来技术发展，大模型还会深入走进更多行业，需要在性能、功耗、成本、易用性等多方面实现最佳平衡。

总的来说，CPU在AI推理加速上仍然大有可为。

最后让我们打个小广告：为了科普CPU在AI推理新时代的玩法，量子位开设了《最“in”AI》专栏，将从技术科普、行业案例、实战优化等多个角度全面解读。

我们希望通过这个专栏，让更多的人了解CPU在AI推理加速，甚至是整个AI平台或全流程加速上的实践成果，重点就是如何更好地利用CPU来提升大模型应用的性能和效率。

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态