随着智能制造的持续推进,AI与制造场景的深度融合,网络技术作为支撑企业数字化进程的“底座”,重要性和使能性也日渐凸显。企业对于网络的需求正从“单环节支持”转向“价值链共振”,场景包括AI模型的数据传输、跨地域的协同研发、业务流程的在线监控、生产资源的统一调度等。 以前用户推进网络建设,重点放在高速度、低延时。而在数字化浪潮下,如今用户更多的是追求网络的交互体验、适应变化、安全防护能力。在华为数据通信产品线副总裁赵志鹏看来,面对生成式AI技术的迅猛发展以及各种应用如火如荼的展开,搭建智能的网络基础架构,不仅仅是加快企业数字化转型的补充手段,更是突破激烈市场竞争的核心引擎。在这种趋势下,华为结合自身30年的IP网络实践,推出了面向智能时代的星河AI网络解决方案。通过创新引入大数据、智能技术和新一代协议,星河AI网络可以满足企业对于广域网络、园区网络、数据中心网络及网络安全不同场景的差异化诉求,确保各种系统及应用的高性能联接、高业务体验、高可靠安全,成为企业创新发展、培育新质生产力的“源动力”。 在中国有句老话:“要想富,先修路。”同样在数字世界中,只有为数据交互构建一个智能化的网络基础架构,才能释放其巨大的价值。赵志鹏介绍AI技术应用已经成为企业创新发展的新阵地,以自然语言处理、图文自动生成、知识问答交互为代表的AI大模型应用层出不穷。 需要注意的是,在AI大模型开发与应用热潮背后,其暴露出的痛点也不容忽视。赵志鹏表示面对AI应用中的GPU集群使用、工具跨区域协同和多任务并行处理等要求,如何把海量数据高效传送到算力中心,充分释放算力潜能,并且快速的将算力输送给一线用户,成为了AI大模型应用落地和价值提升的关键。 以科大讯飞的星火认知大模型为例,其具有文本生成、语言理解、知识问答等7大核心能力,在新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》中位列榜首。但AI大模型在训练过程中参数规模巨大,百亿和千亿级别犹如“家常便饭”,因此需要通过基于全局的网络智能调度,才能更好的完成训练任务。另一方面,算力规模的快速变化也带来了严重的负载冲突,要想充分释放算力,网络的高吞吐率必不可少。最后,AI大模型训练过程复杂,从数据采集、管理到模型训练、优化,是一个长期的过程,网络中的任何一个微小错误都可能导致巨大的损失,高可靠的网络保障也成为了大模型调优的基础。 在“大规模、高吞吐、可靠性”的网络诉求下,科大讯飞最终决定携手华为,采用星河AI网络推进星火认知大模型的建设。首先,星河AI网络采用双层组网技术,最大可支持150万卡的互联,可以轻松完成超大规模组网,即使面对万亿参数的大规模训练也不在话下;其次,基于华为独创的全局负载均衡NSLB算法,可以使网络吞吐得到大幅度提高,让AI大模型训练效率提升超10%;最后,依托华为提供的独家网络数字地图,可以使计算网络运维一体化,通信异常一键诊断,训中排障效率提升90%。 可以看到,通过“以网强算”和“以智赋能”的双轮驱动策略,华为星河AI网络在加速AI普及应用的同时,催生出了更多的网络服务新模式。用户在构建超大规模集群,满足自身算力需求的同时,还可以按需扩缩,获得可靠的网络质量,使关键应用得到最佳网络优化,无惧网络拥塞风险。
|