站务联系

阿里云祝顺民(江鹤):一群阿里人如何用 10 年自研洛神云网络平台?

发布时间:2021-03-10   来源:网络整理    
字号:

今天的主题是《云网路技术构架的演进之路》,主要介绍阿里云网路产品从无至规模应用的 10 年过程中,云网路技术平台洛神是如何发展的。

阿里云飞天洛神云网路平台

阿里云系统叫飞天,云网路平台称为洛神,洛神跟飞天系统的关系如下图所示,洛神云网路平台是阿里云飞天操作系统内核的核心组件跟系统服务,伴随着飞天系统一起诞生、成长。

阿里云祝顺民(江鹤):一群阿里人如何用 10 年自研洛神云网络平台?云计算产业发展的结果,云计算首先是估算虚拟化,并提供给不同的用户使用,当用户在云上使用估算资源时,网络地址独立规划,不同用户地址可以相似,且虚拟机可以在不同机房之间迁移,地址保持不变,同时云计算是一个基础设施,支持海量用户同时使用,这些关键需求要求提供一个超大规模的虚拟化大二层的网路。

阿里云祝顺民(江鹤):一群阿里人如何用 10 年自研洛神云网络平台?

图 3 传统网路设备规避云计算的约束

所以阿里云网路选择了一条自研的街,使用三大技术满足云估算的需求:

1)虚拟化网路;

2)SDN 技术,软件来定义网路;

3)整个技术栈自研。

阿里云网路洛神平台就此诞生。

阿里云祝顺民(江鹤):一群阿里人如何用 10 年自研洛神云网络平台?

图 5 洛神 1.0 支持超大规模住户网路

如图所示,在这张超大规模的房客网路上面,我们达到的核心能力包含:

1)多住户隔离,每个区域可以支持百万规模的 VPC。如果说一个住户对应一个 VPC,一个区域就可以支持百万规模的房客;

2)单个 VPC 支持超大规模虚拟例子,目前有一些超大规模的 VPC 中实际布署并运行了少于 30 万的 ECS,也就意味着此住户的这张网路上面有 30 万个以上的 IP, ECS 之间的通信,包括东西跟南北向的流量,都能挺好的在虚拟网路上面运行。

3)最后就是基于 AVS 能力,单个 ECS 能够提供百万级 PPS 能力的转发功耗。

飞天洛神 2.0:连接全球,高性能,弹性开放网路

洛神 1.0 支撑了阿里云网路从无到有,至规模应用,随着阿里云的业务不断下降,租户越来越多,也带给了越来越多的 VPC。租户订购的虚拟机越来越多,也代表着网路里的节点越来越多,转发功耗要求越来越高。此外,也有越来越多的房客在云上不但只是满足简略的连通性要求,提出了丰富的业务网元处理诉求。例如用户原先在自己的数据中心旁边建立了防火墙跟 NAT,或者自己买了一些 Load balancer 的设备,现在业务系统住在阿里云上以后,希望原先的网路功能继续在阿里云使用。

在此背景下,洛神平台升级至 2.0。如图所示,洛神 2.0 提供了格外丰富的转发网元,既有神龙 MOC 卡,还有专用可编程芯片以及通用 ECS;同时洛神 2.0 新建立了一个 NFV 平台,支持业务网元不再依赖传统 X86 服务器,直接基于 NFV 平台打造,例如 NAT、SLB、VPN 产品,同时 NFV 平台支持开放能力,第三方的网元也可以基于 NFV 平台布署,通过 VPC 内跟 VPC 间的访问。

阿里云祝顺民(江鹤):一群阿里人如何用 10 年自研洛神云网络平台?

图 7 软硬件一体的新一代 AVS

洛神 2.0 另一个跨越式构架升级是提供新一代的 NFV 平台,通过网元逻辑布署在通用 ECS 上,提供弹性跟开放能力。当第三方厂家将其应用移植至阿里云以后,就可以在阿里云市场里对阿里云的住户进行售卖跟提供能力,形成了一个非常好的生态:

1)网元可以给大量住户使用;

2)客户的晚上流量巨大,半夜的流量极少时,阿里云会自动帮你缩容。

如果说在某个时刻点忽然见到高峰,阿里云会手动协助扩容,也就意味着第三方的网元运用洛神 NFV 平台,不仅可以开放布署,还可以享受至手动的弹性。

图说天下

×
二维码生成