站务联系

揭秘云网络大会“网红”:阿里云自研高性能网关XGW

发布时间:2021-03-09   来源:网络整理    
字号:

2020年12月19日,在首届中国云网路论坛上,阿里云展馆人头攒动,里三层外三层,是何种迸发了这么多人的兴趣?

揭秘云网络大会“网红”:阿里云自研高性能网关XGW

软硬件一体化网段XGW应用场景

XGW是洛神云网路平台的软件转发层核心,提供了高性能的网路转发能力。

揭秘云网络大会“网红”:阿里云自研高性能网关XGW

XGW负责网段,专线跟跨Region流量的凝聚跟分发,如下图所示

揭秘云网络大会“网红”:阿里云自研高性能网关XGW

2)大单流:比如IoT场景的GRE tunnel,单流数数十Gbps。

3)稳定性:没有软转发的CPU打满隐患。

4)低延时/低晃动:硬件网段的管线足够粗,客户上云丝般柔软,没有卡顿,就像高速公路的车道足够多,车辆行驶一街通畅,没有排队/没有阻塞。

客户案例

1)客户信息:客户是全球著名的互联网科技企业,旗下有多个著名应用,包括视频,资讯,教育等等。

2)业务诉求:客户选用混和云构架,带宽规模达到单向51.2Tbps,IDC机房跟云上网路后端支持IPv6。

业务疼点:超大规模,IPv4地址资源枯竭,需要后端切换至IPv6

3)解决方案:阿里云通过XGW软硬件一体化网段,提供超大时延,以及混和云后端IPv6支持

揭秘云网络大会“网红”:阿里云自研高性能网关XGW

1)芯片选择

选择了可编程交换芯片的公路,首先面临的问题是芯片选择阿里云有几个选择,第一个用传统的AISC卡,因为传统的网路设备交换机里的AISC早已十分成熟。第二个是P4可编程AISC芯片——一个可编程能力越来越强的芯片。另外一个FPGA,传统意义上阿里云网络,它也算是软件芯片。

最终阿里云选择了P4可编程AISC芯片,原因是业务有迅速迭代的诉求,然而传统AISC芯片的功能早已固化,没有方法完美匹配的诉求,同时,很多的转发行为是一个多样化的,传统的AISC芯片难以支持,因此,需要一个灵活的、可编程的软件芯片。

在可编程软件芯片里面,传统的FPGA似乎十分灵活,但它的性能跟费用比较高,在相似转发能力的状况下,它比 p4可编程的AISC芯片在性能跟费用上高出了许多,所以阿里云最终选择了p4可编程的AISC芯片。

揭秘云网络大会“网红”:阿里云自研高性能网关XGW

考虑到芯片的转发模型的特性,阿里云选用了非对称的转发模式,处理逻辑分布在不同的pipeline里,通过不同的pipeline的表项互相叠加,来提高转发表项的能力。

其次,阿里云对整个硬件的表项格式也进行了优化。在软转发的转换模型里,为了清晰简略,很多的表都是独立的,比如简略的产品或许使用了多张表,每张表有不同的属性,但多张表用软件实现时占的表项空间就相对较大。所考虑进行合表,这样可以有效减少整个芯片表项的利用率。

3)实现网路QoS

利用可编程芯片数据平面,实现网路QoS的能力。大规模住户的应用较复杂,部门较差,不同应用的优先级不一样,对于码率的要求也不一样,如果每位应用都根据它最大码率来订购,成本会特别高。所以,许多超大规模顾客希望订购一定码率,然后在发生堵塞的时侯先遗弃优先级低的信令,保证高优先级的信令通过。通过可编程数据平面可以实现了这么的QoS的功能。

揭秘云网络大会“网红”:阿里云自研高性能网关XGW

综合来看,通过数据平面的可编程能力,和软硬一体化的构架,洛神平台数据平面提供了超高的转发功耗,大大提高了芯片的表项规模,并且软件芯片在云估算网路里早已规模化应用。

软硬件一体化未来优化

云网络未来将从以下几个方面进行优化:

1)异构芯片。当前阿里云使用的Barefoot P4可编程芯片,未来阿里云可能会使用多厂家的异构芯片,比如阿里自研芯片、Broadcom芯片等。通过芯片适配层,可以有效的屏蔽芯片的差别,做到迅速上线。

2)网络安全。随着大量不同行业的房客上云阿里云网络,对网路加密安全有了更高的要求。通过可编程的数据平面提供加密的功能,来支撑不同的顾客的诉求。

3)网络可视化。网络常常是一个黑盒,未来通过可编程的数据面,可将网路上面转发的信息携带至网路的处理系统里,实现网路可视化,帮助网路更有效的支撑业务系统,同时提高网路的维保能力。

原文链接

图说天下

×
二维码生成