站务联系

阿里云祝顺民:云网络的十年“修路”历程(2)

发布时间:2022-01-08   来源:网络整理    
字号:

InfoQ:江鹤老师,我们了解到十年前虚拟化的方案好像也不是很多,那咱们在最开始做虚拟化的时候有什么可参考的案例吗?

江鹤:你讲的其实是一个非常关键的点,那个时候业界在整个虚拟化技术上分为两大派。其中的一派是国外的公有云厂商,另一派其实以 Open Stack 为代表的这一派,当时对于 Open Stack 来说,还没有这么完整的网络虚拟化这一层,它更多的关注计算的虚拟化。

然后讲到国外的云厂商,我们在公开的材料上几乎看不见他们,他们没有实践过程,没有实践方案,没有实践技术原理方面的解读,能看到的只有产品,所以说在当时可参考的是非常少的。我记得非常清楚的是带宽的数据。我举几个关键的例子,第一个例子说天猫淘宝业务。一个地域里面一张虚拟的网络,它现在要求至少都是 100 多万台虚拟机的规模,开始其实只能支撑 30 万台,但现在我们已经可以完全满足了。第二个数据以去年双十一为例。去年双十一我们给单个客户提供的最大混合云是 32 个 T,这都是很大的挑战。第三个数据就是公网。去年疫情期间,学校开学前,我们在一两天之内给钉钉准备了 1 个 T 的公网带宽,这也是规模比较大的数据。

InfoQ:东南亚的网络环境很复杂,那么江鹤老师在东南亚的网络建设过程中有什么体会?

江鹤:就像你讲到,其实东南亚很多国家,它们的网络发展阶段是不一样的。比如说整个东南亚发展阶段最好的是新加坡,但人口最多的是印度尼西亚。所以从目前来看,新加坡是东南亚的一个核心,很多流量交换都会通过新加坡,它的网络情况最好,而印度尼西亚流量最大。所以现在像国内的一些企业,如果想去东南亚发展业务,可以先在新加坡阿里云的机房里面开始构建你的业务。

所以对一些大型公司来说,当他们的业务大到一定程度后,比如说印度尼西亚的用户对延时要求比较高的时候,会慢慢的把业务转移到马来西亚这些地方去。

InfoQ:在整个阿里云网络发展的节点中,有什么节点是江鹤老师印象最深刻的?比如双十一算不算个严峻挑战?

江鹤:说实话双十一对我们来说还好,因为作为一个技术人员加入到阿里之后,每年都会做双十一,而且大家都知道双十一的流量一直在往上涨,所以会提前准备好也没有那么突发性。

但是阿里云的客户对我们业务的突发性要求就更高。还是举个例子,我印象很深的一次是有一次我们发现了一个潜在的 bug,因为担心这个 bug 可能会产生大故障,所以我们在一个晚上把阿里云所有地域的负载均衡全部做了版本升级。

InfoQ:当时有没有考虑先灰度测试一下?

江鹤:没有。因为是我们基本上是一个非常稳定的版本,可以说只需要改动一行代码,所以是非常有信心的。

云计算最核心的是稳定的服务。从做阿里云这十几年的经历来看,除了技术和产品做得好之外,我们最有心得的是如何保障这么大规模的一个云计算基础设施是稳定的,包括从我们内部看网络,故障也是非常少。所以稳定的服务是公有云厂商最核心的一个能力,同时也是最见功底的一个能力。

InfoQ:从什么时候起,江鹤老师觉得故障或者 bug 率开始降低了呢?

江鹤:在 2017 年之前我们的发展其实非常快,在现在看来故障还是不少的。在 2017 年之后,我们意识到稳定性是最重要的一件事。

再举一个例子,我们有一个客户在阿里云上面,他的 APP 是非常知名的,有一次发生一个故障影响了 APP,我回家之后,家人就问这个 APP 为什么今天不能用,跟你们有没有关系?从那时候我就意识到阿里云不仅仅只是做一个产品,我们应该确保的是一个服务的延续性。这关乎到咱们老百姓的生活和上网体验,也有了超脱于产品之外的使命感与责任感。

云网边端一体化与云网络建设方法

图说天下

×
二维码生成