站务联系

改进 TCP,阿里提出高速云网络拥塞控制协议 HPCC

发布时间:2021-03-09   来源:网络整理    
字号:

TCP 是最基础的网路传输层通讯合同,其串扰控制算法是为 Internet 这种相对低速、高推迟的网路环境设计的。在新一代的高速云网络中,TCP 的串扰控制算法未能充分发挥底层网路能力,而现有高速网路串扰控制算法(如:RDMA 协议中的串扰控制算法 DCQCN)又存在严重的稳定性风险。阿里巴巴的技术人员研制了新一代高速云网路串扰控制合同 HPCC (High Precision Congestion Control),旨在同时实现高速云网路的极至功耗跟超高稳定性。目前这一成果已被计算机网路方向世界顶尖学术大会 ACM SIGCOMM 2019 收录,引起了国内外广泛关注。

改进 TCP,阿里提出高速云网络拥塞控制协议 HPCC

HPCC (High Precision Congestion Control-高精度拥塞控制)

随着云计算的飞速发展,传统 PC 时代的大型机房的网路构架已逐步退出历史舞台,取而代之的是以数据中心为核心的超大规模、云网路构架。在这么的环境下,目前主流的 TCP 和 RDMA 拥塞控制算法(例如 DCTCP,DCQCN)要么未能充分发挥云网络低延时、高码率的优势,要么未能在大规模网路环境下保持稳定。这给包括阿里巴巴在内的小型云计算服务商们带给了艰巨的营运跟技术挑战。

HPCC 是在高性能的云网路环境下,对现有的拥塞控制的一种代替方案。它可使数据中心网路中的信令稳定的、以微秒级的推迟传输。当前主流的串扰控制算法主要依赖于端的信息(例如丢包信息,延迟信息),以及极为有限的设备反馈信息(如 1 个比特的 ECN)做串扰控制,而 HPCC 则创新性地利用了最新网路设备提供的细细度负载信息而全新设计了串扰控制算法。在 HPCC 的帮助下,主流的云应用,比如分布式存储、大规模机器学习,高性能估算等功耗会得到几倍至几十倍不等的增强;云租户相应地将要感受到推迟明显增加,效率跟性价比急剧增强。

核心:拥塞控制

改进 TCP,阿里提出高速云网络拥塞控制协议 HPCC

当然,真正实现 HPCC 的大规模、商业化落地还须要一段时间,但阿里内部早已在模拟真实网路的试验环境下进行了多方面验证,其疗效与构想高度一致。

经过各式软软件的新颖设计,阿里安装工程团队已完整跟高效地实现了 HPCC 的软硬件协议栈。实验阐明,HPCC 在串扰条件下可以将延后缩短一到两个数量级,且收敛速率极快;一旦出现闲暇时延,立刻会被充分利用,整体网路利用率维持在相当高的水平,而延后则接近于理想值。张铭指出,在无串扰的状况下,数据流的传输速率都很快;而即便发生串扰,受影响的数据流从不稳定状态恢复至稳定状态的时间还要越短越好,HPCC 的收敛速率跟稳定性都要远优于现在的主流算法。

研究价值

目前业内对网路传输合同的选择基本分为两大类:一类是以 TCP 为主,持续探求怎样将 TCP 的功耗调至更优的状态;另一类则希望研究可以代替 TCP 的新传输合同。张铭解释道,HPCC 的出现为下一代拥塞控制开拓了一个全新的方向,无论是 TCP,还是 RDMA,抑或是某些新的传输层合同,都可以直接使用 HPCC,或是在其基础上建立适用于高性能云网络的串扰控制制度。

改进 TCP,阿里提出高速云网络拥塞控制协议 HPCC

目前,该项研究的学术论文《HPCC: High Precision Congestion Control》已经被网路顶尖学术大会SIGCOMM 2019投档,该论文详尽介绍了阿里巴巴自研的新一代高速网路串扰控制合同。

“现代数据中心中数以万计的处理器互相之间的通讯怎样被组织在一起来防止它们之间通讯通道的串扰呢?这是我在广州初次遇见这一群阿里巴巴学者时,他们正在尝试解决的问题。… 我相信我们在这个领域早已作出了极其重要的进展,而且我们十分高兴我们的阶段性工作早已被 SIGCOMM 2019 接收”–HPCC 论文的合作作者,英国皇家科学院教授,剑桥大学Frank Kelly博士表示。

关于 SIGCOMM

SIGCOMM 是 ACM 组织在网路领域的旗舰型大会,也是现今国际网路领域的顶级大会。几十年以来阿里云网络,多项精典研究成果都出自 SIGCOMM 大会,比如《Development of the Domain Name System 》(SIGCOMM 1988),阐述了互联网域名管理系统(DNS),这套系统早已被使用几十年,贯穿了互联网的发展史;《Congestion Control in IP/TCP Internetworks 》(SIGCOMM 1987)和《Congestion Avoidance and Control 》(SIGCOMM 1988),奠定了互联网 TCP 拥塞控制的基础,其算法设计思想一致承袭迄今; 《Ethan: Taking Control of the Enterprise 》(SIGCOMM 2007),软件定义网络(SDN)思想的开山之作,SDN 使得大规模网路虚拟化成为或许,让“云网络”的概念落地。

图说天下

×
二维码生成