697e96025ff83c2ad7f8cca4955dcee9
最熟悉的陌生人:5 分钟快速理解 HTTP2

最熟悉的陌生人:5分钟快速理解 HTTP2

最熟悉的陌生人系列,将带你快速理解熟悉的名词如:HTTP2、HTTP3、IPV6、BBR等。

通读 90 年代上下的论文,你会发现,在已经基本建成的计算机科学大厦中,后辈码农只要做一些零星的修补工作就行了。

在计算机科学晴朗天空的远处,还有几朵令人不安的小小乌云。

​ ——皓尼・郝里斯(HioHio)

而其中一朵小小乌云,就是前辈的协议制定实现得太牢靠了,就算有着诸多不足,还是用的好好的,让后辈没什么动力去创新替换。。

HTTP 的不足

在阅读此章时,读者可以给自己一个思考时间,锻炼设计与思考能力—— 目前在用的 HTTP 协议,你认为有哪些不足呢? 你可以重新设计一个替代它并且尽可能兼容的协议,你会怎么做呢?

可尝试自己写下设计,定会受益甚多。

TCP连接数过多

HTTP1.0只允许一条 tcp 链接上处理一个 request,尽管后来的 HTTP1.1(现在常用的版本)允许pipelining, 管道,通过这个管道,浏览器的多个请求可以同时发到服务器,但是服务器的响应只能够一个接着一个的返回 (但各大浏览器有些不支持 / 默认关闭,因此这功能可以说是鸡肋)。

HTTP 头部过多重复

HostAccept-EncodingConnectionorigincontent-type等等一堆头部,都在不同的请求中重复出现。

除了浪费大量流量,还会导致 TCP 的初始拥塞窗口(initcwnd)快速满了,当多个请求准备在同一个tcp 连接上发送时,会导致大量延迟——当initcwnd >= ssthresh(slow start threshold) 时,tcp就会进入 “拥塞避免算法”,把发送的速度调慢,避免增长过快导致网络拥塞,慢慢的增加调整到网络的最佳值。

当然初始拥塞窗口(initcwnd)也不能调太大来避免。

If the initcwnd values is large, then there will be fewer RTTs required to download the same file. But we cannot set initcwnd to a huge value as the network environment and the routers also has the limitation of having limited buffers. If exceedingly large values are set, it may lead to router buffer overflows, packet loss, packet re-transmissions. So, we need to set an optimal value for the initcwnd which is directly proportional to the network bandwidth.

使用文本协议

文本协议尽管带来了可读性以及方便程序员 debug,但这是高性能网络程序要竭力避免的——君不见每个公司内部都要搞一个自己的二进制协议吗?二进制,每个在网络上交流的 bit 的意义都被发挥得淋漓尽致。

而说到 可读与debug 的问题,自然浏览器(客户端),服务器(框架)可以帮你解决,套上一层中间层就好。

HTTP2 概览

HTTP2, 为解决以上问题而生。

  • 允许多个 request/response在同一个 tcp 链接上发送
  • 高效压缩头部(http header)
  • 二进制协议,真正的多路复用
  • 还有自己的流量控制,保证各个 stream不被互相干扰;
  • 支持请求分优先级发送,优先级越高如核心 css、html,优先发给客户端
  • 支持服务器预测并推送客户端可能需要的资源,让客户端先做缓存(server push),榨干服务器
  • 兼容 HTTP1.1 的语义,尽可能一致。

兼容 HTTP1.1

其实平常我们在用的网站都支持 HTTP2 了,如

  • 国外的 google.comtour.golang.orgfacebook.comstackoverflow.comshopee.sg
  • 国内的zhihu.com(点赞)、v2ex.comvgtime.com(我擦,这个做的UI看起来有点渣的游戏资讯网站竟然支持你敢信,人家gcores 都不支持)、youku.com

而想找一些不支持的,找一些小型网站就好,如 yonghaowu.github.iogcores.comdouban.combilibili.com/,还有臭名昭著的 baidu.com

当然,这里说不支持时,只是说这个域名不支持,他可能 api 是用另外的域名然后是支持的。

升级 HTTP2

兼容,或者说客户端要求升级到 HTTP2,主要有两种方法:

  • 客户端的HTTP headerUpgrade 指定h2cHTTP/2 ClearText
    • 如你所知,Connection: UpgradeUpgrade: websocket,Websocket 就是这样子变换协议的;
  • ALPN(Application Layer Protocol Negotiation,应用层协议协商), TLS 的扩展功能
    • 客户端在建立 TLS 连接的 Client Hello 握手中,通过 ALPN 扩展列出了自己支持的各种应用层协议
    • 如果服务端支持 HTTP/2,在 Server Hello 中指定 ALPN 的结果为 h2 就可以了
    • 如果服务端不支持 HTTP/2,从客户端的 ALPN 列表中选一个自己支持的即可

而一般你看现在的网站请求,都用第二种方式了,因为第一种方式服务端接收到后还需要返回101状态码 Switching Protocols告知客户端,客户端再发送 http2 的数据。

HTTP2 的 帧(frame)

HTTP2中二进制协议的基本单元叫 frame(帧),不同frame 有不同作用,如:

  • SETTING帧:建立连接时,向对方传达一些配置信息如是否开启 server push 功能、最大帧 size等等(牢记,下文不累述此);
  • HEADERS帧:发送 http 的 request 或者response的头部;
  • CONTINUATION帧:headers 要跨越多个帧,用此来指示头部上一个HEADERS;本质就是HEADERS帧,但是为了轻松处理,就用明确的类型来区分这种情况;
  • DATA帧:发送body数据用;
  • PUSH_PROMISE 帧:用来告知对端初始化哪些数据,就是以上说到的 server push 功能
  • WINDOW_UPDATE帧:用来做流量控制

等。

帧的格式如下,熟悉二进制协议的你对此想必很清晰:

  • ```
    +-----------------------------------------------+
    | Length (24) |
    +---------------+---------------+---------------+
    | Type (8) | Flags (8) |
    +-+-------------+---------------+-------------------------------+
    |R| Stream Identifier (31) |
top Created with Sketch.