HTTP 报文

报文流

HTTP 报文即 HTTP 应用程序之间发送的数据块。以一些文本形式的元信息开头以描述报文的内容及含义,后跟可选的数据部分。

报文流入源端服务器

**流入(inbound)流出(outbound)用于描述事物处理(transaction)**的方向。

首先报文流入源端服务器,工作完成后,会流回用户的 Agent 代理(如浏览器)。

报文向下游流动

所有报文(请求、响应)发送者都在接收者的上游,所有报文都会向下游流动。

报文的组成部分

HTTP 报文为简单的格式化数据块,包含:起始行、首部、主体。

起始行和首部是由行分割 ASCII 文本。每行都以一个由两个字符组成的终止符作为结束:回车符(ASCII 13)和换行符(ASCII 10)。这个终止序列称为 CRLF

主体是一个可选的数据块,可是是文本或二进制数据,或为空。首部中会给出主体的信息,比如类型或长度。

报文的语法

所有报文分为两类:请求报文、响应报文。

请求报文格式:

<method> <request-URL> <version> 
<headers>

<entity-body>

响应报文格式:

<version> <status> <reason-phrase> 
<headers>

<entity-body>
  • 方法:客户端希望服务器对资源执行的操作。
  • 请求 URL:命名了所请求的资源或 URL 路径组件的完整 URL。
  • 版本:报文所使用的 HTTP 版本:HTTP/<major>.<minor>
  • 状态码:这个三位数字描述了请求过程中发生的情况。
  • 原因短语:数字状态码的可读版本,包含行终止序列之前的所有文本。
  • 首部:可以有零个或多个首部。每个首部都包含一个名字, 后面跟着一个冒号(:), 然后是一个可选的空格, 接着是一个值, 最后是一个 CRLF。最后由一个空行 CRLF 结束,表示首部结束,后面是主体。
  • 实体的主体部分:包含一个由任意数据组成的数据块。

起始行

所有 HTTP 报文都以起始行开始,请求报文中说明要做什么,响应报文中说明发生了什么

  1. 请求行:请求服务器对资源进行一些操作

  2. 响应行:承载了状态信息和操作产生的所有结果数据

  3. 方法:

    方法描述是否包含主体
    GET从服务器获取一份文档
    HEAD只从服务器获取文档的首部
    POST向服务器发送需要处理的数据
    PUT将请求的主体部分存储在服务器上
    TRACE对可能经过代理服务器传送到服务器上去的报文进行追踪
    OPTIONS决定可以在服务器上执行哪些方法
    DELETE从服务器上删除一份文档
  4. 状态码:

    整体范围已定义范围分类
    100 ~ 199100 ~ 101信息提示
    200 ~ 299200 ~ 206成功
    300 ~ 399300 ~ 305重定向
    400 ~ 499400 ~ 415客户端错误
    500 ~ 599500 ~ 505服务端错误
  5. 原因短语

  6. 版本号

首部

  1. 首部分类
    1. 通用首部:出现在请求报文、响应报文
    2. 请求首部:请求信息
    3. 响应首部:响应信息
    4. 实体首部:实体信息
    5. 扩展首部:尚未定义的新首部
  2. 首部延续行:将较长的首部分为多行,多出来的行前使用空格或制表符(Tab)

实体的主体部分

方法

与 GET 方法类似,但在响应中只返回首部,不返回主体部分。这允许客户端在未获取实际资源的情况下检查资源:

  • 在不获取资源的情况下了解资源
  • 通过查看响应中的状态码判断资源是否存在
  • 通过查看首部,判断资源是否被修改

OPTIONS

询问服务器通常支持 哪些方法,或者对某些特殊资源支持哪些方法。

状态码

信息状态码

状态码原因短语含义
100Continue说明收到了请求的初始部分,请客户端继续.
101Switching Protocols说明服务器正在根据客户端的指定,将协议切换成Update首部所列的协议

成功状态码

状态码原因短语含义
200OK请求没有问题,实体的主体部分包含了所请求的资源.
201Created用于创建服务器对象的请求(比如PUT),响应体的实体主体部分中应该包含各种引用了已创建资源的URL,Location首部包含的则是最具体的引用.
202Accepted请求已被接受,但服务器还未对其执行任何动作.不能保证服务器会完成这个请求;只表示接受请求时,它看起来是有效的.
203Non-Authoritative Information实体首部包含的信息不是来自于源端服务器,而是来自资源的一个副本.
204No Content响应报文中用于若干首部和一个状态行,但没有实体的主题部分.主要用于在浏览器不转为显示新文档的情况下,对其进行更行.
205Reset Content另一个主要用于浏览器的代码,负责告诉浏览器清除当前页中的所有HTML表单元素.
206Partial Content成功执行了一个部分或Range(范围)请求.

重定向状态码

状态码原因短语含义
300Multiple Choices客户点请求一个实际指向多个资源的URL时会返回这个状态码,比如服务器上有某个HTML的英语和法语版本.返回这个状态码时会有一个选项列表,这样用户就可以选择他希望使用的那一项了.
301Moved Permanently在请求的URL已被移除时使用.响应的Location首部中应该包含资源现在所处的URL.
302Found与301状态码类似,但是客户端应该使用Location首部给出的URL来临时定位资源.
303See Other告诉客户端应该使用另一个URL来获取资源,新的URL位于响应报文的Location首部.
304Not Modified客户端可以通过所包含的请求首部,使其请求变成有条件的.
305Use Proxy用来说明必须通过一个代理访问资源,代理的位置有Location首部给出.
306(未使用)当前未使用.
307Temporary Redirect与301状态码类似,但是客户端应该使用Location首部给出的URL来临时定位资源.

客户端错误状态码

状态码原因短语含义
400Bad Request用于告诉客户端它发错了一个错误请求.
401Unauthorized与适当的首部一起返回,在这些首部中请求客户端在获取对资源的访问权之前,对自己进行认证.
402Payment Required还未使用,但已保留.
403Forbidden用于说明请求被服务器拒绝了.
404Not Found用于说明服务器无法找到所请求的URL.
405Method Not Allowed发起的请求中带有所请求的URL不支持的方法时,使用此状态码.应该在响应中包含Allow首部,以告诉客户端所请求的资源有哪些可以使用的方法.
406Not Acceptable客户端可以指定参数来说明他们愿意接受什么类型的实体.
407Proxy Authentication Required与401状态码类似,但用于要求对资源进行认证的代理服务器.
408Request Timeout如果客户端完成请求所花的时间太长,服务器可以返回此状态码,并关闭连接.
409Conflict用于说明请求可能在资源上引发一些冲突.
410Gone与401类似,只是服务器曾经拥有该资源.
411Length Required服务器要求在请求报文中包含Content-Length首部.
412Precondition Failed客户端发起了条件请求,且其中一个条件失败了的时候使用.
413Request Entity Too Large客户端发送的实体主体部分比服务器能够或者希望处理的要大时,使用此状态码.
414Request URI Too Long客户端所发请求中的请求URL比服务器能够或希望处理的要大时,使用此状态码.
415Unsupported Media Type服务器无法理解或支持客户端所发实体的内容类型.
416Requested Range Not Satistiable请求报文所请求的是指定资源的某个范围,而此范围无效或无法满足时,使用此状态码.
417Expectation Failed请求的Expect请求首部包含了一起期望,但服务器无法满足此期望.

服务器错误状态码

状态码原因短语含义
500Internal Server Error服务器遇到一个妨碍它为请求提供服务的错误时,使用此代码.
501Not Implement客户端发起的请求超出服务器的能力范围.
502Bad Gateway作为代理或网关使用的服务器从请求响应链的下一条链路上收到了一条伪响应.
503Service Unavailable服务器现在无法为请求提供服务.
504Gateway Timeout与状态码408类似,只是这里的响应来自一个网关或代理,他们在等待另一服务器对其请求进行响应时超时了.
505HTTP Version Not Supperted服务器收到的请求使用了它无法或不愿意支持的协议版本时.

首部

首部和方法配合工作,共同决定了客户端和服务器能做什么事情.

  • 通用首部: 客户端和服务器都可以使用的通用首部.可以在客户端或服务器和其他应用程序之间提供一些非常有用的通用功能,提供了报文相关的最基本信息.比如Date首部.
  • 请求首部: 是请求报文特有的.为服务器提供了一些额外信息,比如客户端希望接收什么类型的数据.
  • 响应首部: 响应报文有自己的首部集,以便为客户端提供信息.
  • 实体首部: 指的是用于应对实体主体部分的首部.比如,可以用实体首部来说明实体主体部分的数据类型.
  • 扩展首部: 是非标准的首部,有应用程序开发正创建,但还未添加到已批准的HTTP规范中.

通用首部

首部描述
Connection允许客户端和服务器指定与请求/响应连接有关的选项
Date提供日期和时间标志,说明报文是什么时间创建的
MIME-Version给出了发送端使用的 MIME 版本
Trailer如果报文采用了分块传输编码方式,就可以用这个首部列出位于报文拖挂(trailer)部分的首部集合
Transfer-Encoding告知接收端为了保证报文的可靠传输,对报文采用了什么编码方式
Update给出了发送端可能想要“升级”使用的新版本或协议
Via显示了报文经过的中间节点(代理、网关)

通用缓存首部

首部描述
Cache-Control用于随报文传送缓存指示
Pragma另一种随报文传送指示的方式,但并不专用于缓存
ConnectionAAAA

请求首部

只在请求报文才有意义的首部.用于说明谁或什么在发送请求,请求源自何处,或者客户端的喜好和能力.服务器可以根据请求首部给出的客户端信息,试着为客户端提供更好的响应.

首部描述
Client-IP提供了运行客户端的机器的 IP 地址
From提供了客户端用户的 E-mail 地址
Host给出了接收请求的服务器的主机名和端口号
Referer提供了包含当前请求 URI 的文档的 URL
UA-Color提供了与客户端显示器的显示颜色有关的信息
UA-CPU给出了客户端 CPU 的类型或制造商
UA-Disp提供了与客户端显示器(屏幕)能力有关的信息
UA-OS给出了运行在客户端机器上的操作系统名称及版本
UA-Pixels提供了客户端显示器的像素信息
User-Agent将发起请求的应用程序名称告知服务器

Accept首部

Accept首部为客户端提供了一种将喜好和能力告诉服务器的方式.

首部描述
Accept告诉服务器能够发送那些媒体类型
Accept-Charset能够发送那些字符集
Accept-Encoding能够发送哪些编码方式
Accept-Language能够发送那些语言
TE能够使用哪些扩展传输编码

条件请求首部

有时客户端希望为请求加上某些限制.

首部描述
Expect允许客户端列出某请求所要求的服务器行为
If-Match如果实体标记与文档当前的实体标记匹配,就获取这份文档
If-Modified-Since除非在某个指定的日期之后资源被修改过,否则就限制这个请求
If-None-Match如果提供的实体标记与当前文档的实体标记不相符,就获取文档
If-Range允许对文档的某个范围进行条件请求
If-Unmodified-Since除非在某个指定日期之后资源没有被修改过,否则就限制这个请求
Range如果服务器支持范围请求,就请求资源的指定范围

安全请求首部

HTTP本身就支持一种简单的机制,可以对请求进行质询/响应认证.这种机制要求客户端在获取特定资源之前,相对自身进行认证,这样就可以使事务稍微安全一些.

首部描述
Authorization包含了客户端提供给服务器,以便对其自身进行认证的数据
Cookie客户端用它向服务器传送一个令牌——它并不是真正的安全首部,但确实隐含了安全功能
Cookie2用来说明请求端支持的 cookie 版本

代理请求首部

首部描述
Max-Forward在通往源端服务器的路径上, 将请求转发给其他代理或网关的最大次数——与Trace方法一同使用
Proxy-Authorization与Authorization首部相同,但这个首部是在与代理进行认证时使用
Proxy-Connection与 Connection 首部相同,但这个首部是在与代理建立连接时使用的

响应首部

响应报文有自己的响应首部集.为客户端提供了一些额外信息,比如谁在发送响应,响应者的功能,甚至于响应相关的一些特殊指令.这些首部有助于客户端处理响应,并在将来发起更好的请求.

首部描述
Age(从最初创建开始)响应持续时间
Public服务器为其资源支持的请求方法列表
Retry-After如果资源不可用的话,在此日期或时间重试
Server服务器应用程序软件的名称和版本
Title对 HTML 文档来说,就是 HTML 文档的源端给出的标题
Warning比原因短语中更详细一些的警告报文

协商首部

服务器可以用他们来传递与可协商资源有关的信息.

首部描述
Accept-Ranges对此资源来说,服务器可接受的范围类型
Vary服务器查看的其他首部的列表,可能会使响应发生变化;也就是说,这是一个首部列表,服务器会根据这些首部的内容挑选出最适合的资源版本发送给客户端

安全响应首部

上面已经提到请求端的安全首部,本质上这里说的就是 HTTP 的质询 / 响应认证机制的响应侧.

首部描述
Proxy-Authenticate来自代理的对客户端的质询列表
Set-Cookie不是真正的安全首部,但隐含有安全功能;可以在客户端设置一个令牌,以便服务器对客户端进行标识
Set-Cookie2与 Set-Cookie 类似, RFC 2965 Cookie 定义
WWW-Authenticate来自服务器的对客户端的质询列表

实体首部

有很多首部可以用来描述HTTP报文的负荷.由于请求和响应报文中都可能包含实体部分,所以在这两种类型的报文中都可能出现这些首部.

实体首部提供了有关实体及其内容的大量信息,从有关对象类型的信息,到能够对资源使用的各种有效的请求方法.总之,实体首部可以告知报文的接收者它在对什么进行处理.

首部描述
Allow列出了可以对此实体执行的请求方法
Location告知客户端实体实际上位于何处;用于将接收端定向到资源的(可能是新的)位置(URL)上去

内容首部

提供了与实体内容有关的特定信息,说明了其类型,尺寸以及处理它需要的其他有用信息.

首部描述
Content-Base解析主体中的相对 URL 时使用的基础URL
Content-Encoding对主体执行的任意编码方式
Content-Language理解主体时最适宜使用的自然语言
Content-Length主体的长度或尺寸
Content-Location资源实际所处的位置
Content-MD5主体的 MD5 校验和
Content-Range在整个资源中此实体表示的字节范围
Content-Type这个主体的对象类型

实体缓存首部

通过缓存首部说明了如何或什么时候进行缓存.

首部描述
ETag与此实体相关的实体标记
Expires实体不再有效,要从原始的源端再次获取此实体的日期和时间
Last-Modified这个实体最后一次被修改的日期和时间