粘包拆包是TCP协议传输中一种现象概念。TCP是传输层协议,他传输的是“流”式数据,TCP并不知道传输是哪种业务数据,或者说,并不关心。它只是根据缓冲区状况将数据进行包划分,然后进行传输。
在这个前提下,就有可能发生发生同一个业务数据被分割程多个数据包,或者多个业务数据被打包到同一个数据包进行发送。但是对于业务数据接收方,则必须拥有能够重新拆解或者组装完整业务数据的能力。这个现象,我们称之为TCP粘包拆包。
如上图,三个业务数据A、B、C被打包成一个数据包进行传输;D被分割为连个数据包进行传输。
所以综上,影响粘包拆包发生的原因:
1、业务数据的大小<>TCP 套接字缓冲区大小如果需要写入的应用数据大于当前设置的TCP套接字缓冲区,则需要对应用数据进行分次写入。
SO_SNDBUF:发送缓冲区大小。
SO_RCVBUF:接收缓冲区大小。
应用首先将数据写入TCP套接字缓冲区,然后等待发送。默认情况下,多数操作系统支持动态调节SO_SNDBUF大小以进行自适应,但是如果有主动设置,则自动调节会失效。
2、MSS大小传输线制标识TCP传往另一段的最大数据长度,建立连接时,双发通告自己允许的MSS(只能出现在SYN报文中)。
3、MTU大小限制
网路中主机之间的MTU不是一个常数,取决于所选择的路由,而且路径不一定对称(A到B的选路,B到A的选路).
因为每一次发送报文都会包含IP及TCP首部,所以,发送的报文段越大,效率越高,但是以不发生报文分段及双方都接受为基础。否则以较小的MTU发送。
关于MTU MSS相关知识可以参照:MTU(Maximum transmission unit) 最大传输单元
二、怎么处理粘包拆包?传输层是业务无感知的,因此粘包拆包只能由业务层处理。通过指定收发两端共同的约定规约,发送方按照特定的规则组装数据,接收方按照同样的规则拆解数据。
这个共同的约定规约,我们通常称之为应用层协议;发送方组装数据的过程称之为编码;接收方拆解数据的过程称之为解码。
常见的协议处理有如下:
1、固定长度消息在预知最大报文不超特定长度的情况下,可以规定报文大小固定,业务数据不足则以特定的空间占位。
2、特定分隔符分割消息每条消息尾部加特定分割符进行消息分割。
3、消息头+消息体每一条消息包含一个消息头和一个消息体,消息头使用固定长度占位,内部写入当前消息消息体的数据长度。接收方首先读取消息头数据,然后根据指明的消息长度进行消息体的读取。
应用协议没有统一的规则限制,如上,我们只是简要说明可能使用的应用协议形式,实际应用中,也会根据特定的场景需求进行定向的优化。