第1章 简介

异步回调 TCP/IP四层体系结构(用户进程、内核中的协议栈、以太网) 局域网 广域网
  • 客户端的简单实现

if ((sockfd = socket(AF_INET, SOCK_STREAM, 0)) < 0);

bzero (&serveraddr, sizeof(serveraddr);

serveraddr.sin_family = AF_INET;

serveraddr.sin_port = htons(port);

if (inet_pton(AF_INET, argv[1], &serveraddr.sin_addr) <= 0);

converts the character string src into a network address structure in the af address family, then copies the network address structure to dst. dst is written in network byte order.

connect(sockfd, (SA *) &servaddr, sizeof(servaddr) )

  • 包裹函数

pthread_开头的函数并不设置Unix的errno变量,而是把errno的指作为函数返回值。所以必须定义包裹函数,分配一个变量保存值,在调用err_sys()之前把errno设为这个值。

只要一个Unix函数有错误发生,全局变量errno就被置为一个指明该错误类型的值。如-1,ETIMEDOUT。

  • 服务器的简单实现

listenfd = socket(AF_INET, SOCK_STREAM, 0);

bzero(&serveraddr, sizeof(serveraddr));

serveraddr.sin_family = AF_INET;

serveraddr.sin_addr.s_addr = htonl(INADDR_ANY); // any address wildcard

serveraddr.sin_port = htons(port);

bind(listenfd, (SA *) &serveraddr, sizeof(serveraddr));

listen(listenfd, LISTENQ);

while (ture) {

connfd = accept(listenfd, (SA *) NULL, NULL);

close(connfd);

}

这都是协议相关的程序,需要开发协议无关的函数。

三路握手,str = time(NULL), ctime(&str)

迭代式服务器,并发式服务器

ISO (International Organization for Standardization) 的 OSI (open systems interconnection) 模型

  • Unix网络命令

netstat -i 提供接口信息 -n 输出数值地址

netstat -r 展示路由表 -n输出数值地址

ifconfig 接口名为参数,获得接口详细信息,其中有ip地址、掩码、广播地址bcast

ping -b bacst的地址 可以找出本地网络众多主机的ip地址的方法之一

第2章 传输层:TCP、UDP和SCTP

![Machine generated alternative text: AF INET race - ping route AF NETS sockaddr } race ping route tcp- BPF DLPI ‘UDP I 128{üYÅÅl: API ICMP ICMP IGMP ARP RARP IPV4 TCP 326’LÅÅåE &12-1 Iscrpl TCP/IPtåhiN*åbi IPv6

  • TCP与UDP

    • TCP可靠、UDP不可靠
    • TCP对发送的数据进行排序、数据只到达一次。UDP不能保证到达的先后次序。
    • TCP是字节流协议,没有任何记录边界。UDP每个数据报都有一个长度,长度会和数据一起发送
    • TCP提供有链接服务,UDP提供无连接服务。
    • TCP提供流量控制、UDP不同共流量控制。
    • TCP的连接是双工的。
  • TCP的三路握手

socket  connect (  ( æslJåJ-Tf-)  SYN  SYN K, ACKJ41  ACk K+l  socket , bind, listen  accept  read

  • 客户端发送SYN(同步)分节,告诉服务器客户端将在连接中发送的数据的初始序列号。
  • 服务器发送ACK(确认),同时也发送SYN分节,含有服务器将在同一连接中发送的数据初始序列号
  • 客户端发送ACK确认服务器的SYN。

ACK中的确认号是发送这一个ACK的一端所希望的下一个序列号,因为SYN占据一个字节,所以每一个SYN的ACK确认号就是该SYN的初始序列号加1. 同样,FIN(结束)的ACK确认号就是FIN的序列号加1.

  • TCP的四次终止

( 主 动 关 闭 )  图 2 一 3  FINM  ACKM+I  ACK N+l  服 务 器  ( 被 动 关 闭 )  read 返 回 0  C 10 当 已  TCP 连 接 关 闭 时 的 分 组 交 换

  • 主动关闭的一端发送FIN分节,表示数据发送完毕,但仍可接收数据
  • 被动关闭的一端发送ACK进行确认,然后TCP连接就进入半关闭的状态
  • 被动关闭的一端发送FIN分节,表示这一端的数据发送完毕。
  • 主动关闭的一端发送ACK进行确认。

通常需要四个分节的,在两端同时没有数据发送,②和③有可能合并,成为三次。

  • TCP状态转换图

SYN_RCVD  FIN WAIT 1  ACK  FIN WArr 2  CLOSED  LISTEN  SYN  SYN. ACK  ESTABLISHED  CLOSING  ACK  VIVE WAIT  ACK  FIN  ACK  FIN  SENT  CLOSE WAIT  FIN  LAST_ACK  2MS1-ܕj  ACK

  • CLOSED、SYN_SENT、ESTABLISHED、FIN_WAIT_1、FIN_WAIT_2、CLOSING、TIME_WAIT
  • CLOSED、LISTEN、SYN_RCVD、ESTABLISHED、CLOSE_WAIT、LAST_ACK

理解状态转换图是使用netstat命令诊断网络问题的基础,也是理解当某个应用进程调用诸如connect、accept和close等函数时所发生过程的关键。

eke  ( ) SYN_SENT  ESTABLISHED  SYN Mss  SYN K, Mss 1460  ACK  &FACK  FIN M  ACK Mel  FIN N  ACK  42-5  socket, bind,  LISTEN(  SYN_RCVD  ESTABLISHED  accept  CLOSE_WAIT )  LAST_ACK

  • TCP的TIME_WAIT状态

主动关闭的那端经历了这个状态,该端点在这个状态的持续时间是最长分节生命周期的两倍,2MSL

TIME_WAIT状态存在的理由:

  • 可靠地实现TCP全双工连接的终止

  • 允许老的重复字节在网络中消逝

  • TCP、UDP的缓冲机制

    • 数据报的最大大小、MTU、路径MTU、IP分片、最小重组缓冲区、MSS最大分节大小
    • TCP的套接字发送缓冲区,write成功返回仅代表重新使用乐原来的应用进程缓冲区,不代表已接收数据。收到ACK才从缓冲区丢弃确认的数据。

以MSS大小的数据报加上TCP首部传递个IP。IP给TCP分节加上IP首部构成IP数据报,传递给链路层时有可能将其分片。MSS选项的目的之一就是试图避免分片。

![应 用 进 程 IP 输 出 队 列 数 据 路 图 2 . 巧 应 用 进 程 缓 冲 区 ( 任 意 大 小 ) WY e 用 户 进 程 内 核 套 接 字 发 送 缓 冲 区 ( SO—SNDBUF ) MSS* 小 的 TCP 分 带 通 常 MSS<MTU—40 (IPv4) 或 MTU—60 (IPv6) MTU 大 小 的 IPv4 或 伊 、 6 分 组 应 用 进 程 写 TCP 套 接 字 时 涉 及 的 步 骤 和 缓 冲 区

  • UDP没有真正的发送缓冲区,但是发送超过套接字发送缓冲区大小的数据报,内核会返回进程一个EMSGSIZE错误。

给用户数据加8字节的首部构成UDP数据报传给IP。相比TCP而言更有可能被分片。

![应 用 进 程 UDP IP 输 出 队 列 数 据 缸 路 图 2 刁 6 应 用 进 程 缓 冲 区 用 户 进 程 内 核 套 接 字 发 送 缓 冲 区 ( SO—SNDBUF ) UDP 数 据 报 MTUX 小 的 ] Pv4 或 ] Pv6 分 组 应 用 进 程 写 UDP 套 接 字 时 涉 及 的 步 骤 与 缓 冲 区 ]()

第3章 套接字编程简介

  • 套接字地址

    • IPv4套接字

#include <netinet/in.h>

struct in_addr {

in_addr_t s_addr;

};

struct sockaddr_in {

unit8_t sin_len; /* length of structure (16) */

sa_family_t sin_family; /* AF_INET */

in_port_t sin_port; /* 16-bit TCP or UDP port numbers */

​ /* network byte ordered */

struct in_addr sin_addr; /* 32-bit TPV4 address */

/* network byte ordered */

char sin_zero[8]; /* unused */

};

  • 通用套接字地址

#include <sys/socket.h>

struct sockaddr {

uint8_t sa_len;

sa_family_t sa_family; /* address family: AF_xxx value */

char sa_data; /* protocol-specific address */

};

任何接收套接字地质结构的函数必须处理来自所支持的任何协议族的套接字地址结构。

  • IPv6套接字

#include <netinet/in.h>

struct in6_addr {

unit8_t s6_addr[16]; /* 128-bit IPv6 address, network byte ordered */

};

#define SIN6_LEN /* required for compile-time tests */

struct sockaddr_in6 {

unit8_t sin6_len; /* length of this struct (28) */

sa_family_t sin_family; /* AF_INET6 */

in_port_t sin_port; /* transport layer port */

​ /* network byte ordered */

unit32_t sin6_flowinfo; /* flow information, undefined */

struct in6_addr sin6_addr; /* IPv6 address */

/* network byte ordered */

unit32_t sin6_scope_id; /* set of interfaces for a scope */

};

  • 新的通用套接字

struct sockaddr_storage {

uint8_t ss_len; /* length of this struct (implementation dependent) */

sa_famuly_t ss_family; /* address family: AF_xxx value */

};

  • 值——结果 参数

    • 套接字地址传递从进程到内核:bind、connect、sendto. func (fd, (SA *) &serv, sizeof(serv));
    • 套接字地址传递从内核到进程:accept、recvfrom、getsockname、getpeername.

func (fd, (SA *) &serv, &sizeof(serv));

  • 字节排序函数

    • 小端法、大端法、
    • 主机字节序(byteorder命令)、网络字节序(大端法)

#include <netinet/in.h>

uint16_t htons (uint16_t host16bitvalue);

uint32_t htonl (uint32_t host32bitvalue);

uint16_t ntohs (uint16_t net16bitvalue);

uint32_t ntohs (uint32_t bet32bitvalue);

  • 字节操纵函数

b表示字节,mem表示内存

#include <strings.h>

void bzero (void *dest, size_t nbytes);

void bcopy (const void *src, void *dest, size_t nbytes);

int bcmp (const void *ptr1, const void *ptr2, size_t nbytes); // return 0 if equal

#include <string.h>

void *memset(void *dest, int c, sizt_t len);

void *memcpy(void *dest, const void *src, size_t nbytes); //remember the order of the two args: dest = src

int memcmp (const void *ptr1, const void *ptr2, size_t nbytes); // return 0 if equal

  • 地址转换函数

    • inet_aton、inet_addr、inet_ntoa在点分十进制和32位网络字节序转换IPv4
1
2
3
4
5
#include <arpa/inet.h>
int inet_aton(const char *strptr, struct in_addr *addrptr); 
// return 1 if valid, 0 on error
char *inet_ntoa(struct in_addr inaddr);    
//Returns: pointer to dotted-decimal string
  • inet_pton和 inet_ntop 适用IPv4和IPv6, presentation和numeric
1
2
3
4
5
6
7
8
#include <arpa/inet.h>
int inet_pton (int family, const char *strptr, void *addrptr);
const char *inet_ntop(int family, const void *addrptr, char *strptr, size_t len);
//family可以为AF_INET或AF_INET6. 不是这两个则errno为EAFNOSUPPORT
// len 为目标存储单元大小,可为如下,超出这个大小设errno为ENOSPC
#include <netinet/in.h>
#define INET_ADDRSTRLEN 16  /* for IPv4 dotted-decimal */
#define INET_ADDRSTRLEN 46  /* forIPv6 hex string */
  • 包裹函数,使得点分十进制和二进制网络字节序的转换协议无关
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
char *sock_ntop (const struct sockaddr *sa, socklen_t salen)
{
char portstr[8];
static char str[128];
switch (sa->sa_family) {
case AF_INET: {
struct sockaddr_in*sin = (struct sockaddr_in *) sa;
if (inet_ntop(AF_INET, &sin->sin_addr, str, sizeof(str)) == NULL)
return (NULL);
if (ntohs(sin->sin_port) != 0) {
snprintf(portstr, sizeof(portstr), ":&d",
ntohs(sin->sin_port))
strcat (str, portstr);
}
return (str);
}
}
int sock_bind_wild(int sockfd, int family);
int sock_cmp_addr (const struct sockaddr *sockaddr1, 
const struct sockaddr *sockaddr2, socklen_t addrlen);
int sock_cmp_port (const struct sockaddr *sockaddr1,
const struct sockaddr *sockaddr2, socklen_t addrlen);
int sock_get_port (const struct sockaddr *sockaddr, socklen_t addrlen);
char *sock_ntop_host (const struct sockaddr *sockaddr, socklen_t addrlen);
void sock_set_addr (const struct sockaddr *sockaddr, socklen_t addrlen, void *ptr);
void sock_set_port (const struct sockaddr *sockaddr, socklen_t addrlen, int port);
void sock_set_wild (struct sockaddr *sockaddr, socklen_t addrlen);
  • readn、writen和readline函数
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
ssize_t readn(in fd, void *vptr, size_t n)
{
size_t nleft;
ssize_t nread;
char *ptr;
ptr = vptr;
nleft = n;
while (nleft > 0) {
if ((nread = read(fd, ptr, nleft)) < 0) {
if (errno == EINTR)
nread = 0;
else
return(-1);
} else if (nread == 0)
break;
nleft -= nread;
ptr += nread;
}
return n - nleft;
}
ssize_t writen (int fd, const void *vptr, size_t n)
{
size_t nleft;
ssize_t nwritten;
const char *ptr;
ptr = vptr;
nleft = n;
while (nleft > 0) {
if ((nwritten = write(fd, ptr, nleft)) <= 0) {
nwritten = 0;
else
return -1;
}
nleft -= nwritten;
ptr += nwritten;
}
return n;
}
ssize_t readline (int fd, void *vptr, size_t maxlen)
{
ssize_t n, rc;
char c, *ptr;
ptr = vptr;
for (n = 1; n < maxlen; n++) {
again:
if ((rc = read(fd, &c, 1)) == 1) {
*ptr++ = c;
if (c == '\n')
break;
} else if (rc == 0) {
*ptr = 0;
return n - 1;
} else {
if (errno == EINTR)
goto again;
return -1;
}
}
*ptr = 0;
return n;
}
ssize_t readlinebuf (void **vptrptr)
{
if (read_cnt)
*vptrptr = read_ptr;
return read_cnt;
}

第4章 基本TCP套接字编程

  • socket

#include <sys/socket.h>

int socket (int family, int type, int protocol);

// returns: non-negative descriptor if OK, -1 on error

  • family: AF_INET (IPv4) 、AF_INET6 (IPv6) 、AF_LOCAL、AF_ROUTE、AF_KEY
  • type: SOCK_STREAM(字节流套接字)

SOCK_DGRAM

SOCK_SEQPACKET

SOCK_RAW

  • protocol: IPPROTO_TCP

​ IPPROTO_UDP

​ IPPROTO_SCTP

AF_ROIJTE  TCPISCTP  UDP  SCTP  IPv4  æ4-5 socket  AF_INEVI’E  TCP>CTP  UDP  SCTP  AE _KEY

  • connect

#include <sys/socket.h>

int connect (int sockfd, const struct sockaddr *seraddr, socklen_t addrlen);

​ // returns: 0 if ok, -1 on error

error : 1. the client reveives no response to its SYN segment, ETIMEDOUT is return.

​ \2. If the server’s response to the client’s SYN is a reset (RST), ECONNREFUSED is returned

\3. If the client’s SYN elicits an ICMP “destination unreachable” from some intermediate router, EHOSTUNREACH or ENETUNREACH is return.

  • bind

#include <sys/socket.h>

int bind (int sockfd, const struct sockaddr *myaddr, socklen_t addrlen);

// returns: 0 if OK, -1 on error

远程过程调用(remote procedure call, RPC)服务器

讲 程 指 定  IP 地 址  通 配 地 址  通 配 地 址  本 地 IP 地 址  本 地 伊 地 址  0  0  内 核 选 择 IP 地 址 和 端 凵  内 核 选 择 伊 地 址 · 讲 程 指 定 端 囗  进 程 指 定 叩 地 址 , 内 核 选 择 端 囗  进 程 指 定 IP 地 址 和 端 口  图 4 . 6 给 bind 函 数 指 定 要 捆 绑 的 伊 地 址 和 / 或 端 口 号 产 生 的 结 果

指定端口号为0,则内核生成的是链式端口。指定通配地址则套接字已连接才选择一个本地地址。

IPv4通用地址为 INADDR_ANY

struct sockaddr_in servaddr;

servaddr.sin_addr.s_addr = htonl (INADDR_ANY); /* wildcard */

IPv6的通用地址为 IN6ADDR_ANY_INIT

#include <netinet/in.h>

struct sockaddr_in6 serv;

serv.sin6_addr = htonl (in6addr_any); /* wildcard */

  • listen

#include <sys/socket.h>

int listen (int sockfd, int backlog);

一个监听套接字有两个队列:

  • incomplete connection queue: 到达服务器的每个SYN分节对应其中一项,正在等待完成三路握手,处于SYN_RCVD状态
  • completed connection queue: 已完成TCP三路握手过程的客户端对应其中一项,处于ESTABLISHED其中的一项

backog是相应套接字排队的最大连接个数,即两个队列之和。常设LISTENQ

服 务 器  两 队 列 之 和 不 超 。 k 」 四  已 完 成 连 接 队 列  ( ESTAB 凵 SHED 状 态 )  未 完 成 连 接 队 列  ( SYN_RCVD 状 态 )  到 达 的 SYN 分 节

客 户  conn “ 调 用  connecti@回  图 4 . 8  在 未 完 成 队 列 建 立 条 目  SYNK,ACKJ+I  ACKK+I  TCP  该 条 目 从 未 完 成 队  列 转 移 擎 己 完 成 队  列 , “ ce 戗 能 够 返 回  三 路 握 手 和 监 听 套 接 字 的 两 个 队 列

void Listen (fd, int backlog)

{

char *ptr;

if ((ptr = getenv(“LISTENQ”)) != NULL)

backlog = atoi(ptr);

if (listen (fd, backlog) < 0)

err_sys(“listen error”);

}

  • accept

#include <sys/socket.h>

int accept (int sockfd, struct sockaddr *cliaddr, socklen_t *addrlen);

​ //Returns: non-negative descriptor if OK, -1 on error

  • fork 和 exec 函数

#include <unistd.h>

pid_t fork(void);

// Returns: 0 in child, process ID of child in parent, -1 on error

子进程通过getppid获得父进程的进程ID

父进程调用fork之前的所有描述符在fork之后与子进程共享。父进程accept之后调用fork,子进程关闭监听描述符,接着读写这个已连接套接字;父进程必须关闭这个已连接套接字。

exec将当前进程映像替换成新的程序文件,并没有创建新进程,而且该新程序通常从main函数开始执行,进程ID不变。

#include <unistd.h>

int execl (const char *pathname, const char arg0, … / (char *) 0 */);

int execv (const char *pathname, char *const *argv[]);

int execle (const char *pathname, const char arg0, … / (char *) 0, char *char envp[] */ );

int execve (const char *pathname, char *const argv[], char *const envp[] );

int execlp (const char *filename, const char arg0, … / (char *) 0 */ };

int execvp (const char *filename, char *const argv[] );

// All six return: -1 on error, no return on success

每个文件和套接字都有一个引用计数,引用计数在文件表项中维护。

client  connection  connect ( )  server (palvnt)  listenfd  connfd  f ork  server (child)  list enfd  connfd

fork之后套接字相关联的文件表项各自的引用计数为2,父进程close不会发送FIN终止连接。

  • close

#include <unistd.h>

int close (int sockfd);

// Returns: 0 if OK, -1 on error

  • getsockname 返回与套接字关联的本地协议地址 getpeername 关联的外地协议地址

#include <sys/socket.h>

int getsockname (int sockfd, struct sockaddr *localaddr, socklen_t *addrlen);

int getpeername (int sockfd, struct sockaddr *peeraddr, socklen_t *addrlen);

// Both return: 0 if OK, -1 on error

这两个函数用于通配IP地址或端口设0,getsockname获得内核实际赋予的IP地址信息。

fork之后执行exec,套接字地址结构消失,getpeername获得对端IP地址信息。

Obviously the Telnet server in this final example must know the value of connfd when it starts. There are two common ways to do this. First, the process calling exec can format the descriptor number as a character string and pass it as a command-line argument to the newly execed program. Alternately, a convention can be established that a certain descriptor is always set to the connected socket before calling exec. The latter is what inetd does, always setting descriptors 0, 1, and 2 to be the connected socket.

第5章 TCP客户/服务器程序实例

客户和服务器启动时发生什么?客户正常终止时发生什么?若服务器进程在客户之前终止,则客户会发生什么?若服务器主机奔溃,则客户发生什么? 弄清网络层次发生什么以及它们如何反映到套接字API,理解层次的工作原理,并体会如何编写应用程序代码来处理这些情形。

stdin  stdout  fget s  TCP  client  Eputs  writen  readi ine  read  writen  TCP  server

  • #include <stdio.h>
1
2
3
4
5
6
7
8
char *fgets (char *str, int count, FILE *stream);
char *fgets (char *restrict str, int count, FILE *restrict stream);
// Reads at most count - 1 characters from the given file stream and stores them in the character array pointed to by str. 
The behavior is undefined if count is less than 1.
 
#include <cstdio>
int rc = std::fputs("Hello World", stdout);  
// Writes every character from the null-terminated string str to the output stream stream
  • 运行服务器后,启动客户之前,运行 netstat -a 检查服务器监听套接字的状态。

启动客户端,并指定服务器主机ip地址为环回地址127.0.0.1,三路握手。

客户接收三路握手的第二个分节时connect返回,服务器接收第三个分节才返回。

客户阻塞在fgets,因为并未键入文本行。服务器子进程阻塞在read,服务器父进程阻塞在accept。

1
2
netstat -a
ps -t pts/6 -o pid, ppid, tty, stat, args, wchan

The STAT column for all three of our network processes is “S,” meaning the process

is sleeping (waiting for something). When a process is asleep, the WCHAN column

specifies the condition. Linux prints wait_for_connect when a process is blocked in

either accept or connect, tcp_data_wait when a process is blocked on socket input

or output, or read_chan when a process is blocked on terminal I/O. The WCHAN

values for our three network processes therefore make sense.

  • ①键入EOF,fgets return nullptr, main通过exit终止。内核关闭客户端套接字。

②客户TCP发送FIN给服务器,服务器TCP则以ACK响应,服务器套接字处于CLOSE_WAIT状态,客户端套接字处于TIN_WAIT_2状态。

③服务器TCP接收FIN,服务器子进程阻塞readline,readline返回0,mian终止。服务器子进程exit终止。

④服务器到客户FIN,客户到服务器ACK,连接完全终止,客户端套接字处于TIME_WAIT状态。

  • typedef void Sigfunc(int);

Sigfunc *signal (int signo, Sigfunc *func)

{

struct sigactiona act, oact;

act.sa_handler = func;

sigemptyset(&act.sa_mask);

act.sa_flags = 0;

if (signo == SIGALRM) {

#ifdef SA_INTERRUPT

act.sa_flags |= SA_INTERRUPT; /* SunOs 4.x */

#endif

} else {

#ifdef SA_RESTART

act.sa_flags |= SA_RESTART; /* SVR4, 4.4BSD */

#endif

}

if (sigaction (signo, &act, &oact) < 0)

return SIG_ERR;

return oact.sa_handler;

}

SA_RESTART标志可选,设置乐由相应信号中断的系统调用由内核自动重启。

在listen调用之后增加 Signal (SIGCHILD, sig_chld);

void sig_chld (int signo)

{

pid_t pid;

int stat;

pid = wait(&stat);

printf (" child &d terminated\n", pid);

//Warning: Calling standard I/O functions such as printf in a signal handler is not //recommended,

return;

}

子进程终止后发送SIGCHILD,而父进程阻塞于accept调用,sig_chld函数执行,内核会使accept返回一个EINTR错误,于是终止,SA_RESTART标志能自动重启被中断的系统调用。

在accept调用值小于0的条件下,检查errno值是否等于EINTR,continue for循环,实现重启被中断。

  • #include <sys/wait.h>

pid_t wait (int *statloc);

pid_t waitpid (pid_t pid, int *statloc, int options);

// Both return: process ID if OK, 0 or -1 on error

都是用来处理已经终止的子进程,返回终止子进程的ID,以及statloc指针返回子进程终止状态。终止状态有WIFEXITED和WEXITSTATUS。

若进程仍在执行,则wait将阻塞到现有子进程第一个终止为止。

waitpid的第一个参数设为-1则等待第一个终止的子进程。options常用WNOHANG,则没有已终止子进程时不要阻塞。

在信号处理函数内,采用循环,用waitpid(=(-1, &state, WNOHANG)处理。 state是int,WNOHANG表示只要还有尚未终止的子进程在运行时,不要阻塞。

  • 当fork子进程时,必须捕获SIGCHILD信号(listen之后,整个循环之前)

  • 当捕获信号时,必须处理中断的系统调用(accept之后的判定EINTR)

  • SIGCHILD的信号处理函数必须被正确编写,应该使用waitpid函数以免留下僵死进程。

  • 子进程必须关闭listenfd,父进程必须关闭connfd

  • accept返回之前连接终止

三路握手完成从而连接建立之后,客户TCP却发送了一个RST(复位)。在服务器端,该连接已由TCP排队,等着服务器进程调用accept的时候RST到达。稍后,服务器进程调用accept。

errno: EPROTO、ECONNABORTED

  • 服务进程终止

客户端收到FIN,并响应ACK,却正阻塞在fgets上。运行netstat命令,可发现终止的前半部分完成。

客户端键入文本行,发送指服务器,服务器响应RST,然后客户端收不到RST,因为阻塞在readline。

出错信息 “Server terminated prematurely”。

需要依靠select和poll使得一旦杀死服务器子进程,客户就会立即被告知已收到FIN。

  • SIGPIPE信号

当一个进程向某个已收到RST的套接字执行写操作时,内核想该进程发送一个SIGPIPE信号。信号的默认行为是终止进程,因此进程必须捕获它以免不情愿地被终止。写操作都返回EPIPE错误。

  • 服务器主机崩溃

客户阻塞在readline调用上,ETIMEOUT错误,“destination unreadchable"的IGMP消息,所返回的错误是EHOSTUNREACH或ENETUNREACH。

为了尽快检测错误,对readline调用设置一个超时。

服务器主机崩溃后重启

客户阻塞在readline调用,返回ECONNRESET错误。

不主动发送数据也能检测是否奔溃,采用SO_KEEPALIVE套接字选项。

  • client  socket ( )  eonneet ( )  al  server’s  port num  TCP  datalink  client IP address  on muti  datalink  datalink

客户端来连接建立后getsockname获取内核指定的两个本地址值

img

服务器端bind通过指定为通配IP地址,建立连接后用getsockanme来确定本地IP地址。两个客户端地址值由accept调用返回给服务器。若另外一个程序调用accept服务器调用exec执行,getpeername来确定客户的IP地址和端口号。

  • 数据格式

第6章 I/O复用:select和poll函数

客户端需要同时处理两个输入:标准输入和TCP套接字。阻塞在标准输入时会收不到套接字的消息了。

IO复用的场合:

  • 客户处理多个描述符

  • 客户同时处理多个套接字

  • TCP服务器既要处理监听套接字又要处理已连接套接字

  • 一个服务器纪要处理TCP又要处理UDP

  • 一个服务器要处理多个服务或多个协议

  • I/O模型

    • 阻塞式I/O

![应 用 进 程 系 统 调 用 recvfrom 进 程 阻 塞 于 recvfrom 的 训 用 返 回 成 功 指 示 图 6 刁 阻 塞 式 ] ℃ 模 型 内 核 无 数 据 报 准 备 好 等 待 数 据 数 据 报 准 备 好 复 制 数 据 报 将 数 据 从 内 核 复 制 到 用 户 空 间 复 制 完 成 ]()

  • 非阻塞式I/O

进 程 反 复 调 用  r “ v 缸 “ 等 待  返 回 成 劝 指 示  ( 轮 询 )  应 用 遭 程  recvErcn  z-ecvfrm  处 理 数 撫 报  系 统 调 用  返 回 成 功 指 小  无 数 据 报 准 备 好  无 数 据 报 备 好  无 数 据 报 准 备 好  数 据 报 推 备 好  复 制 数 据 报  复 制 完 成  等 待 数 据  将 数 据 从 内  核 复 制 到 用  户 窄 间  6 . 2 非 限 式 耵 O 模 型

when an I/O operation that I request cannot be completed without putting the process to sleep, do not put the process to sleep, but return an error instead.

  • I/O复用

应 用 进 程  select  进 程 受 阻 于 select  调 用 等 待 可 能 多  个 套 接 字 中 的 任 一  个 变 为 可 读  数 据 复 制 到 应 用  冲 区 期 间 进 程 阻 塞  处 理 数 据 报  系 统 调 用  返 回 可 读 条 件  系 统 调 用  返 回 成 功 指 示  图 6 . 3 1/O 复 用 模 型  内 核  无 数 据 报 准 备 好  等 待 数 据  数 据 报 准 各 好  复 制 数 据 报  将 数 据 从 内  核 复 制 到 用  户 空 间  复 制 完 成

调用select或poll,阻塞在这两个系统调用中的某一个上,而不是阻塞在真正的I/O系统调用之上。等数据报套接字变为可读,select返回套接字之后recvfrom调用并复制。

  • 信号驱动式I/O

应 用 进 程  建 立 SIGTO 的  信 号 处 理 程 序  进 程 继 续 执 行  数 据 复 制 到 应 用 缓  冲 区 期 间 进 程 阻 塞  处 理 数 据 报  s 地 茈 “ on 系 统 训 用  返 回  递 交 s 还 10  系 统 调 用  返 回 成 功 指 示  图 6 . 4 信 号 驱 动 式 I ℃ 模 型  内 柩  等 待 数 据  数 据 报 准 各 好  复 制 数 据 报  将 数 据 从 内  核 复 制 到 用  户 空 间  复 制 完 成

让内核在描述符就绪时发送SIGIO信号通知,之后进程捕获信号进行IO处理

  • 异步I/O

Machine generated alternative text: i ead  a io_readrtl

异步I/O函数告知内核处理操作,在完成之后通知进程。

  • 各种I/O模型的比较

    • 同步I/O操作导致进程阻塞,知道I/O操作完成。
    • 异步I/O操作不导致进程阻塞

Machine generated alternative text: I/OZHI  46-6

  • select

允许进程指示内核等待多个事件中的任何一个发生,并只在有一个或多个时间发生或经历一段指定的时间后才唤醒它。

1
2
3
4
5
#include <sys/select.h>
#include <sys/time.h>
int select (int maxfdp1, fd_set *readset, fd_set *writeset, fd_set *exceptset,
const struct timeval *timeout);
//Returns: positive count of ready descriptors, 0 on timeout, –1 on error

maxfdp1指定待测试的描述符个数,值是待测试的最大描述符加1,因为描述符从0开始的。

1
2
3
4
void FD_ZERO(fd_set *fdset); /* clear all bits in fdset */
void FD_SET(int fd, fd_set *fdset); /* turn on the bit for fd in fdset */
void FD_CLR(int fd, fd_set *fdset); /* turn off the bit for fd in fdset */
int FD_ISSET(int fd, fd_set *fdset); /* is the bit for fd on in fdset ? */

readset, writeset, exceptset对某个条件不感兴趣,就可以设空指针。

1
2
3
4
struct timeval {
long tv_sec;        /* seconds */
long tv_usec;       /* microseconds */
};

①永远等待 timeout设为空指针 ② 一段规定时间 ③ 不等待,两个值设为0

每次调用select之前都得对timeval结构进行初始化

readset, writeset, exceptset都是值-结果参数。函数返回后未就绪的描述符被置为0,用FD_ISET测试。

重新调用select之前都要再次把所有描述符置为1.

Figmæ 6.7. Summary of conditions that cause a socket to be ready for select.  Condi tion  Data to read  Read half of the connection closed  New connection ready for listening socket  Space available for writing  Write half of the connection clcxsc•d  Pending error  TCP out-of-band data  Readable ?  Wri table?  Excep tion ?

FD_SETSIZE定义了最大描述符数。poll可以避免描述符有限的问题。

  • shutdown

close函数终止网络链接的限制:

  • close把描述符的引用减1,仅在计数为0时才关闭套接字。shutdown不管引用计数,直接终止连接
  • close终止读和写两个方向的数据传送。shutdown可以半关闭。

#include <sys/socket.h>

int shutdown (int sockfd, int howto);

// return: 0 if OK, -1 on error

howto:

  • SHUT_RD 关闭连接的读这一半,而且套接字接收缓冲区的现有数据都被丢弃。

  • SHUT_WR 关闭连接的写这一半,当前留在套接字发送缓冲区的数据将被发送掉,后跟TCP终止序列

  • SHUT_RDWR 连接的读和写都关闭。

  • fileno(fp)将标准I/O文件指针fp转换为对应的描述符。计算出两个描述符的较大值加1就是maxfdp1.

使用半关闭,并针对缓冲区操作,从而消除还有数据正在发送途中的复杂问题。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
void str_cli(FILE *fp, int sockfd)
{
int maxfdp1, stdineof;
fd_set rset;
char buf[MAXLINE];
int n;
stdineof = 0;
FD_ZERO(&rset);
for ( ; ; ) {
if (stdineof == 0)
FD_SET(fileno(fp), &rset);
FD_SET(sockfd, &rset);
maxfdp1 = max(fileno(fp), sockfd) + 1;
Select(maxfdp1, &rset, NULL, NULL, NULL);
if (FD_ISSET(sockfd, &rset)) { /* socket is readable */
if ( (n = Read(sockfd, buf, MAXLINE)) == 0) {
if (stdineof == 1)
return; /* normal termination */
else
err_quit("str_cli: server terminated prematurely");
}
Write(fileno(stdout), buf, n);
}
if (FD_ISSET(fileno(fp), &rset)) { /* input is readable */
if ( (n = Read(fileno(fp), buf, MAXLINE)) == 0) {
stdineof = 1;
Shutdown(sockfd, SHUT_WR); /* send FIN */
FD_CLR(fileno(fp), &rset);
continue;
}
Writen(sockfd, buf, n);
}
}
}
  • 把服务器重写成使用select来处理人一个客户的单进程程序,而不是每个客户派生一个子进程。
1
2
服务器有个描述符集,在前台启动则描述符0、1、2分别被置为标准输入、标准输出、标准错误。
服务器端还有个已连接描述符的整形数组,都被初始化为-1.

Figmæ 6.17. Data structures after first client connection is established.  fd0 fd2 id3 fd4  roet  (E_SETSZZE-II

Figmæ 6.19. Data structures after second client connection is established.  fdO fdl fd2 fd3 fd4 fd5  (FD_SETSIZE-I)

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
当第一个连接断开后,maxfd的值并没有改变。maxfd + 1是select第一个参数的值
int mian(int argc, char **argv)
{
int i, maxi, maxfd, listenfd, connfd, sockfd;
int nready, client[FD_SETSIZE];
ssize_t n;
fd_set rset, allset;
char buf[MAXLINE];
socklen_t client;
struct sockaddr_in cliaddr, servaddr;
 
listenfd = Socket(AF_INET, SOCK_STREAM, 0);
 
bzero(&servaddr, sizeof(servaddr));
servaddr.sin_family = AF_INET;
servaddr.sin_addr.s_addr = htonl(INADDR_ANY);
servaddr.sin_port = htons(SERV_PORT);
 
Bind(listenfd, (SA *) &servaddr, sizeof(servaddr));
 
Listen (listenfd, LISTENQ);
 
maxfd = listenfd;
maxi = -1;
for (i = 0; i < FD_SETSIZE; i++)
client[i] = -1;
FD_ZERO(&allset);
FD_SET(listenfd, &allset);
 
for ( ; ; ) {
rset = allset;
nready = Select (maxfd+1, &rset, NULL, NULL, NULL);
 
if (FD_ISSET(listenfd, &rset)) {  /*new client connection*/
clilen = sizeof(cliaddr);
confd = Accept(listenfd, (SA *) &cliaddr, &clilen);
 
for (i = 0; i < FD_SETSIZE; i++)
if (client[i] < 0) {
client[i] = connfd;  /* save descriptor */
break;
}
if (i == FD_SETSIZE)
err_quit ("too many clients");
 
FD_SET(connfd, &allset); /*add new descriptor to set*/
if (connfd > maxfd)
maxfd = connfd;      /* for select */
if (i > maxi)
maxi = i;     /* max index in client[] array */
 
if (-- nready == 0)
continue;    /* no more readable descriptors */
}
 
for (i = 0; i <= maxi; i++) { /* check all clients for data */
if ((sockfd = client[i] < 0)
continue;
if (FD_ISSET(sockfd, &rset)) {
if ((n = Read (scokfd, buf, MAXLINE)) == 0) {
/* connection closed by client */
Close(sockfd);
FD_CLR(sockfd, &allset);
client[i] = -1;
} else 
Writen(sockfd, buf, n);
if (--nready <= 0)
break;   /* mo more readable descriptors */
}
}
}
}
存在的问题:阻塞于只与单个客户相关的某个函数调用,会导致服务器被挂起。
  • 采用非阻塞式I/O
  • 让每个客户由单独的控制线程提供服务。
  • 对I/O设置一个超时。
1
 
  • pselect
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
#include <sys/select.h>
#include <signal.h>
#include <time.h>
int pselect (int maxfdp1, fd_set *readset, fd_set *writeset, fd_set *exceptset, 
const struct timespec *timeout, const sigset_t *sigmask);
struct timespec {
time_t tv_sec;      /* seconds */
long tv_nsec;      /* nanoseconds */
};
 
  • poll
1
2
3
4
#include <poll.h>
int poll (struct pollfd *fdarray, unsigned long nfds, int timeout);
  // Returns: count of ready descriptors, 0 on timeout, –1 on error
 

poll提供的功能于select类似,不过在处理流设备时,它能够提供额外的信息。

poll识别三类数据:普通、优先级带、高优先级

1
2
3
4
5
6
7
 
struct pollfd {
int fd;             /* descriptor to check */
short events;        /* events of interest on fd */
short revents;       /* events that occured on fd */
};
要测试的条件由events成员指定,函数在相应的revents成员中返回该描述符的状态。从而避免像select一样三个参数的都是值-结果参数。

常  債  POLLRINORM  POLLR.DBAND  POLLPRI  昼 〕 L 以 NOF  POLLERR  K)LLHUP  FOLGNVAL  图 6 一 23 列 出 了 用 于 指 定 even 匕 s 标 志 以 及 测 试 reve 吡 s 标 志 的 一 些 常 值 。  作 为 e 肱 的 输 入 吗 ? 作 为 “ “ 的 结 果 吗 ?  普 通 或 优 先 级 带 数 据 可 读  普 通 数 据 可 读  优 先 级 带 数 据 可 读  高 优 先 级 数 据 可 读  普 通 数 据 可 写  普 通 数 据 可 写  优 先 级 带 数 据 可 与  发 生 错 误  发 生 挂 起  描 述 符 不 是 一 个 打 开 的 文 件  图 6 一 23  p 。 11 函 数 的 输 入 “ e , 豳 和 返 回 ’ “ “

1
2
POLLRDNORM
nfds指定结构数组中元素的个数。

m “ 值  0  图 卜 24  永 远 等 待  立 即 返 回 , 不 阻 塞 进 程  等 待 指 定 数 目 的 臺 桫 数  p 。 11 的 直 忉 “ “ 碜 数 值

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
当不关心某个特定描述符,可以把对应的pollfd结构的fd成员设置为一个负值,poll函数将忽略这样的pollfd结构的events成员,返回时设置revents成员为0。
int main(int argc, char **argv)
{
int i, maxi, listenfd, connfd, sockfd;
int nready;
ssize_t n;
char buf[MAXLINE];
socklen_t clilen;
struct pollfd client[OPEN_MAX];
struct sockaddr_in cliaddr, servaddr;
 
listenfd = Socket(AF_INET, SOCK_STREAM, 0);
 
bzero(&servaddr, sizeof(servaddr));
servaddr.sin_family = AF_INET;
servaddr.sin_addr.s_addr = htonl(INADDR_ANY);
servaddr.sin_port = htons(SERV_PORT);
 
Bind(listenfd, (SA *) &servaddr, sizeof(servaddr));
 
Listen(listenfd, LISTENQ);
 
client[0].fd = listenfd;
client[0].events = POLLRDNORM;
for (i = 1; i < OPEN_MAX; i++)
client[i].fd = -1; /* -1 indicates available entry */
maxi = 0; /* max index into client[] array */
for ( ; ; ) {

//wait for either a new connection or data on existing connection

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
nready = Poll(client, maxi + 1, INFTIM);
// since client[0] is used for the listening socket.
if (client[0].revents & POLLRDNORM) { /* new client connection */
clilen = sizeof(cliaddr);
connfd = Accept(listenfd, (SA *) &cliaddr, &clilen);
 
for (i = 1; i < OPEN_MAX; i++)
if (client[i].fd < 0) {
client[i].fd = connfd; /* save descriptor */
break;
}
if (i == OPEN_MAX)
err_quit("too many clients");
client[i].events = POLLRDNORM;
if (i > maxi)
maxi = i; /* max index in client[] array */
if (--nready <= 0)
continue; /* no more readable descriptors */
}
for (i = 1; i <= maxi; i++) { /* check all clients for data */
if ( (sockfd = client[i].fd) < 0)
continue;
if (client[i].revents & (POLLRDNORM | POLLERR)) {
if ( (n = read(sockfd, buf, MAXLINE)) < 0) {
if (errno == ECONNRESET) {
/* connection reset by client */
Close(sockfd);
client[i].fd = -1;
} else
err_sys("read error");
} else if (n == 0) {
/* connection closed by client */
Close(sockfd);
client[i].fd = -1;
} else
Writen(sockfd, buf, n);
if (--nready <= 0)
break;     /* no more readable descriptors */
}
}
}
}
 
  • epoll

The epoll API can be used either as an edge-triggered or a level-triggered interface and scales well to large numbers of watched file descriptors.

1
2
3
4
5
6
7
8
 
#include <sys/epoll.h>
int epoll_create(int size);
//returns a file descriptor referring to the new epoll instance. 
//the file descriptor should be closed by using close().
 
int epoll_ctl(int epfd, int op, in fd, struct epoll_event *event);
       // return: 0 if OK, -1 on error

将要交由内核管控的文件描述符加入epoll对象并设置触发条件。

valid values for the op argument:

  • EPOLL_CTL_ADD:

Register the target file descriptor fd on the epoll instance epfd and associate the event event with the internal file linked to fd.

  • EPOLL_CTL_MOD

Change the event event associated with the target file descriptor fd.

  • EPOLL_CTL_DEL

Remove (deregister) the target file descriptor fd from the epoll instance referred to by epfd. The event is ignored and can be NULL (but see BUGS below).

The struct epoll_event is defined as:

typedef union epoll_data {

void *ptr;

int fd;

uint32_t u32;

uint64_t u64;

} epoll_data_t;

struct epoll_event {

uint32_t events; /* Epoll events */

epoll_data_t data; /* User data variable */

};

available event types:

EPOLLIN :The associated file is available for read operations.

EPOLLOUT:The associated file is available for write(2) operations.

EPOLLPRI:对应的文件描述符有紧急的数据可读(这里应该表示有带外数据到来);

EPOLLERR: Error condition happened on the associated file descriptor.

EPOLLHUP:Hang up happened on the associated file descriptor.

EPOLLET: 将EPOLL设为边缘触发(Edge Triggered)模式,这是相对于水平触发(Level Triggered)来说的。

EPOLLONESHOT:只监听一次事件,当监听完这次事件之后,如果还需要继续监听这个socket的话,需要再次把这个socket加入到EPOLL队列里

1
2
3
int epoll_wait(int epfd, struct epoll_event *events, int maxevents, 
int timeout);
// wait for an I/O event on an epoll file descriptor

//returns the number of file descriptors ready for the requested I/O, or zero if no file descriptor, -1 on error.

1
 

The struct epoll_event is defined as:

typedef union epoll_data {

void *ptr;

int fd;

uint32_t u32;

uint64_t u64;

} epoll_data_t;

struct epoll_event {

uint32_t events; /* Epoll events */

epoll_data_t data; /* User data variable */

};

The data of each returned structure will contain the same data the user set with an epoll_ctl (EPOLL_CTL_ADD, EPOLL_CTL_MOD) while the events member will contain the returned event bit field.

While the usage of epoll when employed as a level-triggered interface does have the same semantics as poll(2), the edge-triggered usage requires more clarification to avoid stalls in the application event loop.

#define MAX_EVENTS 10 struct epoll_event ev, events[MAX_EVENTS]; int listen_sock, conn_sock, nfds, epollfd;

/* Code to set up listening socket, ’listen_sock’, (socket(), bind(), listen()) omitted */

epollfd = epoll_create1(0); if (epollfd == -1) {

perror(“epoll_create1”);

exit(EXIT_FAILURE);

}

ev.events = EPOLLIN;

ev.data.fd = listen_sock;

if (epoll_ctl(epollfd, EPOLL_CTL_ADD, listen_sock, &ev) == -1) {

perror(“epoll_ctl: listen_sock”);

exit(EXIT_FAILURE);

}

for (;;) {

​ nfds = epoll_wait(epollfd, events, MAX_EVENTS, -1);

if (nfds == -1) {

​ perror(“epoll_wait”);

​ exit(EXIT_FAILURE);

​ }

for (n = 0; n < nfds; ++n) {

if (events[n].data.fd == listen_sock) {

​ conn_sock = accept(listen_sock,

​ (struct sockaddr *) &addr, &addrlen);

if (conn_sock == -1) {

perror(“accept”);

exit(EXIT_FAILURE);

}

setnonblocking(conn_sock);

ev.events = EPOLLIN | EPOLLET;

ev.data.fd = conn_sock;

if (epoll_ctl(epollfd, EPOLL_CTL_ADD, conn_sock,

&ev) == -1) {

perror(“epoll_ctl: conn_sock”);

exit(EXIT_FAILURE);

}

} else {

do_use_fd(events[n].data.fd);

}

}

}

When used as an edge-triggered interface, for performance reasons, it is possible to add the file descriptor inside the epoll interface (EPOLL_CTL_ADD) once by specifying (EPOLLIN|EPOLLOUT). This allows you to avoid continuously switching between EPOLLIN and EPOLLOUT calling epoll_ctl with EPOLL_CTL_MOD.

EPOLL****事件的两种模型:

Level Triggered (LT) 水平触发

.socket接收缓冲区不为空 有数据可读 读事件一直触发

.socket发送缓冲区不满 可以继续写入数据 写事件一直触发

符合思维习惯,epoll_wait返回的事件就是socket的状态

Edge Triggered (ET) 边沿触发

.socket的接收缓冲区状态变化时触发读事件,即空的接收缓冲区刚接收到数据时触发读事件

.socket的发送缓冲区状态变化时触发写事件,即满的缓冲区刚空出空间时触发读事件

仅在状态变化时触发事件

ET还是LT?

LT的处理过程:

. accept一个连接,添加到epoll中监听EPOLLIN事件

. 当EPOLLIN事件到达时,read fd中的数据并处理

. 当需要写出数据时,把数据write到fd中;如果数据较大,无法一次性写出,那么在epoll中监听EPOLLOUT事件

. 当EPOLLOUT事件到达时,继续把数据write到fd中;如果数据写出完毕,那么在epoll中关闭EPOLLOUT事件

ET的处理过程:

. accept一个一个连接,添加到epoll中监听EPOLLIN|EPOLLOUT事件

. 当EPOLLIN事件到达时,read fd中的数据并处理,read需要一直读,直到返回EAGAIN为止

. 当需要写出数据时,把数据write到fd中,直到数据全部写完,或者write返回EAGAIN

. 当EPOLLOUT事件到达时,继续把数据write到fd中,直到数据全部写完,或者write返回EAGAIN

从ET的处理过程中可以看到,ET的要求是需要一直读写,直到返回EAGAIN,否则就会遗漏事件。而LT的处理过程中,直到返回EAGAIN不是硬性要求,但通常的处理过程都会读写直到返回EAGAIN,但LT比ET多了一个开关EPOLLOUT事件的步骤

LT的编程与poll/select接近,符合一直以来的习惯,不易出错

ET的编程可以做到更加简洁,某些场景下更加高效,但另一方面容易遗漏事件,容易产生bug

例子与测试

这里有两个简单的例子演示了LT与ET的用法(其中epoll-et的代码比epoll要少10行):

https://github.com/yedf/handy/blob/master/raw-examples/epoll.cc

https://github.com/yedf/handy/blob/master/raw-examples/epoll-et.cc

对于nginx这种高性能服务器,ET模式是很好的,而其他的通用网络库,很多是使用LT,避免使用的过程中出现bug

LT(Level Triggered,水平触发) 和 ET(Edge Triggered,边沿触发)

作者当年花费了九牛二虎之力也没能领悟这段“经文”。后来一个偶然的机会, 一个做电子设计的朋友给我讲明白了其中的道道。

为了弄明白LT(Level Triggered,水平触发) 和 ET(Edge Triggered,边沿触发), 我们先要了解,这个Level和Edge是什么涵义,Level翻译成中文这里准确的涵义应该是电平; Edge是边沿。

这两个词曾经是电子信号领域的一个专有名词。如果,用时序图来标示一个数字电信号“010”, 应该是类似下图所示:

img

  • 低电平表示0。
  • 高电平表示1。
  • 0向1变化的竖线就是上升沿。
  • 1向0变化的竖线就是下降沿。
  • 在0或者1的情况下触发的信号就是LT(Level Triggered,水平触发)
  • 在0向1、1向0变化的过程中触发的信号就是 和 ET(Edge Triggered,边沿触发)

0或1都是一个状态,而0向1、1向0变化则只是一个事件。

我们很直观的就可以得出结论,LT是一个持续的状态,ET是个事件性的一次性状态。

二者的差异在于Level Triggered模式下只要某个socket处于readable/writable状态, 无论什么时候进行epoll_wait都会返回该socket;

而Edge Triggered模式下只有某个socket从unreadable变为readable或 从unwritable变为writable时,epoll_wait才会返回该socket。

虽然有很多资料表明ET模式的销量会比LT稍高, 但ET模式的编程由于事件只通知一次,很容易犯错误导致程序假死,我们推荐epoll工作于LT模式。 除非你很清楚你选择的是什么。

第7章 套接字选项

第8章 基本UDP套接字编程

第11章 名字与地质转换

第14章 高级I/O函数

第15章 Unix域协议

第16章 非阻塞式I/O

第26章 线程

第30章 客户/服务器程序设计范式

Reference