1 概述

netfliter框架不仅仅在ipv4中有应用，bridge，ipv4，ipv6，decnet 这四种协议中都有应用，其中ipv4中又分开了arp和ip的两种

其实netfliter是个大的框架，在ipv4中对应的应用层工具是iptables，在bridge中对应的应用层工具是ebtables，在arp中对应的应用层工具是arptables

iptables 中有raw，filter，nat，mangle，security，5个table，

ebtables 中有broute，filter，nat，3个table，

arptables 中有filter，1个table

具体的可以查看源码目录linux/net/目录下的ipv4，ipv6，decnet，bridge目录下的netfilter

2 一些概念

2.1 三层hook函数的优先级

enum nf_ip_hook_priorities {

NF_IP_PRI_FIRST = INT_MIN,

NF_IP_PRI_CONNTRACK_DEFRAG = -400,

NF_IP_PRI_RAW = -300,

NF_IP_PRI_SELINUX_FIRST = -225,

NF_IP_PRI_CONNTRACK = -200,

NF_IP_PRI_MANGLE = -150,

NF_IP_PRI_NAT_DST = -100,

NF_IP_PRI_FILTER = 0,

NF_IP_PRI_SECURITY = 50,

NF_IP_PRI_NAT_SRC = 100,

NF_IP_PRI_SELINUX_LAST = 225,

NF_IP_PRI_CONNTRACK_HELPER = 300,

NF_IP_PRI_CONNTRACK_CONFIRM = INT_MAX,

NF_IP_PRI_LAST = INT_MAX,

};

2.2 二层hook 函数的优先级

enum nf_br_hook_priorities {

NF_BR_PRI_FIRST = INT_MIN,

NF_BR_PRI_NAT_DST_BRIDGED = -300,

NF_BR_PRI_FILTER_BRIDGED = -200,

NF_BR_PRI_BRNF = 0,

NF_BR_PRI_NAT_DST_OTHER = 100,

NF_BR_PRI_FILTER_OTHER = 200,

NF_BR_PRI_NAT_SRC = 300,

NF_BR_PRI_LAST = INT_MAX,

}

2.3 hook点，hooknum，hook函数

三层(ip)有5个hooknum，分别是pre_routing，local_in,forward,local_out,post_routing

二层(bridge)有6个hooknum，分别是

pre_routing,local_in,forward,local_out,post_routing,brouting,

在头文件./uapi/linux/netfilter_bridge.h ./uapi/linux/netfilter_ipv4.h 可看到

linux/net/netfilter 是整个netfilter框架的代码，不同的协议下面的netfilter是调用的代码

hook函数，就是我们自定义的那些函数，函数优先级，数值越大的，优先级越小

一个hook点是由协议和hooknum两者决定的，nf_hooks[pf][hooknum]，因此，协议不一样，hooknum一样也是不一样的hook点的，ipv4的协议是NFPROTO_INET，bridge的协议是NFPROTO_BRIDGE，而只有同一个hook点的函数才会有优先级的问题。因此，在正常情况下，同一个数据包在某一层中只会遍历某一种协议的hook点，是一个水平分层的问题，虽然都注册在netfilter框架下，可是协议决定了这是一个水平的流程。当数据包上到另外一层那就是另外一层的水平。

但是有一些地方在三层的改变会影响二层的结构的，比如像ip-DNAT的，改变了三层的daddr，那么对应的二层的dmac地址也是会跟着改变的，那么这个应该在routing之前还是应该在brigding之前做呢？按道理虽然改的是三层的内容，但是这个应该在brigding之前做的，这样在二层选择出口的时候，才不会错。所以其实二层中有些地方是有穿插三层的hook点的调用的，所以整个结构看起来才会不那么清晰(后面的函数分析会证实这个想法)

hooknum 和pf 决定了hook点，hook点上面有hook函数，根据优先级来进行hook函数的调用。

NF_HOOK 这个宏就是遍历给定的hook点(nf_hooks[pf][hooknum])上面的所有hook函数

在整个网络协议栈(包括二层的)上面的不同位置的NF_HOOK的作用就是遍历不同的hook点上hook函数，这就是netfilter做的事情

3 数据包在网桥的流转

3.1 接收入口函数

netif_rx

netif_receive_skb(skb)-->netif_receive_skb_internal()->__netif_receive_skb()-> __netif_receive_skb_core()

netif_rx 是上层处理函数中最接近驱动层的函数，往queue里面放skb

netif_receive_skb 是最接近上层处理函数的入口函数，在软中断中执行，在queue中取完skb后的处理函数

netif_rx 和netif_receive_skb的关系还没有搞的很明白，两者没有明显的调用关系，在驱动中两者都有调用，

__netif_receive_skb_core 是真正处理skb的函数，到底接着数据包是怎么走的，在这里判断的

对于网桥的数据包，就是rx_handler = br_handle_frame,在调用这个函数之前已经调用了skb_vlan_untag把二层头包含vlan信息的部分去掉，

并且把vlan信息记录在skb->vlan_proto（协议）,和skb->vlan_tci(优先级和id)

即bridge的入口函数是br_handle_frame，在br_input.c

br_handle_frame 主要有两个分支有NF_HOOK的调用的，如下：

|---link-local---- NF_HOOK(NFPROTO_BRIDGE,NF_BR_LOCAL_IN,..,br_handle_local_finish)
|---forward-- NF_HOOK(NFPROTO_BRIDGE, NF_BR_PRE_ROUTING, ...,br_handle_frame_finish)

link-local ：dmac是本地链路地址。至于什么是本地链路地址，可以google，只知道在ipv6中(fe80)用得比较多，其他没什么了解

br_handle_frame_finish 这个函数对数据包的dmac进行判断，然后走不同的处理函数.

dmac 的不同的，处理方式不同：

A.bridge it，如果dmac是在网桥的别的端口，复制一份帧到dmac所在的端口 ---->br_forward

B.flood it over all the forwarding bridge ports，如果dmac地址是网桥不知道的，就泛洪 ---->br_flood_forward

C.pass it to the higher protocol code，如果dmac是网桥的，或者网桥其中一个端口的 ---->br_pass_frame_up

D.ignore it，dmac在进来的端口的这一边的，即dmac能在进来端口的mac地址表中找到 ---->br_forward

3.2 转发

br_forward，通过should_deliver()来进行判断，是否真的需要__br_forward 还是 ignore it,

__br_forward->NF_HOOK(NFPROTO_BRIDGE, NF_BR_FORWARD, ... skb->dev,br_forward_finish) ,

__br_forward 函数改变了skb->dev

br_forward_finish->NF_HOOK(NFPROTO_BRIDGE,NF_BR_POST_ROUTING,skb,NULL,skb->dev,br_dev_queue_push_xmit);

br_dev_queue_push_xmit->dev_queue_xmit

br_flood_forward->br_flood(br, skb, skb2, __br_forward, unicast)->__br_forward

same as __br_forward

3.3 local_in

br_pass_frame_up->NF_HOOK(NFPROTO_BRIDGE, NF_BR_LOCAL_IN, skb, indev,NULL,netif_receive_skb)

3.4 发送入口函数

对于二层以上的层，只有网桥这个接口，没有其绑定的ethx了(通过路由表可知)，网桥的发送函数是br_dev_xmit

在br_dev_xmit 也会根据dmac判断是进行br_multicast_deliver，br_deliver,

还是br_flood_delver,但是最后调用都是__br_deliver

__br_deliver-> NF_HOOK(NFPROTO_BRIDGE, NF_BR_LOCAL_OUT, skb, NULL,skb->dev,br_forward_finish)

br_forward_finish->NF_HOOK(NFPROTO_BRIDGE,NF_BR_POST_ROUTING,skb,NULL,skb->dev,br_dev_queue_push_xmit);

br_dev_queue_push_xmit->dev_queue_xmit

3.5 结论

根据上面的分析，通过网桥进来的数据包会经过的hook点跟在三层的是一样的

本地的会经过pre_routing 和local_in, 转发的会经过pre_routing，forward，post_routing ,
而本地出去的会经过local_out,post_routing

4 二层调用三层的hook函数的实现

4.1 NF_HOOK 和NF_HOOK_THRESH的区别

NF_HOOK 封装了NF_HOOK_THRESH ，是特殊的NF_HOOK_THRESH，是从优先级最高的hook函数开始的

NF_HOOK_THRESH，

static inline int NF_HOOK｛

return NF_HOOK_THRESH(pf, hook, skb, in, out, okfn, INT_MIN)

｝

4.2 br_netfilter.c分析

二层hook点中调用三层的hook的实现主要在linux/net/bridge/br_netfilter.c ，这个函数注册了7个hook函数，其中5个是NFPROTO_BRIDGE协议的，2个分别是NFPROTO_IPV4，NFPROTO_IPV6的

NFPROTO_BRIDGE的5个函数分别是br_nf_pre_routing,br_nf_local_in,br_nf_forward_ip,

br_nf_forward_arp,br_nf_post_routing的，br_nf_forward_ip 优先级是 -1，其他优先级都是0，

NFPROTO_IPV4/6 的两个都是在pre_routing hook点，优先级是first,hook函数都是ip_sabotage_in,这个函数的作用就是防止多次调用三层pre_routing hook点的hook函数

因此目前看到的在NFPROTO_BRIDGE协议下系统注册了的钩子函数的顺序如下：

pre_routing ebt_nat_in(dnat)->br_nf_pre_routing

local_in ebt_in_hook(filter)->br_nf_local_in

forward ebt_in_hook(filter)->br_nf_forward_ip->br_nf_forward_arp

local_out ebt_nat_out(dnat_other)->ebt_out_hook(filter_other)

post_routing ebt_nat_out(snat)->br_nf_post_routing(last)

(1). br_nf_pre_routing->NF_HOOK(NFPROTO_IPV4, NF_INET_PRE_ROUTING, skb, skb->dev,NULL,br_nf_pre_routing_finish)

br_nf_pre_routing_finish->NF_HOOK_THRESH(NFPROTO_BRIDGE, NF_BR_PRE_ROUTING, skb,skb->dev, NULL,br_handle_frame_finish, 1);

到br_handle_frame_finish 就走完了pre_routing的钩子了，其实NF_HOOK_THRESH 就是为了走完pre_routing 优先级大于1的钩子函数

正常的数据包走br_hadnle_frame 进来调用了一次NF_HOOK ，执行NFPROTO_BRIDGE的pre_routing的hook点中的hook函数，当执行到 br_nf_pre_routing这个钩子函数的时候，会先去调用一次三层的pre_routing的所有hook函数，然后再回到br_nf_pre_routing_finish

因为在br_nf_pre_routing 中返回值是NF_STOLEN，所以在br_handle_frame调用的

NF_HOOK(NFPROTO_BRIDGE, NF_BR_PRE_ROUTING, ...,br_handle_frame_finish),

到br_nf_pre_routing 就结束了，所以会有在br_nf_pre_routing_finish->NF_HOOK_THRESH()的过程，是为了重新接上pre_routing 后面的hook函数

有了这个函数br_nf_pre_routing，就可以对只经过二层的数据包做三层的dnat，

(2).br_nf_local_in->nothing ,

(3).br_nf_forward_ip->NF_HOOK(pf, NF_INET_FORWARD, skb, brnf_get_logical_dev(skb, in),parent,br_nf_forward_finish),pf=INET/INET6

bf_nf_forward_finish->NF_HOOK_THRESH(NFPROTO_BRIDGE,NF_BR_FORWARD,skb, in,skb->dev, br_forward_finish, 1);

这里主要是经过了3层的forward hook点，就是经过二层走的数据包可以在三层的forward链做过滤，主要是结合physdev模块做indev和outdev的过滤。继续NF_HOOK_THRESH的时候，会走到优先级是1的hook函数那里，跳过了br_nf_forward_arp，因为一个skb->protocol,只能是一种，不可能既是ip，也是arp，既然在br_nf_forward_ip中能走到br_nf_forward_finish就证明这是个ip包了，如果不是ip包，在一开始就会返回NF_ACCEPT,让其继续走原来的遍历顺序

br_nf_forward_arp->NF_HOOK(NFPROTO_ARP,NF_ARP_FORWARD,skb, (struct net_device*)in,(struct net_device *)out,br_nf_forward_finish);

这个就在ARP的forward链上做过滤

注意两个NF_HOOK中传进去的indev和outdev 的区别，不一样的

(4).br_nf_post_routing->NF_HOOK(pf, NF_INET_POST_ROUTING, skb, NULL,realoutdev,br_nf_dev_queue_xmit)

注意br_nf_post_routing 的优先级是last,

在post_routing中也先判断，数据包是否是经过bridge的了，如果是从

ip/local_out->bridge/local_out,或者直接bridge/local_out的数据包都没有必要再经过一次ip/post_routing，即只有经过bridge转发的包，
才需要经过ip/post_routing

4.3 防止多次调用三层hook点的hook函数

ip_sabotage_in 在NFPROTO_IPV4/6的pre_routing 的first，如果是从网桥上来到三层的数据包，其实三层的pre_routing已经做过了，这个函数

就是控制如果是从网桥上来的数据包就返回NF_STOP ，停止这个hook点的后续hook函数的检查，并且接受数据包（防止两次走过三层的pre_routing），如果不是从网桥上来的包，就返回NF_ACCEP ，继续做这个hook点的hook函数的检查的

根据4.2 可知，在二层只有pre_routing,forward,post_routing 三个hook点会调用到三层对应hook点的hook函数，而只有经过
bridge/pre_routing->bridge/local_in->ip/pre_routing这样路径进来的数据包才需要在ip/pre_routing的位置判断是否是网桥上来的包，如果是网桥上来的就不再需要遍历这个hook点剩下的hook函数了.其他的路径，都不可能同时经过二层和三层的同一个hook点，

所以只需要在ip/pre_routing的first的位置注册ip_sabotage_in，就可以了，ip/forward,ip/post_routing 都不需要

5 brouting hook点

brouting的调用不是通过NF_HOOK 这种传统的方式来进行的，而且系统没有通过nf_register_hooks 这种方式注册对应的hook函数，

只是把一个函数赋值给了一个在br_input.c 中定义的br_should_route_hook_t

*br_should_route_hook 这个变量

然后通过这个变量来进行函数的调用，真正的函数是net/bridge/netfilter/ebtable_broute.c 中的ebt_broute

ebtable 有三个表，分别是

broute：系统没有注册有hook函数，允许注册的hook点只有一个就是brouting

nat：pre_routing(dnat),post_routing(snat),local_out(dnat_other)

filter：local_in,forward,local_out(other)

STP 最小生成树协议的5中状态

#define BR_STATE_DISABLED 0

#define BR_STATE_LISTENING 1

#define BR_STATE_LEARNING 2

#define BR_STATE_FORWARDING 3

#define BR_STATE_BLOCKING 4

DISABLE：什么功能都没有，只有一个逻辑设备。

LISTENING：可以接收和发送网络传输的BPDU，包括Configureation BPDU和TCN BPDU，但不能进行数据帧的转发、不能学习。

LEARNING：可以接收和发送BPDU，可以学习，但是不能进行数据帧的转发。

FORWARDING：可以接收和发送BPDU、可以学习、可以进行数据帧的转发。

BLOCKING：只能接收BPDU，不能发送BPDU，不能学习，不能转发数据帧。

至于什么是BPDU 这个可以去看看linux-bridge的最小生成树的相关知识

在br_handle_frame函数的forward 标签下，

如果p->state 是FORWARDING的才会调用到brouting的hook点的唯一的hook函数ebt_broute，这个是在pre_routing 的调用之前的,
这里是以调用函数的方式来做ebtable的规则的，而不是遍历hook点上面的hook函数来做ebtables上面的规则的，因此，如果想自定义
hook函数，估计要改源码，即brouting这个hook点，只提供了用户接口，没有提供开发接口

至于p->state （端口状态）是什么时候进行状态转换的？还不清楚

网卡新建为一个网桥的端口的时候状态是BR_STATE_DISABLED，

6 结论

经过二层的数据包会经过的hook点如下：
ebtables hook
不知道怎样把大图弄上CU，只能用viso画了，然后截图上去了，有点模糊

还有一篇从ebtables的使用角度分析的文章，个人感觉不错的，也贴在这里了
http://ebtables.netfilter.org/br_fw_ia/br_fw_ia.html

秒客网

ebtables hook