gen_server 主体 module 已经分析完了(http://www.cnblogs.com/--00/p/4271982.html),接着,分析下gen_server 中的terminate .首先分析一个问题, 这个问题是之前在weibo 上和别人讨论过的一个问题: Why will a rpc:call started gen_server process terminate with normal reason?
注:被call 的gen_server 进程 trap_exit 为true .
rpc call
首先, 得先去看看rpc call 是怎样的行为流程.
call(N,M,F,A,infinity) when node() =:= N -> %% Optimize local call
local_call(M,F,A);
call(N,M,F,A,infinity) ->
do_call(N, {call,M,F,A,group_leader()}, infinity);
call(N,M,F,A,Timeout) when is_integer(Timeout), Timeout >= 0 ->
do_call(N, {call,M,F,A,group_leader()}, Timeout).
以上, 会对local node 的call 进行optimize 处理, 对于remote node 来说, 继续调用do_call 函数
do_call(Node, Request, infinity) ->
rpc_check(catch gen_server:call({?NAME,Node}, Request, infinity));
do_call(Node, Request, Timeout) ->
Tag = make_ref(),
{Receiver,Mref} =
erlang:spawn_monitor(
fun() ->
%% Middleman process. Should be unsensitive to regular
%% exit signals.
process_flag(trap_exit, true),
Result = gen_server:call({?NAME,Node}, Request, Timeout),
exit({self(),Tag,Result})
end),
receive
{'DOWN',Mref,_,_,{Receiver,Tag,Result}} ->
rpc_check(Result);
{'DOWN',Mref,_,_,Reason} ->
%% The middleman code failed. Or someone did
%% exit(_, kill) on the middleman process => Reason==killed
rpc_check_t({'EXIT',Reason})
end.
do_call 的时候会对Timeout 为infinity 做直接调用gen_server:call 处理;而对于Timeout 不为infinity的情况,使用Middleware process(和gen_server module 中的multi_call 相似),不论gen_server:call 调用(L11)的返回结果是什么,Middleware process 都会使用exit(L12).
在此,如果rpc:call 的执行参数是 TargetNode,GenServerMod, start_link, Args, Middleware process 就是GenServerMod 进程的Parent,而在调用结束之后,Middleware process exit了.至此,得到的信息:
1, 调用GenServerMod:start_link(Args) 的进程会在执行结束后exit;
2, 调用进程是GenServerMod的Parent
gen_server terminate
首先,需要对terminate 进行区分, 一个是GenServerMod 的callback 方法terminate, 一个是gen_server module中的函数, 此处主要是对gen_server module 中的terminate 函数进行分析.
然后,检索gen_server module 代码中, 哪些地方哪些情况下调用了terminate 函数:
1, define terminate func
%%% ---------------------------------------------------
%%% Terminate the server.
%%% --------------------------------------------------- -spec terminate(_, _, _, _, _, _) -> no_return().
terminate(Reason, Name, Msg, Mod, State, Debug) ->
terminate(Reason, Reason, Name, Msg, Mod, State, Debug). -spec terminate(_, _, _, _, _, _, _) -> no_return().
terminate(ExitReason, ReportReason, Name, Msg, Mod, State, Debug) ->
Reply = try_terminate(Mod, ExitReason, State),
case Reply of
{'EXIT', ExitReason1, ReportReason1} ->
FmtState = format_status(terminate, Mod, get(), State),
error_info(ReportReason1, Name, Msg, FmtState, Debug),
exit(ExitReason1);
_ ->
case ExitReason of
normal ->
exit(normal);
shutdown ->
exit(shutdown);
{shutdown,_}=Shutdown ->
exit(Shutdown);
_ ->
FmtState = format_status(terminate, Mod, get(), State),
error_info(ReportReason, Name, Msg, FmtState, Debug),
exit(ExitReason)
end
end.
terminate func 会先调用try_terminate(即GenServerMod:terminate),然后report 错误信息,最后exit .
2, handle_msg 调用terminate
handle_msg 函数中,当遇到'EXIT' 退出,GenServerMod callback 方法返回'stop'时,都会调用terminate函数. 如:
{ok, {stop, Reason, NState}} ->
terminate(Reason, Name, Msg, Mod, NState, []);
{'EXIT', ExitReason, ReportReason} ->
terminate(ExitReason, ReportReason, Name, Msg, Mod, State, []);
3, receive Parent 'EXIT' message
decode_msg(Msg, Parent, Name, State, Mod, Time, Debug, Hib) ->
case Msg of
{system, From, Req} ->
sys:handle_system_msg(Req, From, Parent, ?MODULE, Debug,
[Name, State, Mod, Time], Hib);
{'EXIT', Parent, Reason} ->
terminate(Reason, Name, Msg, Mod, State, Debug);
_Msg when Debug =:= [] ->
handle_msg(Msg, Parent, Name, State, Mod);
_Msg ->
Debug1 = sys:handle_debug(Debug, fun print_event/3,
Name, {in, Msg}),
handle_msg(Msg, Parent, Name, State, Mod, Debug1)
end.
在L6,当收到Parent 'EXIT' 的消息时, gen_server module 会调用terminate 函数, 使GenServerMod 以相同于 Parent 的Reason 退出.
以上两种情况,gen_server module 都会调用terminate 函数, 继而回调GenServerMod 的terminate callback, 最后使GenServerMod 进程退出.
但是,为什么trap_exit 为false 或者是 start 的时候就不会发生此种情况? (因为进程不会收到L6处的消息)
link VS monitor
既然都已经说到了trap_exit了,而且之前的gen_server module 和 gen 分析中,都看到了大量的start_link和erlang:monitor,就简单说下Erlang 中link 和monitor 的却别.
对于一个进程died 这件事, link 和monitor 是两种不同的通知方式. 当使用link 时, 某进程died 之后, 其他与之link 的进程会收到 Exit Signals , 而使用monitor时, 某进程died之后, monitor 它的进程会收到 message 而不是 signals.
回到最开始的问题
这样的话, 这个问题的原因就很清楚了.
how to fix?
1, 使用start 代替 start_link ,并在 spawn_opts 的参数中添加'monitor' option;
2, 直接修改gen_server module 的decode_msg 函数, 去掉{'EXIT', Parent, Reason} branch 的处理. (好像有点粗鲁^^)
参考
http://marcelog.github.io/articles/erlang_link_vs_monitor_difference.html