skynet框架 使用心得

时间:2020-12-22 16:30:52

使用skynet框架将线上的项目重写一遍之后,以下简称“skynet框架”为“skynet”。没上线之前我想说:对于程序员而言,skynet中自有黄金屋,skynet中自有颜如玉。它是程序员智慧的结晶。
不过,项目上线之后,我想说的是:工作经验不丰富的程序员,用skynet,真有no zuo no die的感觉。

先给两个core文件:

1、

////////////////////////////////////////////////////
#0  je_tcache_dalloc_small (ptr=0x7f76f3fe0a60) at include/jemalloc/internal/tcache.h:406
#1  je_arena_dalloc (ptr=0x7f76f3fe0a60) at include/jemalloc/internal/arena.h:1044
#2  je_idalloct (ptr=0x7f76f3fe0a60) at include/jemalloc/internal/jemalloc_internal.h:898
#3  je_iqalloct (ptr=0x7f76f3fe0a60) at include/jemalloc/internal/jemalloc_internal.h:917
#4  je_iqalloc (ptr=0x7f76f3fe0a60) at include/jemalloc/internal/jemalloc_internal.h:924
#5  ifree (ptr=0x7f76f3fe0a60) at src/jemalloc.c:1233
#6  je_free (ptr=0x7f76f3fe0a60) at src/jemalloc.c:1308
#7  0x000000000040cde5 in skynet_lalloc (ud=<value optimized out>, ptr=<value optimized out>, 
    osize=<value optimized out>, nsize=<value optimized out>) at skynet-src/malloc_hook.c:221
#8  0x0000000000413cb1 in luaM_realloc_ ()
#9  0x000000000041942b in luaH_newkey ()
#10 0x000000000040e701 in lua_rawset ()
#11 0x00007f76f6ffa698 in unpack_table (L=0x7f76f542afa0, rb=0x7f76f7bfc4e0, type=<value optimized out>, 
    cookie=<value optimized out>) at lualib-src/lua-seri.c:403
#12 push_value (L=0x7f76f542afa0, rb=0x7f76f7bfc4e0, type=<value optimized out>, cookie=<value optimized out>)
    at lualib-src/lua-seri.c:446
#13 0x00007f76f6ffa983 in _luaseri_unpack (L=0x7f76f542afa0) at lualib-src/lua-seri.c:522
#14 0x0000000000410fed in luaD_precall ()
#15 0x000000000041b349 in luaV_execute ()
#16 0x0000000000410d28 in unroll ()


2、

////////////////////////////////////////////////////
#0  je_arena_dalloc_bin_locked (arena=0x7fb750848a00, chunk=0x7fb741800000, ptr=<value optimized out>, 
    mapelm=<value optimized out>) at src/arena.c:1901
#1  0x0000000000453fff in je_tcache_bin_flush_small (tbin=0x7fb7468060c8, binind=5, rem=50, 
    tcache=0x7fb746806000) at src/tcache.c:127
#2  0x0000000000431b49 in je_tcache_dalloc_small (ptr=0x7fb740a854c0) at include/jemalloc/internal/tcache.h:402
#3  je_arena_dalloc (ptr=0x7fb740a854c0) at include/jemalloc/internal/arena.h:1044
#4  je_idalloct (ptr=0x7fb740a854c0) at include/jemalloc/internal/jemalloc_internal.h:898
#5  je_iqalloct (ptr=0x7fb740a854c0) at include/jemalloc/internal/jemalloc_internal.h:917
#6  je_iqalloc (ptr=0x7fb740a854c0) at include/jemalloc/internal/jemalloc_internal.h:924
#7  ifree (ptr=0x7fb740a854c0) at src/jemalloc.c:1233
#8  je_free (ptr=0x7fb740a854c0) at src/jemalloc.c:1308
#9  0x000000000040cde5 in skynet_lalloc (ud=<value optimized out>, ptr=<value optimized out>, 
    osize=<value optimized out>, nsize=<value optimized out>) at skynet-src/malloc_hook.c:221
#10 0x0000000000413cb1 in luaM_realloc_ ()
#11 0x0000000000412435 in sweeplist ()
#12 0x0000000000413317 in singlestep ()
#13 0x0000000000413ae0 in luaC_forcestep ()
#14 0x000000000040ee9d in lua_tolstring ()
#15 0x00000000004221cd in luaB_tostring ()


为了解决两个bug,我通宵了两晚。最后发现这两个问题其实是同一个bug导致的。因为整个项目是我一个人做的,出了问题连个讨论的人都没有,最后不得不整个工程通读好几遍,当时真有想死的感觉。还好有同事的精神支持,最后坚持下来,将问题解决掉。当时在jemalloc的论坛上找到两个提示,一、double free了;二、内存耗尽了。

最后发现,这是一个lua逻辑导致了内存的“泄露”(不是没有free的意思,是某张表被永远引用,导致无法释放),而每天有十几万条数据推送,导致十几万次触发该lua逻辑,使得问题暴露的很明显,并且最终使服务器内存被耗尽,程序崩溃,出现前面两个core错误。

还有在宕机前,疯狂报
[:00000000] A message from [ :0100000c ] to [ :0100000f ] maybe in an endless loop (version = 256)错误。
怀疑和上面的内存泄露有关,解决了上面那个内存泄露,该错误就没有发生了。这种事件的发生,应该是由于一个线程在某个请求中执行的太久导致的,就相当于,某个线程死循环了。


再说说我在线上遇到的问题。
1、不要用过程式的思维去使用skynet,否则,你的项目非常有可能要改很多东西。
每个service其实就是erlang里面的虚进程,就像进程一样,函数外面声明的变量,都应当看成进程的上下文。在每个服务,即虚进程里面,最小模块是函数,以函数为模块编程,换句话说,我已经接触开始函数式编程的思维了。使用的时候,要考虑请求被挂起时,会有什么结果。例如:一个for循环,pairs引用了一个全局表,而在for里面又调用了skynet.call的,在for do end后面,再来清理该全局表,此时,这个for循环逻辑就可能有问题了。


2、原先的工程,完成某个任务需要执行五个步骤,并且会连续收到两个请求包。由于原先的服务器是单进程,单线程的。执行流程如下: 

A->B->C->D->E

A是收到第一个包,然后请求B全局对象,再请求C全局对象,创建D对象
E是收到第二个包。E的正确执行需要D对象的创建,原先的工程使没有问题的。但是,使用skynet之后,B被独立出来成为一个服务,C也是独立的一个服务,A、E两个请求包,连续到达之后,由于执行skynet.call(B, ...),skynet.call(C, ...),导致E的执行被提前了。最后,我看了一下skynet.queue的逻辑,发现使用skynet.queue可以解决这个问题。只要将A->B->C->D封装成一个闭包,将->E单独封装成另外一个闭包。放在queue里面,按顺序执行这两个闭包就可以了。


debug_console 这个服务很好用:

一能看流量,二能查“泄露”

stat的mqlen能看到某个服务的请求未被处理的数量,task是挂起的任务(有可能是永远得不到处理的任务,可以看泄漏)。

start cmemory可以导出内存数据大小到error.log文件里面。

然后,可以自己添加一些命令,维护线上的数据。


花了一个星期,项目终于稳定了。此时,突然感觉自己有了境界的提升。发现收获还是很大的。


---------------------------------------------------------------------------------------------------------------------------------------------------------

其实默认设置一张空表,例如 global_table[user_id] = {}也可能会有溢出,因为,一旦数据量达到十几万乃至几百万的时候,每个用户都有一张空表时,有些内存就是释放不了,这时候溢出就很明显了。


还有。skynet.lua里面的coroutine_pool

-- coroutine reuse

local coroutine_pool = {}
local coroutine_yield = coroutine.yield

local function co_create(f)
	local co = table.remove(coroutine_pool)
	if co == nil then


skynet/debug.lua里面的coroutine_pool

function dbgcmd.GC()
	coroutine_pool = {}
	collectgarbage "collect"
end
不是同一张表。这里要改一下。否则gc的时候, coroutine_pool不过是一张空表而已。