数据挖掘*会议

时间:2022-02-26 09:51:17

有些人的工作很原创,每年总有一些很新颖的东西。有的人文章很多,但主要都是follow别人的工作。Database领域有不少paper machine。有的地方,整个group就是一个大的paper machine。

个人感觉数据库研究者倾向于把数据挖掘看作一个数据库的子领域,因而对数据挖掘的会议rating较低。然而对其他背景的人而言,数据挖掘是相对独立的一个新兴领域,因而对其会议rating比较高。

SIGMOD:97分,数据库的最高会议,涉及范围广泛,稍偏应用(因为理论文章有PODS)。没说的,景仰如滔滔江水。这个会议不仅是double-blind review,而且有rebuttal procedure,可谓独树一帜,与众不同。

VLDB:95分,欧洲的数据库会议,也已经有30年的历史。举办地基本上按照一年欧洲,次年其他洲轮换的规律。它是唯一能接近SIGMOD的会议,一般被认为和SIGMOD同样受尊重。它的PC比较diversified一点,另外录取文章的时候可能会考虑一点地域平衡。因此对于美国的投稿甚至有可能感觉比SIGMOD还难进。在这个会议上也能见到更多的来自美国以外的文章。

PODS:95分。是“数据库理论的最好会议,也是一个很好的理论会议”。每年总是co-located with SIGMOD。感觉其中算法背景的人占主流(你可以数数PODS文章中有多少来自Motwani group),也有一部分AI背景的人(毕竟SIGART也是主办者之一)。它的影响力远不及SIGMOD,然而其中文章的质量比较整齐,variance小于SIGMOD(以及其他任何数据库会议)。有一位牛人说:“PODS never had a really bad paper,”这是它值得骄傲的地方。

KDD::full paper 95分,poster/short paper 90分。数据挖掘的最高会议。由于历史积累不足以及领域圈子较小,勿用讳言KDD目前比SIGMOD尚有所不如。我觉得我们可以这样类比:KDD:SIGMOD=CRYPTO:STOC。回顾密码学的历史,真正最牛的文章一般发在STOC/FOCS而非CRYPTO/EUROCRYPT,这和今天的数据挖掘何等类似!然而你看看今天的密码学文章,已经有*的密码学家(恕我不便写出名字)不再往STOC/FOCS投稿。我觉得同样的事情在不久的将来也会发生在数据挖掘中,让我们拭目以待。这几年来KDD的质量都很高。其full paper的质量高于SIGMOD/VLDB中数据挖掘方面的paper的质量。原因是SIGMOD/VLDB审稿人中数据挖掘的人很少,审稿标准不一定能掌握得很好。这几年好几篇SIGMOD/VLDB的数据挖掘paper都follow一些KDD的paper。而在KDD,要拿一篇full paper真难。去年复旦拿了一篇,实属难能可贵。今年他们又拿了一个SIGMOD demo,说明工作的确很扎实。听说在很多地方,如果能有一篇SIGMOD/VLDB/KDD,就能博士毕业,能有两篇就能找到不错的工作。“革命尚未成功,同志仍需努力!”

ICDE:92分。很好的数据库会议,也是一个大杂烩。好处是覆盖面广、包容性强,坏处是文章水平参差不齐。

EDBT:88分,不错的数据库会议,录取率很低然而历史积累不足,影响还明显不及ICDE。

ICDT:88分,PODS的欧洲版,数据库理论第二会议。和SIGMOD/VLDB一样,ICDE和EDBT在质量和影响上都不相上下。其它的如CIKM,ICDM,SDM,SSDBM,PKDD等等都比以上的会议差一截。

CIKM:85分。

SDM:full paper 90分,poster/short paper 85分。SIAM的数据挖掘会议,与ICDM并列为数据挖掘领域的第二位,比KDD有明显差距。好像其中统计背景的人比较多,也有一部分机器学习背景的人,比较diversified。

ICDM:full paper 90分,poster/short paper 85分。IEEE的数据挖掘会议,与SDM并列为数据挖掘领域的第二位,比KDD有明显差距。

PKDD:83分(因为poster/short paper数量很少,所以不予区分)。好像是KDD的欧洲版,但与KDD差距很大。

CIDR: 数据库领域的新兴会议,只收vision类的paper,强调的是创新性的idea,并不要求很solid很complete的results。在2002年由Michael tonebraker, Jim Gray, 和David DeWitt等人发起。在2002年的SIGMOD keynote speech, Michael Stonebra ker说现在SIGMOD paper都要有令人敬畏的图和公式才能被收录,往往不利于真正有开创性的工作,他希望大家都做sea change的工作。CIDR是两年一次的会议,93和95年各开了一次,投稿和收录的比较少,但基本上主要的那些researcher和这个field的leader都在那儿,更focused一些。虽然才开了两届,但已经成为很受重视的一个数据库会议。当然,这个会议还有待时间的检验。