关系型数据库通过键,构造数据与数据之间的关系,间接关系过多导致逻辑复杂。
今天我在设计舆情监控系统时就遇到了这种情况,为了数据输出灵活性,数据库以客户、关键词为中心进行设计。
但是为了提高集群负载,在数据爬取上又设计为分布式,既爬虫子网对一个数据库,数据库子网对一个监控系统,这样爬虫端的每个任务都要从多张表中挖掘需要的信息,想了一下午,终于想到了一个简单、灵活、执行效率高的方式——在内存建一个DataTable保存要执行的任务。
每条任务周期都用复杂的逻辑推断要做什么,通过什么渠道去做,很难实现多线程并发。
如果把需要的信息统一挖掘、统一存储在这一张内存表中,在使用之前就滤清了复杂的逻辑,像是一排子弹装在机枪上,随时准备使用。
统一挖掘只需访问一次数据库,读取全部预计用到的数据,再从内存中进行逻辑筛选,最后把内存中不需要的冗余数据Clear,最大限度地减少了数据库访问次数,再加上是内存表,所以存取速度快,还可以通过剩余任务数量判断循环周期。