Neo4j 百万级数据导入

业务需要使用Neo4j出数据关系展示图，数据库里有2张表通过一个字段进行关联，数据量是90万和500万，关系量是150w；

从一开始使用REST API 循环导入，但创建节点没有问题，但是要通过将数据导入内存再生出关联关系就出现内存不足了；

后来通过cypher 语句，load csv 来创建节点和关系，创建节点时，数据超过20w条就不行了，创建关系更是慢的不行，注意：windows下load csv文件路径为：file:/d:/csv/company.csv，官网上写的貌似不行；

以上2种方法可以对少量数据进行操作。
百万级数据可以使用下面这种方法：
1、先生成csv文件，按格式来：

文件名：company-header.csv
内容：
regno,name,id:ID
文件名：company.csv
内容：
1234,apple,c001
文件名：person.csv
内容：
cerno,name,id:ID
3201,jobs,p001
文件名：relationship.csv
内容：
:START_ID,:END_ID,:TYPE
p001,c001,creator

然后通过neo4j官方提供的Neo4jImport来操作，具体指令是：
cmd下先进入Neo4j文件夹，执行命令：bin\neo4jimport –into data/graph.db –nodes:Company company-header.csv,company.csv –nodes:Person person.csv –relationships relationship.csv

注意文件地址可以使用相对地址，也可以使用绝对地址

上面是2中风格的写法，文件头和文件内容分开写，头和内容写一起，分开写的好处是修改文件头的时候，不用打开文件内容，如果文件内容太大，打开容易卡死；

文件头中：ID是用来创建关系时的连接点，：START_ID是关系起始点；
：END_ID是关系结束点；：TYPE是关系类型；
上列中还有没用到的是：LABEL是用来创建标签的，一组数据可以设置多个标签，用分号分隔；

这是我导入数据的用时：
Neo4j 百万级数据导入

400W节点，180W关系，用时30s
以上这种方式只能一次创建好数据库，该命令不能分批对一个数据库进行操作。

秒客网

Neo4j 百万级数据导入

相关文章