kettle案例三抽取json数据保存到mongodb

时间:2024-03-15 20:08:28

如需转载请标明出处:直到世界的尽头-张小凡-http://my.525.life

普通json结构抽取

有简单的json结构如下:
{
“id”: “0001”,
“name”: “Joe”,
“age”: 88
}
保存在test.json文件中。
我们使用kettle来尝试json输入进行解析保存到mongodb。
构造转换流程如下:
Json Input到字段选择到mongodb Output
kettle案例三抽取json数据保存到mongodb

配置json输入

左键点击Json input,在文件栏 点击浏览 选中test.json,点击增加。
kettle案例三抽取json数据保存到mongodb
点击字段,输入需要获取的字段和路径。
因为json输入不能自动获取字段,所以路径需要我们自己填写。
填写路径前需要了解几个符号。
kettle案例三抽取json数据保存到mongodb
$号表示根元素
.表示子操作
[]表示数组操作
[,]表示路径操作

输入如图:
kettle案例三抽取json数据保存到mongodb
路径为
.id.name
.age.name 表示根目录子集的name,如果是两层则可以$..name表示根目录子集的子集。

预览可查看到结果
kettle案例三抽取json数据保存到mongodb

因为字段选择和mongodb输出之前都有讲过,这里就不详细解说了。

清洗Json输入的关键在于了解和构造路径。

有限嵌套json结构抽取

json一般来说不会只有一层,基本上都会有嵌套。
我们现在来看看2层嵌套的情况。
有json结构如下:
{
“id”: “0001”,
“name”: “Joe”,
“age”: 88,
“children”: [
{
“id”: “0002”,
“name”: “Jay”,
“age”: 52
}
]
}
保存在test2.json中。
则在字段获取时输入路径为
kettle案例三抽取json数据保存到mongodb
.id.name
.age.children
则预览时如图:
kettle案例三抽取json数据保存到mongodb

我们可以看到 children的元素已经被装在children字段中了,这里我们为了解析第二层children,需要再增加一个Json输入。
kettle案例三抽取json数据保存到mongodb

在第二个Json输入的文件配置时 勾选 源定义在一个字段里,选择children字段。
kettle案例三抽取json数据保存到mongodb

解析第二层数据的字段配置如下:
kettle案例三抽取json数据保存到mongodb
路径为:
.[]id.[*]name
.[]age.[*]children
$.[*]name含义为根元素的子集数组的name。
*表示所有,也就是 数组中如果有多个{}元素都会获取到name。

因为字段当作源时不能直接预览,所以可以先填写MongoDB Output和在字段选择中获取字段,删除children字段,然后在解析第二层数据右键Preview一下。
kettle案例三抽取json数据保存到mongodb

结果如图:
kettle案例三抽取json数据保存到mongodb

这样就完成了两层树的解析。

但是这样的弊端很多,有x层就需要json输入处理x次,还需要分列才能存储。

经过思考 我们有个更好的方法用来解决嵌套json的抽取问题:未知层数嵌套json结构抽取。

未知层数嵌套json结构抽取-使用脚本进行递归

我们在已知层数抽取中已经知道*号能够自动获取数组中所有的数组中的元素,而且能够嵌套获取。
那我们能不能把json构造在数组来处理。
比如我们有json结构如下:
{
“id”: “0001”,
“name”: “Joe”,
“age”: 88,
“children”: [
{
“id”: “0002”,
“name”: “Jay”,
“age”: 52,
“children”: [
{
“id”: “0003”,
“name”: “zoe”,
“age”: 23,
“children”: []
}
]
}
]
}

存放在test3.json中。
我们都知道 kettle是支持使用脚本的,包括java和javascript等语言。
我们可以选取熟悉的语言来进行操作。
具体操作流程可以参考:
kettle案例四使用java脚本进行数据处理

如需转载请标明出处:直到世界的尽头-张小凡-http://my.525.life