对业务新增用户收集入库的行为,需要开发。
首先第一个,小问题。
data:image/s3,"s3://crabby-images/217c1/217c1a221a54f35c2246b5fd39616f18b41b4be2" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
data:image/s3,"s3://crabby-images/a5816/a58165aab363d2085743933abae4f0d4eb44e909" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
data:image/s3,"s3://crabby-images/199d0/199d0039fb30cefc7ee4c41cda87e0803910967e" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
如所见,报错原因是多了一个;分号,导致了我们把方式换来换去,到后来我才看到,原来不能加引号啊,但是我把时间变量替换成时间常量却可以编译通过,这是个坑,陨石巨坑。
第二个问题,当我们跑任务时,定时的,但是兄弟部门数据没来,我们用开源HUE去检查hive库该表的数据时间,
data:image/s3,"s3://crabby-images/ff6b7/ff6b73278848970471c1e5ce79777de98325076e" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
然后显示分区,
data:image/s3,"s3://crabby-images/09f42/09f42b0a226b70ee318dc559fbf65a431637347e" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
就对比这两个分区时间数据吧。
data:image/s3,"s3://crabby-images/3b6f0/3b6f0511dbb11adbaaee4b5fa1b2ff8c6014121d" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
可以很清楚看到,
data:image/s3,"s3://crabby-images/5487a/5487a80ca0f2dd543ef7896f54314bee50fd51ec" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
18好的数据是19号早上10点47跑完的。接着去看看17号的。
data:image/s3,"s3://crabby-images/bf172/bf172d5dca8b8a89e28cba6a44605ea09c0f306a" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
17号数据就是18号晚上8点47跑完的,还记我们之前定的是下午两点15,所以这里会导致前台业务系统空数据,也会调度空数据的。
data:image/s3,"s3://crabby-images/091d9/091d97b69708c1e52c5547b153639614e29b4ce1" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
第三个问题,也是纠缠了一天的问题了。
为什么每次我sql没问题,日志没问题,
data:image/s3,"s3://crabby-images/27d17/27d177246a787438ad849a17c38543c796a5dc0d" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
data:image/s3,"s3://crabby-images/2cb05/2cb0508ac4cf894f0deb9239e69ce362b517b6bb" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
data:image/s3,"s3://crabby-images/fbf5c/fbf5c36454476fa49f30e85cb94bf5278f6fdc89" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
为什么会出现这种情况呢?但是库里却明明有数据的。
data:image/s3,"s3://crabby-images/9759b/9759b17036d773e38fb638d884a126dba4b370f5" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
比较棘手了。
都不好意思截图了,原来是变量别名没有取,导致了表不认识。
好吧,现在可以了,我们的分析都取得了成功,接下来,需要做前端数据库设计。因为是下载和销量双重设计,我们从前端数据库也整两张表吧,在接口代码里面改就可以了。
我靠时间来到了快下班的时间了,
要个增加表的权限,要了一圈,。。。要了3个小时。。。。
太影响效率了。。。呜呜呜
然后接着开发,我们表创建好了之后,
data:image/s3,"s3://crabby-images/f30cc/f30ccadeeb515c34be7bfd9a19c6d00a242515a7" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
接下来的事情就坑了:他给我创建的用户,尼玛,
data:image/s3,"s3://crabby-images/8b9b2/8b9b2fe2ffe214150c30121fe8bcbc5257266ea8" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
居然不可以insert数据,我曹!
data:image/s3,"s3://crabby-images/4c841/4c84149fa0f913c59e0ce6d2381efb4e23611114" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
到这里还有一个坑。
数据现在18号的有两条,
data:image/s3,"s3://crabby-images/f1014/f1014d1ccbb8def61406a579ffb432961a7643a5" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
因为只是数据字典,所以没有设置id,只要保证数据不重复就行了,即使重复了,也可以sql找到重复记录。所以,如果我们id匹配维度没有配齐的话,比方说。
data:image/s3,"s3://crabby-images/af56a/af56a8a373f37ea3ed286c3b498b157d4ee6a781" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
跑一边看一下,
data:image/s3,"s3://crabby-images/61db3/61db3aaa1dd26f85496a690eef0970f24260c2d9" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
只有一条记录了,因为kettle不知道更新的维度。所以,写全了这里。
其实关于开发这个调度,由于是第一次这么从头开发到尾,整合,所以吧,也遇到了不少坑,那些小坑都倒腾倒腾也就过了,就不记了,遇到了那在记吧。
data:image/s3,"s3://crabby-images/8e501/8e501a6cb126306fd01bd0ae6649f5bf65dc549e" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
接下来,我们要做初始数据。向下载表、销量表里插入初始数据,partition为当天把。
初始数据插入好了,需要些python脚本了,也就是最简单的脚本形式:
data:image/s3,"s3://crabby-images/459fd/459fd8a1ea115c5ca9d60d4f3db2e7e025f91b89" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
然后传到服务器上,改权限:
data:image/s3,"s3://crabby-images/70d13/70d1324b25a161f3b624ce38e78e2fbcc62feed5" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
再然后nohup,出现问题,没有东西出来,看一下目录。
data:image/s3,"s3://crabby-images/7dec8/7dec83b894460b88eb27a61e84d661e6e7495767" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
然后执行python XXXx.py
data:image/s3,"s3://crabby-images/4d515/4d515c049dd245e4355baa9123f524d9e555864d" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
原来是因为导包,导入类引用没找到,那这里因为不在一个目录下面,所以需要去网上现学。这到没啥问题,干这行就得习惯无时无刻都要遇到阻碍,我们网上查阅资料添加import即可
data:image/s3,"s3://crabby-images/3c83b/3c83b321bb7d18bc21606979bc2faa10b2bcbad2" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
到这里就启动了,等待邮件,要发不久的。等吧。
吧唧打脸了,
data:image/s3,"s3://crabby-images/3e918/3e918ef81ca269793e945f39a153a025651f5b2c" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
又报错了,好尴尬啊,我们去kitchen里面测试吧。还好前两天写了这么多文档,现在解决问题起来,不用重新踏坑了,直接查文档,只可惜微博只让保存10篇,超过了就不行了,所以我把博客文档迁到了csdn,嘿嘿,没有限制了。其实自己搭建博客网站也是可以的,200,300一年吧,整个域名,搭建一个自己的博客网站。都很想搞一搞呀。扯远了,继续来吧,
pwd看一下目录
data:image/s3,"s3://crabby-images/24e04/24e042278cf3f6a3842a96c9262a08104e9ab72a" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
然后
data:image/s3,"s3://crabby-images/2a82a/2a82a4a062793e213d4fca5aeeab87b0149ce921" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
是老问题了。还记得吗,是因为我们没有切换hive用户导致的,
su hive
data:image/s3,"s3://crabby-images/40c6e/40c6e1656c49e65b1f14a02f18618b4bd120b49a" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
完美吗?好了,这篇就先到这里吧,关于springBoot怎么开发,以前的文章也都写过了,也比较简单。
我们回头把那个root启动的进程杀死
data:image/s3,"s3://crabby-images/ec346/ec346cf527856dff3e0757253fb52961f0e72af2" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
nohup python freemeos_newadd_customer.py >freemeos_newadd_customer_log.log 2>&1 &
data:image/s3,"s3://crabby-images/28d10/28d109d47f021e8aea6d8b371366869daa45d0b7" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"
搞定了。
其实,打算把那个短信的mapreduce拿出来说一说的,但是似乎没时间了,二期需求来了。现在市场的需要重新做,还要搭建PHP运行环境去做一些开发。。。也一直有打算把以前的三个javaWeb开发项目拿出来说一说,说说框架、开发的,也打算把Kafka搭建一下,把思想说一说,拿出来分享的,慢慢来吧,技术的道路需要永无止境的探索。
data:image/s3,"s3://crabby-images/014ae/014ae90cf1523b43c6f785d90fecc6d2828b3f63" alt="(大数据整合)Python、Kettle完整开发 (大数据整合)Python、Kettle完整开发"