文件名称:SparkStreaming流式日志过滤与分析
文件大小:938KB
文件格式:ZIP
更新时间:2022-06-19 02:47:31
SparkStreaming spark mysql toDF rdd
记得自己要引入环境 (1)利用SparkStreaming从文件目录读入日志信息,日志内容包含: ”日志级别、函数名、日志内容“ 三个字段,字段之间以空格拆分。请看数据源的文件。 (2)对读入都日志信息流进行指定筛选出日志级别为error或warn的,并输出到外部MySQL中。 需要用到的函数 (1)输入采用textFileStream()算子 (2)输出采用foreachRDD()算子 (3)将RDD转为DataFrame (4)DataFrame注册为临时表,使用SQL过滤 (5)将过滤后的数据保存到MySQL
【文件预览】:
20180103.log
20180104.log
test02.py
mysql-connector-java-5.1.47.jar