文件名称:datastax-syncing-example
文件大小:977KB
文件格式:ZIP
更新时间:2024-07-23 11:12:04
Scala
该演示展示了如何在数据可能发生变化的 2 个源之间同步数据。 SparkSync 作业负责验证 HDFS 中的一些数据并更新 DSE/Cassandra 中的相应行。 您需要下载 users.csv 并将其放入 src/main/resources 文件夹注意这是 188MB - 这个演示假设你已经安装了 dse4.6 并可以访问 hdfs 系统,我一直在使用 HDP 1.3 的 hortonworks 沙箱,可以从下载 演示背后的想法是假设我们要同步 2 个数据源,同时其中之一 (Cassandra) 不断更新。 为确保不会覆盖新更改,程序使用轻量级事务 (LWT)。 这使我们能够在更改数据之前检查数据是否符合我们的预期。 如果该值不是我们所期望的,我们可以决定用它做一些不同的事情。 从 CQLSH - 我们可以将所有用户加载到 DSE/Cassandra copy test
【文件预览】:
datastax-syncing-example-master
----sbt()
--------sbt(2KB)
--------sbt-launch-0.13.1.jar(1.09MB)
----src()
--------main()
----build.sbt(1KB)
----README.md(2KB)