我最近刚看到spark的数据处理
数据提取有增量和总量
总量数据提取
将源系统所有数据复制到系统目标表的同步方法称为“总量”
增量数据
增量提取是指仅提取自上次提取以来发生了变化或添加的数据
这是总量数据提取
defmain(Args:Array[string] ) : unit={ val conf=newsparkconf ).setmaster('local ' ).setappname ) ' kks . config(conf ).config )、' hive.metastore.Uris ', ' thrift ://192.168.132.145:9083 ' ) /指定hive的metas tre ' HDFS ://192.168.132.1493360900//usr/hdfs上hive的warehouse仓库地址. enable house.getorcreatevalmydata=spark.read.format (' JDBC ) )/MySQL.option (' URL ) 127.0.0.1:3306/text ' )//本地MySQL下的text数据库. option('driver ',' com.mysql.JDBC.driver'/driver ) ' root ' ) /指定/MySQL用户. option ) ' password ' ' oo ' ).load(/指定表单spark.SQL ) show databases (.show ) ) hive下的数据库spark.SQL(useods ) ) ods转换为spark ODS层下的new_user表my dadark