数据增量同步

注意:增量同步是对源端数据完成实时同步。

当开启增量同步任务时,数据采集器将基于数据源类型而采取不同的增量同步方式,完成对数据的实时采集、录入。

原理

对不同的源端数据库,增量同步的方式也不尽相同。

Oracle

  • Oracle 9i 及以上版本通过 Oracle 官方提供的 CDC 机制完成对源端数据的增量同步

  • Oracle 9i 以下版本通过 custom sql 的方式,通过 last_update 字段和主键字段,监听对应记录的变化,来完成对源端数据的增量变化。

注意:目前版本通过 custom sql 的增量同步机制,只能对数据的增加和修改做变化,无法监听数据的删除。

MySQL

目前版本对 MySQL 5.x 的数据增量同步,都是基于解析 binlog 完成的。

PostgreSQL

目前版本对 postgresql 的数据增量同步,都是基于解析增量日志的方式完成的。

SQL Server

目前版本对 sqlserver 的数据增量同步,都是基于开启 CDC 功能后,读取 CDC 表的方式完成的。

Sybase

目前版本对 sqlserver 的数据增量同步,都是基于创建 trigger table 的方式完成的。

文件

  • local(本地文件):是通过监听 linux 系统文件夹变化的方式完成的。

  • FTP/samba(共享文件夹):是通过监听 ftp server 上文件夹变化的方式完成的。

GridFS

目前版本对 sqlserver 的数据增量同步,都是基于监听 mongodb 的 oplog 方式完成的。