链接:https://pan.baidu.com/s/1MO-qL0Pxe6PojfZKsw3_qA
提取码:o7fl
包含文件:

Greenplum Stream Server (GPSS)是一个ETL(提取、转换、加载)工具。GPSS服务器的一个实例从一个或多个客户机接收流数据,使用Greenplum数据库可读的外部表将数据转换并插入到目标Greenplum表中。数据源和数据格式是特定于客户机的。数据源和数据格式由客户端指定。
安装文件为gpss-gpdb6-1.5.3-rhel7-x86_64.gppkg。
# 安装
gppkg -i gpss-gpdb6-1.5.3-rhel7-x86_64.gppkg
# 安装信息
==========================================================================
GPSS installation is complete! To proceed, create gpss extension in the
target database with:
"CREATE EXTENSION gpss;"
==========================================================================
# 特别注意:扩展的安装只在当前数据库生效。
# 1.切换 gpadmin 用户并进入数据库命令行工具
su gpadmin
psql
# 2.启用扩展 GPSS
CREATE EXTENSION gpss;
# 执行实例
[gpadmin@tcloud ~]$ psql
psql (9.4.24)
Type "help" for help.
gp_sydb=# CREATE EXTENSION gpss;
CREATE EXTENSION
# 扩展仅对数据库 gp_sydb 有效
通过 json 格式文件进行配置。属性标识 GPSS 服务的监听地址以及 Gpfdist 主机和端口号。还可以在文件中指定加密选项。示例文件内容如下:
{
"ListenAddress": {
"Host": "gpss_host",
"Port": gpss_portnum [,
"SSL": "use_ssl" ]
},
"JobStore": {
"File": {
"Directory": "jobstore_dir"
}
},
"Gpfdist": {
"Host": "gpfdist_host",
"Port": gpfdist_portnum,
"ReuseTables": false
} [,
"Certificate": {
"CertFile": "certfile_path",
"KeyFile": "keyfile_path",
"CAFile": "CAfile_path"
}]
}
配置项说明:
Host:gpss_host。GPSS 所在主机的 IP 或主机名,默认为
127.0.0.1。
Port:gpss_portnum。GPSS 服务实例的监听端口,默认为5000。
SSL:boolean 类型。表示是否需要对连接加密,默认为false。
以指示 GPSS 跨调用保留作业和作业状态信息。属性设置时,GPSS 服务器实例将跟踪指定的目录,并将作业信息写入该目录。如果停止服务器实例,则新的调用将恢复上次退出时正在进行的作业,将这些作业加载到内存中,并恢复它们最近的已知状态。
Host:gpfdist_host。Gpfdist 运行所在的主机IP或主机名。
Port:gpfdist_portnum。Gpfdist 端口,默认为8080。
ReuseTables : boolean 类型。表示是否需要重用外部表,默认为true。(会产生大量的外部表gpssext_xxx)建议设置为false。
CertFile: certfile_path。服务器证书文件系统路径。
KeyFile: keyfile_path。服务器密钥文件系统路径。
CAFile: CAfile_path。证书颁发机构文件的文件系统路径。CAfile_path必须包含整个证书授权链。
配置实例(未使用加密):
{
"Gpfdist": {
"Host": "localhost",
"Port": 8080,
"ReuseTables": false
},
"JobStore": {
"File": {
"Directory": "/home/gpadmin/gpss/jobStore"
}
},
"ListenAddress": {
"Host": "tcloud",
"Port": 50005
}
}
# 前台启动 --log-dir 为 log 文件保存文件夹
gpss gpsscfg.json --log-dir ./gpsslogs
# 后台启动
nohup gpss gpsscfg.json --log-dir ./gpsslogs > nohup-gpss.out 2>&1 &
其他命令:
gpss command starts a greenplum stream server that
include a gpfdist sever and a rpc server
Usage:
gpss <config file> [flags]
Flags:
--clear-job-store clear JobStore before gpss starts
--debug-port string enable pprof debug server at specified port
-h, --help help for gpss
-l, --log-dir string log directory, default is $HOME/gpAdminLogs
--verbose enable debug log
--version version for gpss
特别注意:gpss跟踪内存中客户端作业的加载过程。当停止GPSS服务器实例时,将丢失所有已注册的作业。重启GPSS实例后,必须重新提交以前提交的作业。gpss将从上次的记录偏移量位置恢复作业。