• Greenplum【部署 06】GPSS扩展(Greenplum Streaming Server)安装启用配置启动


    GPSS 官网 下载地址 说明文档地址 。云盘链接:

    链接:https://pan.baidu.com/s/1MO-qL0Pxe6PojfZKsw3_qA 
    提取码:o7fl
    
    • 1
    • 2

    包含文件:
    在这里插入图片描述
    Greenplum Stream Server (GPSS)是一个ETL(提取、转换、加载)工具。GPSS服务器的一个实例从一个或多个客户机接收流数据,使用Greenplum数据库可读的外部表将数据转换并插入到目标Greenplum表中。数据源和数据格式是特定于客户机的。数据源和数据格式由客户端指定。

    更新列表

    • 20220525 更新 JobStore 相关配置和说明
    • 20220525 更新 “ReuseTables”: false 配置

    1. 安装(gpadmin用户操作)

    安装文件为gpss-gpdb6-1.5.3-rhel7-x86_64.gppkg

    # 安装
    gppkg -i gpss-gpdb6-1.5.3-rhel7-x86_64.gppkg
    
    # 安装信息
    ==========================================================================
    GPSS installation is complete! To proceed, create gpss extension in the
    target database with:
        "CREATE EXTENSION gpss;"
    ==========================================================================
    # 特别注意:扩展的安装只在当前数据库生效。
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    2.数据库启用扩展

    # 1.切换 gpadmin 用户并进入数据库命令行工具
    su gpadmin
    psql
    # 2.启用扩展 GPSS
    CREATE EXTENSION gpss;
    
    # 执行实例
    [gpadmin@tcloud ~]$ psql
    psql (9.4.24)
    Type "help" for help.
    
    gp_sydb=# CREATE EXTENSION gpss;
    CREATE EXTENSION
    # 扩展仅对数据库 gp_sydb 有效
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14

    3.配置

    通过 json 格式文件进行配置。属性标识 GPSS 服务的监听地址以及 Gpfdist 主机和端口号。还可以在文件中指定加密选项。示例文件内容如下:

    {
        "ListenAddress": {
            "Host": "gpss_host",
            "Port": gpss_portnum [,
            "SSL": "use_ssl" ]
        },
        "JobStore": {
            "File": {
                "Directory": "jobstore_dir"
            }
        },
        "Gpfdist": {
            "Host": "gpfdist_host",
            "Port": gpfdist_portnum,
            "ReuseTables": false
        } [,
        "Certificate": {
            "CertFile": "certfile_path",
            "KeyFile": "keyfile_path",
            "CAFile": "CAfile_path"
        }]
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22

    配置项说明:

    • ListenAddress

    Host:gpss_host。GPSS 所在主机的 IP 或主机名,默认为127.0.0.1
    Port:gpss_portnum。GPSS 服务实例的监听端口,默认为5000
    SSL:boolean 类型。表示是否需要对连接加密,默认为false

    • JobStore

    以指示 GPSS 跨调用保留作业和作业状态信息。属性设置时,GPSS 服务器实例将跟踪指定的目录,并将作业信息写入该目录。如果停止服务器实例,则新的调用将恢复上次退出时正在进行的作业,将这些作业加载到内存中,并恢复它们最近的已知状态。

    • Gpfdist

    Host:gpfdist_host。Gpfdist 运行所在的主机IP或主机名。
    Port:gpfdist_portnum。Gpfdist 端口,默认为8080
    ReuseTables : boolean 类型。表示是否需要重用外部表,默认为true。(会产生大量的外部表gpssext_xxx)建议设置为 false

    • Certificate(GPSS 和 Gpfdist 加密)

    CertFile: certfile_path。服务器证书文件系统路径。
    KeyFile: keyfile_path。服务器密钥文件系统路径。
    CAFile: CAfile_path。证书颁发机构文件的文件系统路径。CAfile_path必须包含整个证书授权链。

    配置实例(未使用加密):

    {
        "Gpfdist": {
            "Host": "localhost",
            "Port": 8080,
            "ReuseTables": false 
        },
        "JobStore": {
            "File": {
                "Directory": "/home/gpadmin/gpss/jobStore"
            }
        },
        "ListenAddress": {
            "Host": "tcloud",
            "Port": 50005
        }
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16

    4.启动

    # 前台启动 --log-dir 为 log 文件保存文件夹
    gpss gpsscfg.json --log-dir ./gpsslogs
    
    # 后台启动
    nohup gpss gpsscfg.json --log-dir ./gpsslogs > nohup-gpss.out 2>&1 &
    
    • 1
    • 2
    • 3
    • 4
    • 5

    其他命令:

    gpss command starts a greenplum stream server that
    include a gpfdist sever and a rpc server
    
    Usage:
      gpss <config file> [flags]
    
    Flags:
          --clear-job-store     clear JobStore before gpss starts
          --debug-port string   enable pprof debug server at specified port
      -h, --help                help for gpss
      -l, --log-dir string      log directory, default is $HOME/gpAdminLogs
          --verbose             enable debug log
          --version             version for gpss
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14

    特别注意:gpss跟踪内存中客户端作业的加载过程。当停止GPSS服务器实例时,将丢失所有已注册的作业。重启GPSS实例后,必须重新提交以前提交的作业。gpss将从上次的记录偏移量位置恢复作业。

  • 相关阅读:
    Python程序员常犯的编码错误(三)
    Nexus的管理
    PAT 1025 PAT Ranking
    ifconfig命令的使用
    自定义MVC
    了解 云原生 和 边缘计算
    嵌入式数据库sqlite3基本命令操作基础(05)
    SpringBoot 多种优雅的线程池配置与使用(异步执行函数,反射机制,动态识别参数,有返回值)
    【计算机网络 - 自顶向下方法】第一章习题答案
    [附源码]计算机毕业设计JAVA鞋店销售管理
  • 原文地址:https://blog.csdn.net/weixin_39168541/article/details/124885436