• flink理论干货笔记(5)


    401. 启动检查点,用StreamExecutionEnvironment的enableCheckpointing(n),其中n是检查点间隔

    402. 检查点的其他参数包括,至少一次or刚好一次,检查点超时时间,检查点之间的最短时间,并发检查点数,外部化检查点,关于检查点错误是否继续任务

    403. 相关配置选项:state.backend(以及更进一步的async即是否用异步快照、fs.memory-threshold即状态数据文件的最小大小、incremental即增量检查点、local-recovery即是否本地恢复)、state.checkpoints.(dir即检查点默认目录、num-retained即已完成检查点最大数量)、state.savepoints.dir即保存点的默认目录

    404. 默认情况下,状态保存在TaskManager的内存中,检查点存储在JobManager的内存中。可通过env.setStateBackend()设置状态后台

    405. 目前flink迭代作业不支持状态检查点,因为可能会导致异常。但也可以强制进行,需要设置env.enableCheckpointing(…)

    406. 查询状态对象时,无需任何同步或复制即可从并发线程访问该对象。可查询状态包含三个实体:QueryableStateClient、QueryableStateClientProxy、QueryableStateServer

    407. 要启动可查询状态,需要如flink-queryable-state-runtime_2.11-1.7-snapshot. jar,启动后在TM下会有相关日志

    408. 调用asQueryableState,就能得到QueryableStateStream;或者stateDescriptor. setQueryable(…) 也能使状态变得可查询

    409. 要使用QueryableStateClient,需要加入依赖项如flink-queryable-state-client-java_2.11

    410. 配置好后就能调用getKvState,参数是jobId、queryableStateName、key、keyTypeInfo、stateDescriptor,得到一个CompletableFuture 

    411. 注意:查询到的状态(如valueState、mapState、listState等)都是无法修改的

    412. QueryableStateOptions的参数配置会影响状态服务器的行为,包括query.server.ports、query. server.network-threads、query.server.query-threads、query. proxy. ports、query. proxy. network-threads、query. proxy. query-threads

    413. 状态后台有多种,如MemoryStateBackend、FsStateBackend、RocksDBStateBackend等,可通过env.setStateBackend()来设置 

    414. 建议避免使用匿名类作为状态序列化程序,因为它对生成的类名没有保证,在编译器之间有所不同

    415. 每次执行检查点时,都会调用snapshotConfiguration方法来创建状态序列化程序配置的时间点视图;ensureCompatibility用来确保序列化程序的兼容性 

    416. TypeSerializerConfigSnapshot是所有序列化程序配置snapshot的基类,有getVersion、read、write方法

    417. ensureCompatibility用于检查串行器是否兼容、确认序列化程序是否兼容。CompatibilityResult.compatible()表示串行器兼容,CompatibilityResult.requiresMigration()表示串行器不兼容

    418. datastream算子分为多种:
    DataStream->DataStream的有map、flatmap、filter
    DataStream->KeyedStream的有keyBy
    KeyedStream->DataStream的有reduce、fold、sum、min、max、minBy、maxBy
    KeyedStream-> WindowedStream的有window
    DataStream-> AllWindowedStream的有windowAll
    WindowedStream-> DataStream的有apply、reduce、fold、sum、min、max、minBy、maxBy
    AllWindowedStream-> DataStream的有apply
    DataStream*->DataStream的有union
    DataStream,DataStream ->DataStream的有join、coGroup
    KeyStream,KeyedStream-> DataStream的有intervalJoin
    DataStream,DataStream->ConnectedStreams的有connect
    ConnectedStreams->DataStreams的有map和flatMap(需分别定义CoMapFunction和CoFlatMapFunction)

    419. DataStream->SplitStream的有split;SplitStream->DataStream的有select;
    DataStream->IterativeStream->DataStream的有iterate和map;另外assignTimestamps和project也属于DataStream->DataStream

    420. datastream支持对转换后的精确流分区控制,包括partitionCustom

  • 相关阅读:
    Redis持久化策略
    链表 | 两两交换链表中的节点 | leecode刷题笔记
    Oracle系列十九:Oracle的体系结构
    KMP子串匹配算法
    引领汽车潮改新风向,看“菱大师”柳州炫技
    HTML的有序列表、无序列表、自定义列表
    Git和TortoiseGit下载安装步骤【非常详细】
    OpenCV-Python实战(2) —— 使用OpenCV的绘图功能创建OpenCV的徽标
    第2关:子节点创建、列出、删除
    《淘宝电商业务场景》API接口教程获得淘口令真实url
  • 原文地址:https://blog.csdn.net/fearlesslpp/article/details/126489967