flink理论干货笔记（5） - 码农知识堂

flink理论干货笔记（5）

401. 启动检查点，用StreamExecutionEnvironment的enableCheckpointing(n)，其中n是检查点间隔

402. 检查点的其他参数包括，至少一次or刚好一次，检查点超时时间，检查点之间的最短时间，并发检查点数，外部化检查点，关于检查点错误是否继续任务

403. 相关配置选项：state.backend(以及更进一步的async即是否用异步快照、fs.memory-threshold即状态数据文件的最小大小、incremental即增量检查点、local-recovery即是否本地恢复)、state.checkpoints.(dir即检查点默认目录、num-retained即已完成检查点最大数量)、state.savepoints.dir即保存点的默认目录

404. 默认情况下，状态保存在TaskManager的内存中，检查点存储在JobManager的内存中。可通过env.setStateBackend()设置状态后台

405. 目前flink迭代作业不支持状态检查点，因为可能会导致异常。但也可以强制进行，需要设置env.enableCheckpointing(…)

406. 查询状态对象时，无需任何同步或复制即可从并发线程访问该对象。可查询状态包含三个实体：QueryableStateClient、QueryableStateClientProxy、QueryableStateServer

407. 要启动可查询状态，需要如flink-queryable-state-runtime_2.11-1.7-snapshot. jar，启动后在TM下会有相关日志

408. 调用asQueryableState，就能得到QueryableStateStream；或者stateDescriptor. setQueryable(…) 也能使状态变得可查询

409. 要使用QueryableStateClient，需要加入依赖项如flink-queryable-state-client-java_2.11

410. 配置好后就能调用getKvState，参数是jobId、queryableStateName、key、keyTypeInfo、stateDescriptor，得到一个CompletableFuture

411. 注意：查询到的状态（如valueState、mapState、listState等）都是无法修改的

412. QueryableStateOptions的参数配置会影响状态服务器的行为，包括query.server.ports、query. server.network-threads、query.server.query-threads、query. proxy. ports、query. proxy. network-threads、query. proxy. query-threads

413. 状态后台有多种，如MemoryStateBackend、FsStateBackend、RocksDBStateBackend等，可通过env.setStateBackend()来设置

414. 建议避免使用匿名类作为状态序列化程序，因为它对生成的类名没有保证，在编译器之间有所不同

415. 每次执行检查点时，都会调用snapshotConfiguration方法来创建状态序列化程序配置的时间点视图；ensureCompatibility用来确保序列化程序的兼容性

416. TypeSerializerConfigSnapshot是所有序列化程序配置snapshot的基类，有getVersion、read、write方法

417. ensureCompatibility用于检查串行器是否兼容、确认序列化程序是否兼容。CompatibilityResult.compatible()表示串行器兼容，CompatibilityResult.requiresMigration()表示串行器不兼容

418. datastream算子分为多种：
DataStream->DataStream的有map、flatmap、filter
DataStream->KeyedStream的有keyBy
KeyedStream->DataStream的有reduce、fold、sum、min、max、minBy、maxBy
KeyedStream-> WindowedStream的有window
DataStream-> AllWindowedStream的有windowAll
WindowedStream-> DataStream的有apply、reduce、fold、sum、min、max、minBy、maxBy
AllWindowedStream-> DataStream的有apply
DataStream*->DataStream的有union
DataStream,DataStream ->DataStream的有join、coGroup
KeyStream,KeyedStream-> DataStream的有intervalJoin
DataStream,DataStream->ConnectedStreams的有connect
ConnectedStreams->DataStreams的有map和flatMap(需分别定义CoMapFunction和CoFlatMapFunction)

419. DataStream->SplitStream的有split；SplitStream->DataStream的有select；
DataStream->IterativeStream->DataStream的有iterate和map；另外assignTimestamps和project也属于DataStream->DataStream

420. datastream支持对转换后的精确流分区控制，包括partitionCustom

相关阅读:
Redis持久化策略
 链表 | 两两交换链表中的节点 | leecode刷题笔记
 Oracle系列十九：Oracle的体系结构
 KMP子串匹配算法
 引领汽车潮改新风向，看“菱大师”柳州炫技
 HTML的有序列表、无序列表、自定义列表
 Git和TortoiseGit下载安装步骤【非常详细】
OpenCV-Python实战(2) —— 使用OpenCV的绘图功能创建OpenCV的徽标
 第2关：子节点创建、列出、删除
 《淘宝电商业务场景》API接口教程获得淘口令真实url

原文地址：https://blog.csdn.net/fearlesslpp/article/details/126489967

最新文章

攻防演习之三天拿下官网站群
 数据安全治理学习——前期安全规划和安全管理体系建设
 企业安全 | 企业内一次钓鱼演练准备过程
 内网渗透测试 | Kerberos协议及其部分攻击手法
 0day的产生 | 不懂代码的"代码审计"
安装scrcpy-client模块av模块异常，环境问题解决方案
 leetcode hot100【LeetCode 279. 完全平方数】java实现
 OpenWrt下安装Mosquitto
AnatoMask论文汇总
 【AI日记】24.11.01 LangChain、openai api和github copilot

热门文章

十款代码表白小特效一个比一个浪漫赶紧收藏起来吧！！！
奉劝各位学弟学妹们，该打造你的技术影响力了！
五年了，我在 CSDN 的两个一百万。
Java俄罗斯方块，老程序员花了一个周末，连接中学年代！
面试官都震惊，你这网络基础可以啊！
你真的会用百度吗？我不信 — 那些不为人知的搜索引擎语法
 心情不好的时候，用 Python 画棵樱花树送给自己吧
 通宵一晚做出来的一款类似CS的第一人称射击游戏Demo！原来做游戏也不是很难，连憨憨学妹都学会了！
13 万字 C 语言从入门到精通保姆级教程2021 年版
 10行代码集2000张美女图，Python爬虫120例，再上征途