个人项目中用到的Flume 各组件，以及Put 事务和Take 事务介绍

个人项目中用到的Flume 各组件，以及Put 事务和Take 事务介绍
1. taildir source
1. 断点续传、多目录
2. 哪个版本产生的？Apache1.7、CDH1.6
3. 在没有断点续传功能时怎么做的？自定义source
4. taildir挂了怎么办？不会丢数：断点续传。Taildir Source 维护了一个 json 格式的 position File，其会定期的往 position File
  中更新每个文件读取到的最新的位置，因此能够实现断点续传。；重复数据：可能发生，但概率很小。
5. 怎么处理重复？生产环境通常不处理，因为出现概率较低，处理会影响效率。处理的话：在taildir source里面自定义事务，影响效率。通过下一级处理（hive dwd、spark streaming等）、去重手段（groupby、开窗取窗口第一条、redis）
6. taildir source是否支持递归遍历文件夹读取文件？不支持。但可以通过自定义遍历文件夹 + 读取文件。
2. file channel/memory channel/kafka channel
1. File Channel
  - 数据存储在磁盘，可靠性高，但传输速度低
  - 默认容量100W个event
  - File Channel可以通过配置dataDirs指向多个路径，每个路径对应不同的硬盘，增大Flume吞吐量。
2. Memory Channel
  - 数据存储于内存中，可靠性差，但传输效率高
  - 默认容量100个event
3. Kafka Channel
  - 数据存于Kafka，基于磁盘，可靠性高。传输速度快 Kafka Channel 大于 Memory Channel + Kafka Sink 原因省去了Sink阶段。
4. Kafka Channel那个版本产生的？
  - Flume1.6版本产生，但是由于有bug没有火，Kafka的topic中每一行的前面都会出现奇怪的字符。Flume1.7解决了这个bug，开始火起来了
5. 生产环境如何选择？
  - 如果下一级是Kafka，优先选择Kafka Channel
  - 如果是金融等对数据要求准确的公司，选择File Channel
  - 如果就是普通的日志，通常可以选择Memory Channel
事务

Source到Channel是Put事务
Channel到Sink是Take事务
相关阅读:
【Python模块】日期时间
 Nginx防盗链
 蓝桥杯嵌入式AT24C02
深入React Flow Renderer（二）：构建拖动操作栏
 传统图像增强三大类别：点增强、空域增强、频域增强
 小猴吃苹果-第12届蓝桥杯Scratch选拔赛真题精选
 Ps：对象选择工具
 Window环境下安装VMware虚拟机来安装 CentOs7
长连接和短连接有什么区别？
Java变量类型 Java进阶必看
原文地址：https://blog.csdn.net/Laoddaaa/article/details/126287635

1. taildir source

2. file channel/memory channel/kafka channel

事务