• 大数据数据采集工具简介


    随着大数据技术体系的发展,越来越多的企业应用大数据技术支撑自己的业务发展。数据采集作为大数据的起点,是企业主动获取数据的一种重要手段。数据采集的多样性、全面性直接影响数据质量。
    企业获取数据的渠道分为内部和外部两个渠道。内部渠道包含自己建设的业务系统,如电商系统、门户网站、门户论坛等。外部渠道包含爬虫系统爬取的数据、三方合作平台数据、公共社交平台数据等。那么如何从这些渠道获取数据?下面简单地介绍一下常用的数据采集工具。
    结构化数据采集工具。
    结构化数据在分析型的原始数据占比比较大,大部分经过预处理进入数据仓库进一步多维分析和数据挖掘。常用的数据采集工具有:
    请添加图片描述

    1 Apache Flume
    支持离线与实时数据导入,是数据集成的主要工具。
    2 Apache Sqoop
    主要使用JDBC等工具连接关系型数据库与Hadoop生态圈的文件系统,通过配置文件配置双向连接信息后,通过命令完成数据的导入导出。
    半结构化数据采集工具
    半结构化的数据多见于日志格式。对于日志采集的工具,比较常见的是
    1 Logstash
    Logstash与ElasticSearch、Kibana并称为ELK,是采集日志的黄金搭档。
    2 Apache Flume也多用于日志文本类数据采集。
    非结构化数据采集工具
    1 DataX
    DataX轻量级中间件,在关系型数据库导入导出性能比较优异。支持多种数据类型的导入导出。
    流式数据采集工具
    1 Kafka
    性能优异超高吞吐量。
    Binlog日志采集工具
    1 Canal
    基于MySQL数据库增量日志解析提供增量日志订阅和消费功能。
    爬虫采集框架与工具
    1 Java栈,Nutch2、WebMagic等。
    2 Python栈,Scrapy、PySpider

  • 相关阅读:
    Day12--点击轮播图跳转到商品详情页
    常用hivesql记录
    Cobra眼睛蛇-强大的Golang CLI框架,快速上手的脚手架搭建项目工具,详细安装和使用
    堆排序——向下调整
    string的应用及模拟实现
    Oracle 11G 性能优化一例
    Windows-Delphi 窗口置顶
    [附源码]计算机毕业设计基于SpringBoot的疫苗接种管理系统
    剑指offer——JZ25 合并两个排序的链表 解题思路与具体代码【C++】
    戴尔笔记本重装系统按f几进入
  • 原文地址:https://blog.csdn.net/D0126_/article/details/127859656