• 大数据技术大全


    什么是数据工程?

    数据工程是设计和构建用于大规模收集、存储和分析数据的系统的实践。组织可以收集大量数据,但为了确保数据在到达数据科学家和分析师时处于高度可用的状态,他们需要合适的人员和合适的技术,数据工程师在这里采取行动。这些是您在处理数据时可能执行的一些常见任务

    获取符合业务需求的数据集

    • 开发算法以将数据转换为有用的、可操作的信息
    • 构建、测试和维护数据库管道架构
    • 与管理层合作以了解公司目标
    • 创建新的数据验证方法和数据分析工具
    • 确保遵守数据治理和安全政策

    必须学习的大量工具和主题不应让初学者感到负担过重。有各种学习阶段,因此作为新手,您应该只专注于掌握要领。随着时间和经验的积累,您会感到轻松自在,并准备好进入高级主题。

    基础知识

    1、数据库概念:

    关系数据库、约束、键、触发器、规范化
    课程推荐:关系数据库设计

    2、Python 编程

    基本语法、处理文件、连接到数据库、构建基本 API、处理结构化(数据库和表)和非结构化(XML、JSON 等)数据。

    3、SQL

    Basic 数据抽取、连接表、键、约束、窗口函数、聚合函数等。

    4、数据仓库和数据建模

    基本数据仓库概念、数据仓库数据建模、星雪花模式、事实和维度表等。

    5、云基础知识

    弹性、可扩展性、云中的存储和计算、云中的数据堆栈。

    6、Hadoop 生态系统和 Spark

    Hadoop、MapReduce、为什么引入 spark、Spark 基础知识。

    高级主题

    1、工作流管理和调度程序

    这是现代数据堆栈中一个非常重要的组件。在 AirFlow(最受欢迎和市场领导者)或其他任何东西(Luigi,Prefect)之间进行选择

    2、数据流

    数据流是由数千个数据源以近乎实时的方式将数据连续发送到目的地
    课程推荐

    3、云数据仓库

    Redshift、Snowflake、BigQuery

    4、数据湖

    提升技能

    仪表板工具

    Power BI、Tableau 或 Looker

    Docker

    Docker 有助于避免与基础设施相关的复杂性。这有助于独立且轻松地设置数据环境。

    结论

    对于我们作为数据工程师的日常工作来说,这些能力中的每一个可能都不是必需的。然而,根据功能,您可能经常需要其中的一项或多项。
    掌握其中的大部分内容需要一些时间。每天都在学习新事物。复合学习将保证您随着时间的推移而提高。没有捷径可走,因此不要相信那些说您可以在几周或几个月内成为数据工程师的人。

  • 相关阅读:
    【微机接口】第四章:汇编语言程序结构
    全排列——dfs(剪枝/回溯)
    秒杀系统(1)——秒杀功能设计理念
    使用Keepalived实现双机热备,实现服务高可用
    spring5.0 源码解析(day04)registerBeanPostProcessors(beanFactory);
    Jenkins pipeline stash实现文件跨节点共享
    k8s--基础--16--Service--理论
    mybatis拦截器源码分析
    第一次复习SpringBoot知识点记录
    【ELM分类】基于matlab遗传算法优化ELM神经网络数据分类【含Matlab源码 2138期】
  • 原文地址:https://blog.csdn.net/iCloudEnd/article/details/127609209