码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • SQL基础知识


    目录

      • SparkCore
        • RDD 概述 特性
        • RDD的创建和分区规则
        • Transformation转换算子
          • 1. Value类型
          • 2. 双Value类型
          • 3. Key-Value类型
        • Action 行动算子
        • RDD序列化 闭包检查 序列化方法和属性 Kryo序列化框架
        • RDD依赖关系
        • RDD持久化
        • spark 分区器
        • Spark Core IO 读写
        • 累加器
        • 广播变量
        • SparkCore项目实战
      • Spark SQL
        • Spark SQL DataFrame DataSet概述
        • Spark SQL API
        • Spark SQL IO 读写
        • SparkSQL项目实战:TopN
      • Spark Streaming
        • Spark Streaming概述 特点 架构
        • DStream创建 通过监听端口 自定义数据源 Kafka数据源
        • DStream无状态化转换原语&有状态转化原语
        • DStream输出原语-foreachRDD&使用SparkSQL处理采集周期中的数据
        • Spark Streaming项目实战
      • Spark 内核
      • spark 面试

    SparkCore

    • RDD 概述 特性

    Spark RDD 概述 特性

    • RDD的创建和分区规则

    Spark RDD 创建和分区规则

    • Transformation转换算子

    1. Value类型

    Spark map和mapPartitions

    Spark mapPartitionsWithIndex

    Spark flatMap

    Spark glom

    Spark groupBy

    Spark filter

    Spark sample

    Spark distinct

    Spark coalesce和repartition

    Spark sortBy

    2. 双Value类型

    Spark union并集, subtract差集, intersection交集, zip拉链

    3. Key-Value类型

    Spark partitionBy

    Spark reduceByKey

    Spark groupByKey

    Spark aggregateByKey

    Spark foldByKey

    Spark combineByKey

    Spark reduceByKey、aggregateByKey、foldByKey、combineByKey 小结

    Spark sortByKey

    Spark mapValues

    Spark join和cogroup

    SparkCore 阶段练习:广告点击Top3

    • Action 行动算子

    spark Action 行动算子

    • RDD序列化 闭包检查 序列化方法和属性 Kryo序列化框架

    spark 序列化 序列化方法和属性 Kryo序列化框架

    • RDD依赖关系

    spark 窄依赖 宽依赖 Spark job 划分 DAG有向无环图

    • RDD持久化

    RDD Cache缓存 CheckPoint检查点 缓存和检查点区别 检查点存储到HDFS集群链接

    • spark 分区器

    spark 分区器

    • Spark Core IO 读写

    RDD 读取json 读取MySQL 写入MySQL链接

    • 累加器

    spark 自定义累计器

    • 广播变量

    spark 广播变量链接

    • SparkCore项目实战

    SparkCore项目实战 需求一Top10热门品类 需求二Top10热门品类中每个品类的Top10活跃Session统计 需求三计算页面单跳转换率链接

    Spark SQL

    Spark SQL DataFrame DataSet概述

    Spark SQL DataFrame DataSet概述 链接

    • Spark SQL API

    Spark SQL API SQL & DSL风格 RDD DF DS 三者之间的转换 用户自定义函数UDF UDAF链接

    • Spark SQL IO 读写

    Spark SQL 代码读取mysql&代码读取hive

    • SparkSQL项目实战:TopN

    SparkSQL项目实战:TopN链接

    Spark Streaming

    • Spark Streaming概述 特点 架构

    Spark Streaming概述 特点 架构

    • DStream创建 通过监听端口 自定义数据源 Kafka数据源

    DStream创建 通过监听端口 自定义数据源 Kafka数据源链接

    • DStream无状态化转换原语&有状态转化原语

    DStream无状态化转换原语&有状态转化原语

    • DStream输出原语-foreachRDD&使用SparkSQL处理采集周期中的数据

    DStream输出原语-foreachRDD&使用SparkSQL处理采集周期中的数据

    • Spark Streaming项目实战

    Spark Streaming项目实战 项目一每天每地区热门广告Top3 项目二最近12s广告点击量实时统计

    Spark 内核

    Spark 内核

    spark 面试

    spark 面试

  • 相关阅读:
    IDEA 好用的插件
    【工具】压力测试、安全、进程、流量、磁盘、日志
    C 语言标准库
    TypeScript 基础类型
    工业CT检测技术及工业CT基本组成
    TiDB Lightning 命令行参数
    Linux UWB Stack实现——MCPS接口
    CAN测量模块总线负载率,你关注了吗?
    互联网Java工程师面试题·Java 总结篇·第十弹
    【数据结构(邓俊辉)学习笔记】二叉搜索树03——平衡
  • 原文地址:https://blog.csdn.net/qq_43192537/article/details/108267962
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号