码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Hadoop3:MapReduce源码解读之Map阶段的FileInputFormat的切片原理(2)


    Job那块的断点代码截图省略,直接进入切片逻辑
    参考:Hadoop3:MapReduce源码解读之Map阶段的Job任务提交流程(1)

    4、FileInputFormat切片源码解析

    切片入口
    在这里插入图片描述
    获取切片
    在这里插入图片描述
    获取切片最大的Size和切片最小的Size
    在这里插入图片描述
    判断文件是否可以切片,如果文件不支持切片,则整体处理
    这里只考虑支持切片的代码逻辑
    在这里插入图片描述
    根据切片大小配置,及块大小配置,计算出切片最终取值
    在这里插入图片描述
    此处可以看出,如果块大小配置在切片大小之间的值,则切片大小取块大小。
    在这里插入图片描述
    这里可以看出,切片是对每一个文件单独计算的,不是把所有文件累加到一起的大小进行计算切片数量。
    在这里插入图片描述

    切片的一个代码层面的处理逻辑。
    如果,文件大小小于切片大小的1.1倍,则不增加切片。
    然后根据splitSize值去划分数据块
    在这里插入图片描述
    生成临时切片文件
    在这里插入图片描述
    创建配置信息文件到临时文件夹中
    在这里插入图片描述

    总结

    FileInputFormat类的继承关系
    在这里插入图片描述
    主要关注该类里面的getSplits方法
    在这里插入图片描述
    整体流程梳理
    在这里插入图片描述在这里插入图片描述
    常用API
    在这里插入图片描述

  • 相关阅读:
    基于SpringBoot的在线试题库系统设计与实现
    设计模式PHP实现之------单例模式
    聊聊推荐系统的评测(下)
    linux入门6—日志分析与故障排除
    【算法集训 | 暑期刷题营】7.27题---并查集
    Vim实用技巧_4.管理多个文件(打开 + 切分 + 保存)
    Python学习十一:Web编程
    ESP8266-Arduino编程实例-PCT2075温度数字转换器驱动
    Cholesterol-PEG-Acid CLS-PEG-COOH 胆固醇-聚乙二醇-羧基修饰肽类化合物
    Linux目录权限修改-2
  • 原文地址:https://blog.csdn.net/Brave_heart4pzj/article/details/139474193
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号