• 【校招VIP】前端算法考点之大数据相关


    考点介绍:
    大数据的关键技术分为分析技术和处理技术,可用于大数据分析的关键技术主要包括A/B测试,关联规则挖掘,数据挖掘,集成学习,遗传算法,机器学习,自然语言处理,模式识别,预测模型,信号处理,空间分析,监督式学习,时间序列分析等,可用于大数据处理的关键技术主要是商业智能,云计算,数据仓库,数据集市,分布式系统,元数据,非关系型数据库,非结构化数据,半结构化数据,SOL,流处理和可视化技术等。

    本期分享的前端算法考点之大数据相关,分为试题、文章以及视频三部分。

    前端算法考点之大数据相关  相关题目及解析内容可点击文章末尾链接查看!

    一、考点题目

    1.写出大数据特征的4个V?
    解答:数据量大volume,数据类型繁多 variety,处理速度快velocity,价值密度低value……

    2.关于Hadoop常用命令中,touchz和Linux系统的touch命令的描述正确的是()
    A.没区别
    B.touchz不能新建文件
    C.touchz不可用于更新文件的修改日期
    D.touch不可用于更新文件的修改日期

    正确答案: C     【解析】A.错误 B.touchz也可用于新建文件 C.正确……

    3.现有一个安装 2.6.5 版本的 Hadoop 集群,在不修改默认配置的情况下,存储 200 个每个 200M 的文本文件,请问最终会在集群中产生多少个数据块(包括副本)?
    A.200
    B.40000
    C.400
    D.1200

    正确答案:D
        在默认情况下,HDFS 集群默认存储文件 3 份,并且大文件会按照 128M 的数据块大小进行切割分散存储。所以题目中每个文件分为两块,总数据块有(200 * 2)= 400个。再加上会存储三份,所以 400 * 3 = 1200……

    二、考点文章

    1.【校招VIP】大数据平台模型数据算法总结
    大数据平台数据来源于企业内部、外部各个源系统,包括企业内部的前端人工输入、智能设备采集、app端埋点日志、外部数据采购等等等等,可以说是千奇百怪五花八门,从以前的CDS到数据仓库,再到数据湖、数据中台,整个企业内部数据流向就如同一条条毛细血管中的血液,由全身各处流向心脏,在做有氧交换,处理、加工……

    2.【校招VIP】大数据必须掌握的三个基本算法
    Hadoop自带的Partitioner的实现有两种,一种为HashPartitioner, 默认的分区方式,计算公式 hash(key)%reducernum,另一种为TotalOrderPartitioner, 为排序作业创建分区,分区中数据的范围需要通过分区文件来指定。很多初学者,对大数据的概念都是模糊不清的……

    3.【校招VIP】大数据算法-求TopN热搜关键词
    搜索引擎的热门搜索排行榜功能你用过吗?你知道这个功能是如何实现的吗?实际上,它的实现并不复杂。搜索引擎每天会接收大量的用户搜索请求,它会把这些用户输入的搜索关键词记录下来,然后再离线地统计分析,得到最热门的 Top 10 搜索关键词……

    三、考点视频

    1.直接插入排序和最佳复杂度
    本题是校招的常见考点之一,这里考察的是简单排序的直播插入排序。首先要对熟悉排序算法本身,不要把选择和插入搞混。其次是针对每一轮的排序,考虑最少的比较次数是多少……

    前端算法考点之大数据相关  相关题目及解析内容可点击下方链接查看:

    前端算法考点之大数据相关-移动端链接
    前端算法考点之大数据相关-PC端链接

  • 相关阅读:
    美国能源部国家实验室将量子计算用于关键能源研究
    ch1_系统启动_bootsect.s
    前端教程-小程序
    Spring Cloud Consul 入门指引
    专利:一种基于深度强化学习的机器人工件抓取方法
    计算机网络基础(二):物理层、数据链路层及网络层
    leetcode53 -- 最大数组和
    为什么标准AR HUD的FOV必须在10°×3°以上|技术科普
    python 提取红楼梦第一章得到五言律诗和七言律诗(正则表达式)
    建立一个新的高阶数学教授模式,知其然,知其用,知其之所以然,知其所以然
  • 原文地址:https://blog.csdn.net/shuize123/article/details/132620188