• 爱奇艺的架构到底有多牛?


    生活在信息爆炸时代的我们越来越清晰的认识到海量信息与数据分析的重要性,如提高数据挖掘能力、为运营决策提供关键数据、通过数据分析助力业务创新、在商业决策中的提供较有价值的信息等成为关键,于是大数据分析平台作为在各大公司迅速崛起。如何为企业个性化打造高效性、准确性、敏捷型等的大数据实时分析平台成为了技术团队的挑战。

    RAP(RealtimeAnalysis Platform)是爱奇艺技术产品团队基于Apache Druid [1] + Spark/ Flink 构建的分钟级延时的实时联机分析处理OLAP(On-Line Analytical Processing)的实时分析平台,支持通过Web向导配置完成超大规模实时数据的多维度分析,能为用户提供一体化的OLAP分析操作流程,只需要几步简单的配置,即可自动建立OLAP模型、并生成分钟级延时的可视化报表。也可以通过RAP API获取聚合数据,与业务平台进行集成。服务于会员、推荐、BI等诸多个业务,总计上线总计上线数百个流计算任务,支持上千张多维分析报表。

    本文将介绍爱奇艺大数据实时分析平台RAP的设计思路、技术架构演进以及业务应用实践。

    1,实时分析需求

    自2010年开始爱奇艺开展了大数据业务,打造了基于Hive + MySQL的第一代OLAP数据分析平台。但随着业务的快速发展和数据量的急剧增长,Hive的离线分析已经无法满足业务对数据实时性的需求。于是逐渐引入Kylin、Impala、Kudu、Druid、ElasticSearch等不同的数据存储/查询引擎,演化出离线数仓、实时数仓、流式数仓等不同OLAP形态。

    在推出RAP实时分析平台之前,业务自行构建实时分析服务面临以下困难:

    · OLAP选型困难: 众多OLAP引擎满足多样化需求,但也带来了不少问题。业务需要了解不同OLAP引擎的优缺点,花费大量精力学习,依然可能选错;

    · 开发成本高: 用户需要写Spark或Flink代码进行实时流数据处理,并进行报表前端开发,流程冗长而复杂;

    · 数据实时性差: 从数据产生到数据可被查询,中间存在较高时延(从数十分钟到天级别不等),且查询较慢;

    · 维护耗费时间: 数据源发生改变时,修改的范围会覆盖整个流程,从数据处理到报表配置全部需要变更,很难操作和维护;

    针对以上问题,我们搭建了支持通过Web向导配置完成超大规模实时数据的多维度分析,生成分钟级延时的可视化报表,在保证数据实时性和分析灵活性的同时,降低开发和维护成本,并将整个分析流程平台化的RAP实时分析平台。

  • 相关阅读:
    Vue2 05 计算属性
    nfs+rpcbind实现服务器之间的文件共享
    ftpClient.listFiles()一直无法获取ftp上的目录文件
    接口--抽象方法
    React 状态管理 - Redux 进阶(上)
    react基础知识3
    传输层协议——UDP
    海外广告投放保姆级教程,如何使用Quora广告开拓新流量市场?
    中企出海,用火山引擎DataTester开启增长第一步
    【性能测试JMH】SpirngBoot结合 JMH进行性能测试 调优
  • 原文地址:https://blog.csdn.net/m0_74931226/article/details/127897440