• 大数据应用概览(林子雨慕课课程)


    14 大数据应用概览

    14.1 大数据应用概览
    • 大数据的主要应用领域

      image-20231013163150153

      • 互联网:推荐系统
      • 生物医学领域:流行病预测、智慧医疗、生物信息学
      • 物流:智能物流、中国智能物流骨干网—菜鸟
      • 城市管理:智能交通、环保检测、城市规划、安防领域
      • 金融行业:高频交易、市场情绪分析、信贷风险分析
      • 汽车行业:无人驾驶汽车
      • 零售行业:发现关联购买行为、客户群体细分
      • 餐饮行业:餐饮O2O
      • 电信行业:电信客户离网分析
      • 能源行业:智能电网
      • 体育娱乐行业:投拍影视作品,训练球队、预测比赛结果
      • 安全领域:防御网络攻击、预防罪犯
      • 政府领域:选择
    14.2 大数据在互联网的应用—推荐系统
    14.2.1 推荐系统概述
    • 什么是推荐系统?

      image-20231013164921114

    • 推荐系统可以创造全新的商业和经济模式,帮助实现长尾商品的销售

      • 长尾理论:冷门商品累计的总销售额也许会超过热门商品

        image-20231013165204403

    • 推荐方法

      • 专家推荐
      • 基于统计的推荐
      • 基于内容的推荐
      • 协同过滤推荐:通过与用户A相似的用户B对商品的评价,从而推导出用户A是否喜欢这个商品
      • 混合推荐:多种推荐算法组合
    • 推荐系统模型

      image-20231013165449825

    • 推荐系统的应用

      image-20231013165509398

    14.2.2 基于用户的协同过滤算法(UserCF)
    • 协同过滤分类

      image-20231013165658580

    • 基于用户的协同过滤算法

      image-20231013165734362

    • UserCF算法实现主要包括两个步骤

      • 找到和目标用户兴趣相似的用户集合

      • 找到该集合中的用户所喜欢的、且目标用户没有听说过的物品推荐给目标用户

        image-20231013165925919

    • 衡量不同用户相似的算法

      • 泊松相关系数

      • 余弦相似度

        image-20231013170122861

        • 由于很多用户相互之间并没有对同样的物品产生过行为,因此相似度公式的分子为0,相似度也为0

        • 因此利用用户倒排表可以只对有交集的用户进行计算

          根据图b,可以获得图c的相似度矩阵,若a和c喜欢相同的物品A和C,就在a和c对应的相似度矩阵上+2,(a,c)=(c,a)=2

          image-20231013170309406

      • 调整余弦相似度

    • 得到相似度后,计算用户u对用物品i的兴趣程度

      image-20231013170651380

      image-20231013170842006

    14.2.3 基于物品的协同过滤(ItemCF)
    • 基于物品的协同过滤算法

      image-20231013170932326

    • 基于物品的协同过滤算法步骤

      • 计算物品之间的相似度
      • 根据物品的相似度和用户的历史行为,给用户生成推荐列表

      image-20231013171055081

    • 如何计算物品之间的相似度?

      • (b)物品相似度矩阵:每个用户对于其购买的商品都生成了一个相似度矩阵,因此有3个矩阵,分表表示a,b,c三个用户
      • 将b中的三个相似度矩阵累加,得到图c的相似度矩阵

      image-20231013171408818

    • 如何求用户u对物品j的兴趣程度?

      image-20231013171911895

    14.2.4 UserCF算法和ItemCF算法的对比

    image-20231013172127234

    • UserCF算法:适合应用于新闻推荐、微博话题推荐等应用场景,其推荐结果在新颖性方面有一定的优势
      • 缺点:随着用户数目的增大,用户相似度计算复杂度越来越高。而且UserCf推荐结果相关性较弱,难以对推荐结果作出解释,容易受大众影响而推荐热门物品
    • ItemCF算法:适合应用于电子商务、电影、图书等应用场景,可以利用用户的历史行为给推荐结果作出解释、让用户更为信服推荐的结果
      • 缺点:倾向于推荐与用户已购买商品相似的商品,往往会出现多样性不足,推荐新颖度低的问题
    14.3 基于大数据的综合健康服务平台
    • 目标

      image-20231013173049339

    • 整体结构

      image-20231013173231955

    • 大数据在物流方面的应用

      image-20231013173455345

      image-20231013173519564

      • 阿里物流体系

        image-20231013173616816

  • 相关阅读:
    一元多项式
    磁盘的架构
    Vue2源码-diff算法详解
    imx6ull 以太网
    电商风控系统(flink+groovy+flume+kafka+redis+clickhouse+mysql)
    QT打造高效线程池异步QWebSocket 客户端
    LeetCode --- 1528. Shuffle String 解题报告
    JavaScript常用工具函数汇总(一)
    spring security快速入门 (无多余额外功能)
    什么是网络存储服务器
  • 原文地址:https://blog.csdn.net/weixin_44911248/article/details/133815804