码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 最基础的协同过滤介绍


    文章目录

      • 1.到底什么是协同过滤
      • 2.协同过滤的一般步骤
      • 3.基于用户的CF (User-CF)
        • 3.1 基本介绍
        • 3.2 用户相似度
          • 3.2.1 用户相似度基本介绍
          • 3.2.2 用户相似度改进:ICU
        • 3.3 User-CF的缺点
      • 4.基于项目的CF (Item-CF)
        • 4.1 基本介绍
        • 4.2 用户相似度
          • 4.2.1 用户相似度基本介绍
          • 4.2.2 用户相似度改进
      • 5.协同过滤:基于邻域的评分预测

    该系列历史文章:

    • 1.推荐系统最通俗介绍
    • 2.推荐系统常见算法分类


    资料整理,来源于北大刘宏志教授讲座内容。

    1.到底什么是协同过滤

    • 协同过滤(Collaborative Filtering, CR):利用集体智慧,借鉴相关人群的观点进行推荐。
      在这里插入图片描述

    • 基本假设:

      • 过去兴趣相似的用户在未来的兴趣也会相似(由古及今)
      • 相似的用户会产生相似的(历史)行为数据(由表及里)
    • 协同过滤优缺点

      • 优点:
        • 发现新的兴趣点;不需要领域知识;个性化、自动化程度高
      • 缺点:
        • 协同失效,即基本假设失效

    2.协同过滤的一般步骤

    • 收集数据:收集能反映用户偏好的数据
    • 寻找邻域:相似的用户(或项目)
    • 计算推荐结果:根据邻域信息计算推荐结果

    在这里插入图片描述

    • 举例:

    image-20221126105720276

    • 收集数据说明

    image-20221126105846959

    显式反馈:用户主动地向系统表达其偏好,一般需要用户在消费完项目后进行额外反馈;

    隐式反馈:隐含用户对项目偏好的行为数据,是用户在探索或消费项目过程中正常操作。

    3.基于用户的CF (User-CF)

    3.1 基本介绍

    基本思想:

    • 基于用户对项目的历史偏好找到相邻(相似)的用户

    • 将邻居(相似)用户喜欢的项目推荐给当前用户

    image-20221126110347291
    • 假设:
      • 与我兴趣相似的用户喜欢的项目,我也会喜欢
    • 关键:
      • 寻找相似用户
      • 用户相似度度量

    基于 User-CF 的推荐系统整体流程:

    • 离线预处理:

      • 计算用户之间的相似度

      • 并据此确定每个用户的邻域(K近邻)

    • 在线推荐:针对当前活跃(目标)用户,计算推荐列表

      • 确定候选项目集

      • 预测兴趣度并生成推荐列表

    3.2 用户相似度

    3.2.1 用户相似度基本介绍

    用户相似度计算方法:

    image-20221126111015732

    用户相似度的问题:

    • 下面哪一组用户更相似?

      • 用户A和B都买过《新华字典》

      • 用户C和D都买过《 Recommender Systems Handbook》

    • 【思考】热门项目对我们推荐的影响,如何解决?

    3.2.2 用户相似度改进:ICU

    逆用户频率(Inverse User Frequency)

    • 基本思想:惩罚热门项目

    • 两个用户对冷门项目有过同样行为更能说明他们兴趣相似

    image-20221126111911744

    3.3 User-CF的缺点

    • 难以形成有意义的邻域集合

      • 很多用户两两之间只有很少的共同反馈

      • 而仅有的共同反馈的项目,往往是热门项目(缺乏区分度)

    • 随着用户行为数据的增加,用户间相似度可能变化很快

      • 离线(offline)算法难以瞬间更新推荐结果

    4.基于项目的CF (Item-CF)

    4.1 基本介绍

    基本思想:

    • 基于用户对项目的反馈(偏好)寻找相似(相关)的项目
    • 根据用户的历史反馈(偏好)行为,给他推荐相似的项目
    image-20221126112556163
    • 假设:

      • 我过去喜欢某类项目,将来还会喜欢类似(相关)项目
    • 关键:

      • 寻找相似(相关)项目
      • 项目相似(相关)度度量

    基于 Item-CF 的推荐系统整体流程:

    和前面基于用户的非常类似,在此不做展开

    • 离线预处理、在线推荐

    4.2 用户相似度

    4.2.1 用户相似度基本介绍

    用户相似度计算方法:

    image-20221126113015485

    4.2.2 用户相似度改进

    image-20221126113222026

    5.协同过滤:基于邻域的评分预测

    基于领域的协同过滤算法的关键在于相似度度量的构造。主要有:

    • 余弦相似度

    • 皮尔逊相似度

    • 杰卡德相似度

    除此之外,还有通过距离度量来构造相似度:

    • 欧式距离
    • 曼哈顿距离
    • 闵可夫斯基距离

    这部分内容都比较常规,或者前面讲过,在此不再展开。


    本文主要介绍了协同过滤基本内容,协同过滤,即利用集体智慧,借鉴相关人群的观点进行推荐。其后又介绍了基于用户、项目的协同过滤。

  • 相关阅读:
    射频微波芯片设计3:射频微波芯片设计基础知识
    英国G5生物医学类专业IB成绩要求多高?
    1-5年Java面试者必备:一线名企各专题面试笔记+java核心宝典pdf
    IT技术培训班:实用还是虚幻?
    《ATT&CK视角下的红蓝对抗实战指南》一本书构建完整攻防知识体系
    图解路由协议!
    【ArcGIS Pro微课1000例】0059:计算地级城市之间的距离
    《从零开始的Java世界》01基本程序设计
    Windows下对于Qt中带 / 的路径的处理
    高性能计算软件与开源生态| ChinaOSC
  • 原文地址:https://blog.csdn.net/weixin_39471848/article/details/128084512
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号