码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【快手面试】Word2vect生成的向量,为什么可以计算相似度,相似度有什么意义?


    背景:

    我是推荐算法方向的面试,在面试的时候,使用word2vector的方法生成item的向量,来计算行为序列中的item跟待预估的item的相似度,来作为一维特征。

    二面面试官问题:

    Word2vect生成的向量,为什么可以计算相似度,相似度有什么意义?

    答案分析:

    term在相同的前后文中,认为两个term是等价的,它们学到的向量也更接近,所以item的向量计算相似度,表示两个向量的相似程度,也即是是否等价。

    原理分析:

    什么词算相似,一般可以认为,如果两个词的上下文越相似,这两个词也就越相似。比如牛在吃草,马在吃草,牛和马后面的词都一样。又或者是我家在北京,我家在上海,北京和上海的功能差不多,这两个词也就越相似,个人认为这也就是word2vec的出发点。

    word2vec得出的词向量其实就是训练后的一个神经网络的隐层的权重矩阵,在经过CBOW或者Skip-Gram模型的训练之后,词义相近的词语就会获得更为接近的权重,因此可以用向量的距离来衡量词的相似度。

    向量相似性,一般地,我们以向量的夹角来评价两个向量的相似性

    这样我们就可以发现,如果有两向量u,v,

    当u加上s*v时(s是正标量),u和v的夹角变小,因此更相似,

    当u减去s*v时(s是正标量),u跟v的夹角变大,因此相似性减弱

    参考:
    语言模型1-word2vec为什么能训练出相似向量_PeaceInMind的博客-CSDN博客

  • 相关阅读:
    从C语言到C++_37(特殊类设计和C++类型转换)单例模式
    Linux系统中搭建DNS服务器
    关于 HTTPS 和 SSL
    新手答疑解惑,Ajax 到底是啥,新手必看
    vue中v-for和v-if同时使用的解决办法
    void关键字
    Nginx(五) break,if,return,rewrite和set指令的执行顺序深究
    物联网浏览器(IoTBrowser)-MQTT协议集成和测试
    actionBar 导航栏学习
    深挖 Python 元组 pt.1
  • 原文地址:https://blog.csdn.net/pearl8899/article/details/126131676
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号