内容搜索的价值主要体现在两个方面:
对用户而言,用户将搜索作为寻找内容的工具,目标是“搜的到,搜的准”。用户更关心搜索结果的相关性、时效性和多样性。
对平台而言,搜索是内容消费、流量引导的核心入口,目标是提升用户满意度与留存率。更进一步,搜索还能支持平台的宣发和商业价值,实现业务增长与流量变现。
对于内容文娱行业,OpenSearch汇集多个相关数据来源,利用千万级数据训练了行业增强版分词模型。
针对更加特殊的垂类业务场景,在原有分词算法模型基础上,支持基于业务数据的定制分词模型,提供专属文本分词器。
| 文本 | 通用版 | 内容文娱版 |
| 拜仁或将签下凯恩以接替莱万 | 拜仁 或 将 签 下 凯恩 以 接替 莱 万 | 拜仁 或 将 签 下 凯恩 以 接替 莱万 |
| 夜兰配队 | 夜 兰 配 队 | 夜兰 配 队 |
| 复联4高燃场面 | 复 联 4 高燃 场面 | 复联 4 高燃 场面 |
| 彭昱畅和江疏影演情侣 | 彭昱 畅和 江疏影 演 情侣 | 彭 昱畅 和 江 疏影 演 情侣 |
相比传统文本搜索通过分词、同义词、纠错、词权重等算法技术增强语义搜索效果,基于深度学习的语义向量召回模型具备更强大的表征能力,可以更好地处理用户查询词中的简写、别名、拼写错误等情况。

开放搜索OpenSearch和阿里达摩院合作自研的向量召回技术,在业界知名榜单MS MARCO上夺冠。
结合文娱行业数据训练的向量召回模型目前已在OpenSearch对客户透出。
| query | 詹姆士绝杀 |
| 向量召回 TOP 1 | 詹姆斯绝杀 |
| 向量召回 TOP 2 | 詹姆斯不是绝杀? |
| 向量召回 TOP 3 | 关于詹姆斯绝杀球 |
| query | 佐鸣 |
| 向量召回 TOP 1 | 鸣佐结局 |
| 向量召回 TOP 2 | 鸣人喜欢佐助哪点 |
| 向量召回 TOP 3 | 鸣人和佐助谁更强? |
针对内容文娱行业往往个性化诉求和实时性需求较高。比如不同用户兴趣爱好的引导、以及当天的热点事件引导。
CTR预估模型充分结合行业特点,保障搜索个性化建模和内容实时性。整体网络框架如下:

CTR预估模型可以根据客户特点和诉求做对应模型定制和链路定制,以达到更优业务转化效果。
| 球鞋爱好者搜:科比 | 粉丝搜:科比 | 8.24当天搜:科比 |
| 科比那些年穿过的球鞋 | 科比10佳投篮精彩瞬间 | 球迷致敬科比 |
| 科比同款球鞋 | 体验科比的一天 | 科比头像 |
| 科比8球鞋评测 | 巅峰科比实力到底有多强? | 科比永远的MVP |
某文娱资讯平台,原自建搜索存在搜不准,跳出率较高等问题,直接影响用户体验和用户粘性。通过接入开放搜索OpenSearch 15天快速实现搜索效果各项指标的提升。
本文为阿里云原创内容,未经允许不得转载。