为了您自己的健康进行体检。推荐系统对于不同的业务、不同的场景、不同的阶段也有不同的衡量标准。因此,选择合适的评价指标和合适的评价方法可以使推荐系统更加有效。那么我们如何评估推荐系统的“健康”呢?
推荐系统从海量数据中挖掘用户偏好的内容来满足用户的需求。一个完善的推荐系统对于实现“精准推荐”、同时容纳“千人千面”至关重要。
就像给自己的健康做一次健康检查一样,推荐系统针对不同的项目、不同的场景、不同的阶段有不同的指标,重要的是选择合适的评价指标和合适的评价方法,只有干了才能做出推荐。所以。让您的系统更加“健康”。
推荐系统的常用指标推荐系统的评价指标必须从解决实际问题的角度来考虑。一个好的推荐系统不仅要保证自身的“健康”,还要满足服务平台、用户等的需求。
图1:推荐系统的基本流程
1、从用户的角度来看,用户最重要的需求是更方便、更快捷地找到自己喜欢的产品,满足自己的需求。
准确度:准确度衡量推荐的商品是否被用户喜欢,例如用户观看后是否可以使用,或者推荐的商品是否可以添加到购物车。衡量用户偏好。惊喜程度:推荐给用户第一眼就印象深刻、惊喜的商品。例如,它会推荐您不记得名称的音乐或电影,或者您知道其功能但不知道名称的产品。虽然这种推荐不一定与用户的历史兴趣相似,但用户非常满意,超出了用户的预期。新颖性:推荐用户以前没有遇到过的东西。推荐的产品不一定是用户最喜欢的,但可以增加用户探索的欲望,捕获更完整的用户兴趣。多样性:人们往往有不同的兴趣,通过向用户推荐多个类别的项目,我们可以为用户探索新的兴趣点,扩大用户的兴趣范围,改善用户的推荐,从而改善您的体验。
2.平台视角:平台向用户提供物品和信息。有些平台通过会员赚钱,有些平台通过产品赚钱,大多数通过广告赚钱。
因此,业务目标是平台最重要的目标之一。一般来说,有两类值得注意。一是内容满意度,二是场景转化率。
1)内容满意度
不同的业务场景需要不同的内容满意度指标。这些指标主要通过用户对您产品的各种行为来衡量。下图中的示例显示了不同领域的内容满意度指标。
图2:内容满意度评价指标
2)场景转化率
转化率是一个相对直观的指标,当我们向用户进行推荐时,我们期望他们对推荐的内容采取行动,比如常见的点击和点赞。
PV点击率(clicks/pv):一个比较经典的指标,大致衡量转化效果,但少数用户贡献了大量的点击,使得这个指标的可靠性模糊不清。 UV点击率(Click-Through Rate/UV):与PV Click-Through Rate相比,该指标不受产品重复浏览的影响,可以记录用户在一个完整周期内的点击效果。曝光点击率(点击/曝光):适合信息流等支持上拉/下拉翻页的产品。曝光次数根据用户滑动屏幕的次数而增加。增加,允许更真实地记录每个屏幕状态转换。 UV 转化率(转化/点击):衡量用户转化以及能够从一种场景转化到另一种场景的用户百分比。例如,在视频应用的首页,使用UV转化率更有意义,因为一般用户点击视频后,会转到详情页并继续交互,而不是返回首页。每个用户的点击次数(点击次数/UV 点击次数):每个用户的点击次数补充了UV 转化率,让您可以衡量用户深度,而UV 转化率则衡量用户广度。用户。 *注:pv:页面被访问次数,uv:访问页面的人数。
推荐系统的离线评价推荐系统的评价指标除了上面提到的用户和平台角度之外,还包括推荐系统本身的评价。
推荐系统接收数据,生成推荐结果,并进行自身修正以消除推荐结果的影响。所以这本质上是一个闭环系统,离线部分的工作主要是通过学习训练和其他策略规则来记忆的,主要指标有:
图3:推荐系统评估阶段
1.准确度准确度评估主要是为了评价推荐算法模型的质量,为选择合适的模型提供决策支持。
与其他机器学习类似,推荐系统将数据分为训练集和测试集,使用训练集来学习和训练模型,并使用测试集来测量错误并评估准确性。用于衡量准确性的指标根据推荐系统的目的而有所不同。
分类问题:例如,点击与非点击或喜欢与不喜欢是分类问题中的关键指标,表明用户对推荐结果的喜欢程度。
召回率代表用户偏好并被推荐系统推荐的产品数量。当然,我们希望这两个指标都尽可能大。但在实际操作中,需要平衡这两个指标之间的关系,因此F指数是经常用来平衡两者关系的一种计算方法。
预测收视率:为了评估电影收视率等产品,常用的准确性指标包括均方根误差(RMSE)和MAE(平均绝对误差)。两者的主要区别在于计算方法;都代表算法。预测和实际产品评级之间的差距。
排序问题:分类和评分预测问题仅过滤可以推荐的产品,但不包括它们向用户展示的顺序。当然,你应该放置用户最有可能“消费”的产品。首先,您需要一个排名指标。
最常见的离线指标是AUC。简单来说,AUC代表正样本和负样本被随机选择并且正样本排在负样本之前的概率。因此,如果一个算法能够更好地将正样本排在前面,那么它就是一个好的算法模型。
其他常见的算法指标,例如MAP,表示产品相对于用户在推荐列表中的位置得分。分数越高,MRR 越基于相关产品排名的倒数作为准确度(NDGG)。列出推荐列表中各产品的累计评价值。每个产品的位置也会被考虑在内,并最终标准化,以使用相同的标准评估不同的推荐列表。
2、覆盖率覆盖率是指推荐产品占总产品的百分比。除了产品之外,类别和标签也可以通过覆盖率来评估。
3.多样性用户的兴趣并不是固定的,对于某些产品,同一用户的兴趣可能会受到一天中的时间、心情、节假日等多种因素的影响。因此,在进行推荐时,尽量推荐多种产品。对于具体的多样性评估,可以通过对产品进行聚类,将不同类别的产品添加到推荐列表中来提高多样性。
4、时效性例如,电商产品时效性要求不是很高,但新闻、资讯、短视频等产品时效性要求非常高。因此,为每个产品或产品下的类别设置不同的时效也是提高推荐质量的一种方法。
推荐系统的在线评估在线评估大致可以分为两个阶段:用户触发推荐服务时和用户产生动作时。
1、提高推荐服务的稳定性:为了增加推荐的有效性,系统的稳定性对于用户体验至关重要。在保证系统稳定性的同时,还需要对系统进行优化。高并发:当某个时间有大量用户访问,或者用户基数非常大时,推荐系统能否承受高并发的压力也是一个很大的挑战。因此,设计高并发系统,了解各种接口的高并发能力,并进行适当的压力测试,也是推荐系统能否提供稳定服务的重要方面。响应时间:响应时间衡量用户是否及时得到推荐反馈。响应时间受网络状况、服务器、数据库等多种因素影响。您可以监控请求的长度并使其超时。警报。同时,我们优化生成推荐结果时的计算方法,简化制造流程,尽可能避免响应时间的影响。
2.行为生成:该阶段主要利用用户生成行为,通过收据分析用户行为日志,评估相关指标。现阶段我们更多地从平台角度考虑,从商业化指标、用户行为指标等方面进行评估。
例如,转化率、购买率、点击率等都是常见的行为指标。用户行为通常遵循漏斗模型(例如推荐曝光、点击、浏览、分享等)。描述不同阶段之间的转换。提高不同阶段之间的用户转化。
图4:用户行为漏斗模型
AB测试的在线评估通常在新算法或策略推出时使用,以比较新旧算法的差异,并且只有当新算法具有明显优势时。替换旧算法。
图5:AB测试流程
1.什么是AB试验?AB试验的本质是对照试验,源自生物医学双盲试验,对两组患者施用不同的药物,以判断药物是否有效。
推荐系统在AB 测试中使用类似的概念。通过不同的计算或策略,对同一时间维度下两组或多组相同配置的用户进行在线测试,分析每组用户的行为指标,提供算法或策略。这样就带来了完整的在线流量。
2. AB 测试的一般做法AB 测试应该如何进行?其中最重要的是“控制变量”、“转移测试”和“统一规则”。
控制变量:AB 测试必须是单变量。太多的变量会导致变量之间的干扰,使得很难知道每个变量对结果的影响有多大。在推荐系统中,AB 测试中唯一的变量是推荐算法或策略。
分割测试:作为对照测试,AB测试自然有实验组和对照组。正常情况下,用户会被绕过,许多用户会多次访问同一个应用程序或网页。因此,如果你想根据用户进行流量分流,使用用户ID、设备号或浏览器cookie是一个很好的解决方案。
对于未登录的用户,跨设备访问应用或Web时会生成不同的ID。因此,对于未登录的用户,实验组和对照组之间最好保持相同的比例。
不同的用户在一次浏览过程中需要体验相同的解决方案,但同时需要关注不同流量之间的人数。在大多数情况下,您希望所有用户均匀分布。
统一规则:在变量控制和导流测试的基础上,针对不同的流量制定相同的评价指标,以获得准确的比较结果。
本文最初发表于@达hardData,人人都是产品经理。它禁止未经授权的复制
标题图片由Unsplash 根据CC0 协议提供
本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/647038.html