本文由作者大观数据在社区发布。

推荐系统是互联网发展中最常见、最重要的技术之一。如今各种提供内容的应用、网站、小程序等场所背后都有推荐系统。

开发一个真正优秀的推荐系统是非常有价值的，但也是非常艰巨的。大观数据是国内推荐系统的主要第三方供应商，一直在摸索前行。在试图开发一个强大的推荐系统来很好地服务客户时，我们一直在思考推荐系统的评价方法。众所周知，业内有一句俗话：“没有评价就没有进步”，意思是如果没有科学的方法来评价推荐系统的有效性，就没有优化和改进的方向，也就不可能创造出优秀的推荐系统。作者几年前写了《怎样量化评价搜索引擎的结果质量》。与搜索引擎相比，移动互联网时代的推荐系统应用范围更广，评价指标更复杂。

评价指标就像一把尺子，指引着我们产品优化的方向。如何科学合理地评价推荐系统的结果质量？从各种文献和网上文章中看到几十个评价公式，令人眼花缭乱。这些指标的优缺点是什么，应该如何选择？结合我们的实践经验，做一些深入的分析，希望对大家有所裨益(犹豫数据的哑铃)。

首先，根据不同的推荐场景，必须因地制宜地选择合适的评价方法。在制定评价指标时，推荐场景是最关键的。谈评价指标没有推荐场景就像鱼没有水。所谓“推荐场景”，与推荐的内容类型、呈现方式以及推荐所满足的用户需求有很大的关系，这种关系有时是微妙的。

比如两者都是推荐视频，但在推荐电影(典型的长视频)和短视频(通常只有几秒钟的长度)时，背后的用户需求完全不同。前者展示了电影海报、名字、评分、主演角色和故事大纲。用户观看这些内容的目的是为了尽快选出适合观看的电影，所以推荐系统强调如何更快更准确地给出高质量的结果。后者的短视频推荐(如常见的Tik Tok和亚图快手等。)用户在浏览过程中没有目的性，而且由于时间短，决策成本低，用户浏览的目的是为了消磨时间，推荐系统的目的是为了让用户在这个app上停留的时间足够长，粘性足够强。

对于前面的场景，用户在推荐页面停留的时间越长(注意它不在广播页面上)，满意度就会越低。没有人愿意花太多时间在一堆电影名字海报的选择页面上。如果经过十分钟的挑选，找不到下一部值得看的电影，用户对推荐系统的印象会大大降低。但对于后者来说，推荐过程本身就是不断看短视频。为了满足用户消磨时间的需求，多样性和新颖性更为重要。

从评价方法来看，在推荐等长电影时，更应该关注在足够短的时间内推出满足用户持续观看的电影，用户认为是“高分好电影”，花一个多小时看电影，是最理想的指标。对于后者而言，坚守用户、增加浏览时间、照顾短视频制作者在平台上的曝光度和健康生态，是推荐系统的关键考核因素。

有了这个简单的例子，我们想向读者解释的是，我们必须从产品的场景中深刻理解推荐的作用，这样我们才能更好地选择评价方法，为那些众多的推荐评价公式找到合适的地方。二、影响推荐系统评价方法的几个因素

场景的细微差异决定了评价方法应该是不同的。俗话说“什么场合穿什么样的衣服”，无论是西装还是运动装，都有适合的场合。根据我们对场合细微差别的理解，以下是

因素1:推荐的显示槽是一个固定的数字还是一个不断扩展的信息馈送流？

固定槽号的推荐更接近搜索引擎或定向广告的结果。由于呈现的数量和可能的顺序有限(类似于搜索结果从上到下的排序)，对推荐结果的准确性要求很高，这种场景称为Top-N推荐。此时，推荐结果前n名结果的点击率CTR(Click-Through-Rate)为常用指标(点击/曝光)。

如果推荐结果有明显的顺序(比如在app上从上到下显示结果)，那么也可以考虑位置衰减因子，比如NDCG(归一化未贴现累计增益)、MRR(平均递归秩)或MAP(平均平均精度)都包含位置因子)

右边的红框显示了常见的Top-N推荐结果。

的常见展示推荐/广告

还有就是展示推荐，和经典效果广告很像。唯一不同的是收费方式，如上图。在这种情况下，推荐系统可以借用广告系统常用的评价方法，如AUC、ROC等指标。

如果是手机APP上常见的Feed流推荐，由于推荐的显示槽数比较大(甚至可以认为是无限的)，用户的滑屏很容易实现。

此时位置先后因素并没有特别重要，常用曝光点击率（点击量/曝光次数）来衡量推荐质量，此外PV点击率（点击量/总PV）、UV点击率（点击量/总UV）也是Feed流中常用方法。此时首屏首条结果并不像Top-N推荐那么重要，因此评估指标也不同。因素二：推荐背后的商业模式是以电商交易型、还是广告收益型的

很多推荐系统用于电商平台上，目的是更好的促成买卖双方交易，例如各大电商网站、外卖生活类APP等。推荐最核心目的是促成交易（例如用户完成商品购买，或者用户点播观看某部电影，或用户开始阅读某本小说）；此时推荐带来的交易笔数占总交易的比例、或者交易总金额与GMV的比例，就是最直接的评价指标。

因为从推荐激发购物者兴趣，到用户完成订单，有漫长的操作链条，所以还可以分解动作以更好的衡量每个环节的效果。例如加购物车率（通过推荐引导的加购物车数量/推荐曝光总数），商品详情页阅读率（通过推荐引导进入商品详情页数量/推荐曝光总数）等。

而有一些平台是以广告点击、曝光等作为主要收入来源的，例如常见的各类新闻资讯类APP，或者短视频类、免费阅读（漫画、小说）类APP，广告作为主要收入来源，那么期望推荐系统能更好的扩大用户在APP上停留的时间，提高用户点击数等，这些意味着平台能获得更多的广告收入，因为无论是CPM或CPC计费的广告形式，用户越活跃，翻阅次数越多，平均收益就越高。

这种情况下，推荐系统争取满足的用户需求是消磨时间、或“闲逛”的场景，此时用户平均停留时长、推荐引导下的成功阅读次数等，则更符合需求。因素三：推荐评估是离线进行，还是在线实时完成

离线评估和在线评估因为数据准备的条件不同，适合采取的手段也不同。离线数据采集通常很难做到完全细致全面的情况下（例如大量用户的隐式反馈数据很难完整记录，因为性能代价太大），离线评估方法会有所不同。

典型的离线评估例如有著名的Netflix Prize竞赛、以及KDD Cup、Kaggle上的一些大数据算法竞赛，这些比赛数据集固定，采用静态的评估方法，MSE（Mean Absolute Error）平均绝对误差、RMSE（Root Mean Squared Error）均方根误差，或者R-Squared（R方）来计算：

例如在电影、电视剧的推荐中，用户-物品评分矩阵（User-Item-Rating）就是常用于离线评估，在学术界尤其常见。因为高校、学术界很难接触真实线上环境，用离线评估是比较方便来评估算法好坏的，也算是学术界的无奈吧。

但我们都知道用户真正给产品评分的显式数据（Explicit Feedbacks）是非常稀缺的，有时我们不得不拍出一些评分映射关系，例如分享映射为几分、点赞映射为几分等，来近似的生成评估矩阵并计算上述这些静态指标。

在线实时计算各类推荐效果指标

而在线评估的好处时可以随时进行AB test分流测试，效果好坏一目了然，工程师们很喜欢。其难点有两个，第一是线上环境极为复杂，会受到很多其他因素的干扰，未必真正能反映推荐算法效果的好坏。例如一些指标很容易受攻击和作弊。另外一些运营活动也会干扰效果。尤其当抽取比对的流量占比过小时，数据抖动很大，AB test的结果未必真能体现实际效果第二个难点是评估数据往往体现的是最终结果，而不是中间某个模块的直接好坏。如果想用AB 测试传导到内部更深层次的算法模块，往往需要在工程架构上做大量开发，把内部参数传递出来才行。例如通过在线评估虽然可以很容易的计算推荐排序策略（Ranking Strategy）孰优孰劣，但如想分析之前的召回策略（Recall Strategy）哪个更有效，通过在线评估就困难的多。向前的参数传导需要在大数据工程架构上下功夫，这也是达观智能推荐一直致力于的。

还有个恐怕是一线算法工程师常常会遇到的难题，就是离线评估的结果和在线测试的结果南辕北辙。离线测下来效果顶呱呱的算法，上线后可能石沉大海一点浪花也看不到。这也恰好证明了正确选择评估方法是多么重要。

因素四：推荐系统当前的目标是最大化运营指标，还是考虑生态平衡和来源多样性

推荐的内容如果都来源于平台自身，那么往往只需重点考虑平台关键运营指标最大最优，例如达成更多的交易提升GMV，或者读者的留存率更高，或者提升整个平台用户的活跃度等就行。

但还有一类复杂的情况，一些平台的待推荐内容来自各个UGC或PGC，这些内容提供者依赖平台的推荐来进行内容曝光并获利。在这种情况下，平台要从自身生态平衡、系统长期健康的角度来出发，需要考虑出让一些推荐曝光机会给到长尾UGC或PGC，以避免出现被少量顶部内容渠道绑架导致的“客大欺店”的问题，同时扶植更多的中小内容创作者能让生态更健康繁荣。毕竟大树之下寸草不死一定不是平台乐意看到的现象。此时推荐系统作为最重要的指挥棒，其评价指标中一定需要将内容来源覆盖率（Source Coverage）、多样性（Novelty）等指标。

经济学中的基尼系数(Ginicoefficient)，也可以作为辅助的指标用来评价生态的健康程度。推荐系统的初衷就是消除马太效应，使各种物品都能被展示给某类人群。但研究表明主流的推荐算法（比如协同过滤）都是具有马太效应的。基尼系数就是用来评测推荐系统马太效应强弱的。如果Gini1 是从初始用户行为中计算出的物品流行度的基尼系数，Gini2 是从推荐列表中计算出的物品流行度的基尼系数，如果 Gini2 > Gini1则说明推荐算法具有马太效应。

因素五：推荐结果要迎合人性，还是引导人性

推荐系统本质上是让计算机系统通过大规模数据挖掘来“揣摩”人性。但略微深刻一些来说，人性是最为复杂、矛盾的东西。既有理性的一面，又有感性的一面。

推荐系统一味地迎合人性，会显得“媚俗”，最终也会被用户唾弃。例如人性都有猎奇、贪婪的一面，而且人性通常是没有耐心的——这也证明了为什么几秒钟的短视频越来越受欢迎，连续剧为什么要有“倍速”功能，以及标题惊悚的短文章总是比内容深刻篇幅长的文章在推荐的时候指标更好看。

人是从众的动物，内心总是关心同类们在看些什么。大量基于协同过滤思想的算法，满足了相关需求。如果充分迎合，会发现大量人群喜欢看的往往是偏低俗、快餐式的内容。如果不加干预，黄赌毒、标题党、危言耸听、猎奇刺激的内容、或者廉价低劣的商品往往会充斥在推荐结果中。

但想要引导人性，倡导更有质量的内容，是推荐系统要肩负的责任，这个时候的评价指标一定不能只单纯看重点击率、转化率等量化指标，因为如果只用这些指标来优化算法，最终结果一定是低劣内容会充斥着版面，降低整个平台的格调。

在推荐系统评估时大家往往语焉不详的“惊喜度”（Serendipity）、“新颖性”（Novelty）等，往往就是在人性揣测的方面进行探索。这些指标计算时最大的难点是评价指标偏主观，很难直接使用在线行为计算。一般只能用事后问卷或者用户对内容的评价评分、转发等行为来间接佐证。或者以7日或者N日留存率等来判断用户对推荐结果整体的满意度。（达观数据犹豫的哑铃）

三、实战中推荐评估指标设置的常用方法方法一：为不同的细分人群来设置不同的评价指标

基于用户的整体式评估，会让推荐算法导向满足“大多数人口味”的推荐结果，但这背离了千人千面的个性化的初衷。我们期望社群里不同的人都能通过推荐来形成满意的体验。小众的人群偏好往往会淹没在整体数据中，我们一线的算法工程师经常有体会，就是某个新的推荐算法上线后，看整体指标明显好很多了，但是你的领导/客户可能来投诉，说感觉推给他的东西感觉没以前好了。个体和群体经常存在类似的矛盾。某个推荐算法可能对整体有利，但对其中另一类人未必如此。

理想的做法是将其中的人群进行细分，例如电商网站中既有价格敏感型的大众用户，也有追求品质的高端用户。在计算指标时如果划分不同人群来计算，更能体现推荐效果作用后的具体差异。例如我们期望新用户能迅速完成交易并沉淀下来，那么针对这群人的推荐指标，下单率和次日或7日留存就非常重要。而针对高端人群的则有所不同。个体的差异性和小众品味要得到更大程度的重视。

方法二：按不同的推荐位置来制定不同的指标

在同一个推荐APP或产品里，不同位置的推荐需要针对性的设置推荐评价指标。前文中提到的不同位置、不同场景，推荐指标制定规则可以有所不同。例如首页首屏的banner推荐（Top-N推荐），信息流Feed推荐，内容详情页下面的相关推荐（常用precision-recall或者F1-score）来计算。还有在搜索无结果页、购物车页面，退出确认页等等，不同的位置一定需要因地制宜的选择适合的评价指标。

方法三：综合几种不同的评估指标来获得整体数据指标

每个指标都有局限性，推荐系统需要平衡很多因素 ( 商业、用户体验、技术实现、资金、人力等 ) ，怎么做好平衡是一种哲学。通常可以把几个因素加权求和来作为整体指标。

指标的选择和产品主打定位有关系。例如一个特别强调内容快速新鲜的APP，那么结果的时效性就应该占更大的权重。而一个强调格调品味的APP，单篇阅读时长就显得更可贵。而强调社群活跃度的平台，用户对内容的分享率，互动率等，在整体指标中要更突出。（达观数据犹豫的哑铃）在产品运营的不同阶段，倾向性不同指标的选择也应该有所不同。产品上线前期可能要照顾用户体验，大力拓展新用户。当用户量足够多后，可能会侧重商业变现 ( 推荐的付费视频，在列表中插入较多广告等 ) ，想办法通过推荐让产品尽快盈利。如果是电商类推荐，要细致的考虑用户购买前和购买后的差异，以及标品和非标品的差异。购买前往往可以多推荐同类产品以更好的让用户进行比选。当购买动作完成后，尤其是耐用消费品，再继续推荐就适得其反了。

各类推荐算法和指标的灵活选择

四、推荐指标小结

推荐系统本质上就是让每个消费者满意，这些指标只是从不同的角度来衡量“满意”这件事情的程度高低。在此小结下常见的指标种类，包括如下几种类型：

指标类型

场景转化类指标：曝光点击率，PV点击率，UV点击率，UV转化率，加购物车率，分享率，收藏率，购买率，人均点击个数，CTR，AUC等推荐内容质量指标：结果多样性（Diversity），结果新颖性（Novelty），结果时效性（timeliness），结果信任度(Confidence& Trust)等内容消费满意度指标：留存率，停留时长，播放完成率，平均阅读时长，交易量，沉浸度（Engagement），惊喜度(Serendipity)等

在同一个推荐场景下，指标不宜过多，因为太多了不利于最终优化决策，把握准每个场景核心发挥的作用的几个推荐指标就行。但也不能只有一个指标，因为过于单一的指标会把推荐算法的优化引入歧途。迷信单一的指标表现好不能说明产品好，而且物极必反，过度优化后的指标虽然上去了，但用户的体验往往会降低。