全文搜索引擎的优缺点,搜索引擎优化案例分析

从信息获取的角度看，搜索和推荐是用户获取信息的两种主要手段。无论是在互联网上，还是在线场景中，搜索和推荐两种方式大量共存，那么推荐系统和搜索引擎这两种系统到底有什么关系呢？和区别相似的地方是什么？笔者有幸同时拥有搜索引擎和推荐系统一线的技术产品开发经验，结合自己的实践经验阐述两者的关系，分享自己的体验((陈运文博士) )。

图1 :搜索引擎和推荐系统是获取信息的两种不同方法

主动或被动：搜索引擎和推荐系统的选择

获取信息是人类认知世界、生存发展的刚需，检索是最明确的方式，其表达动作是“出去找”，是找食物、找地方。在互联网时代，搜索引擎(Search Engine )是满足查找信息需求的最好工具，在(输入想要查找的内容)搜索框中输入搜索词(或称为Query ) )、搜索引擎

但是，获取信息的方法除了检索以外，还有一种叫做推荐系统(Recommendation System，简称Recsys )。推荐也是随着人类发展而产生的基本技能。你遇到过这样的场面吧。一开始，他对当地的朋友说：“你好，请推荐附近有什么好吃的地方！ ”问一下吧。 ——通过推荐传播知识、信息等也是获得信息的方法。

搜索和推荐的区别如图1所示，搜索是非常主动的行为，用户的需求非常3358 www.Sina.com /，根据搜索引擎提供的结果，用户也进行了浏览和点击但推荐系统接收信息是被动的，需求也是模糊不清的。以购物中心为例，用户进入购物中心时，如果需求不明确，这个时候需要一个推荐系统，告诉用户有什么品质的商品，有什么合适的内容等，而用户现在此时，进行检索。

明确

许多互联网产品必须同时满足用户的两种需求。例如，提供音乐、新闻或电子商务服务的网站必然要提供搜索功能。用户想找某首歌或商品时，输入名字就可以检索。与此同时，还必须提供推荐功能。当用户想花时间来听点歌、看新闻，但又不清楚该听哪个的时候，就会给予足够好的推荐，提升用户体验。

图2：从搜索词中可以看出，用户有大量个性化推荐的需求

除了主被动，另一个有趣的区别是个性化程度的高低差异。搜索引擎也可以有一定程度的个性化，但总体上个性化工作的空间相对较小。因为在需求非常明确的情况下，找出结果的好坏没有很多个性差异。例如，搜索“天气”时，搜索引擎可以补充用户所在地区的信息，得出当地天气的结果，但个性化补充的结果也很明确。

个性化程度的高低

但推荐系统在个性化方面的运行空间要大得多。以“推荐好看的电影”为例，100个用户有100种口味，没有一个“标准”的答案。推荐系统能够根据每个用户历史上的观看行为、评分记录等产生对当前用户最有价值的结果，这也是推荐系统具有独特魅力的地方。推荐的种类有很多，例如相关推荐、个性化推荐等)，个性化对于推荐系统非常重要，很多时候把推荐系统称为“个性化推荐”或“智能推荐”。

用户对信息的个性化需求

开发过搜索引擎的朋友都知道，评估搜索结果质量的一个重要考虑因素是用户尽快找到所需结果并单击离开。要设计搜索排序算法，需要想办法将最好的结果放在最上面，搜索引擎的前三个结果往往都是大多数用户单击的。简而言之，“好”搜索算法需要提高用户获取信息的效率，缩短停留时间。

但是，与推荐相反，推荐算法和推荐的内容(如商品、新闻等)往往紧密联系在一起，用户获得推荐结果的过程可以是持续的、长期的，为了衡量推荐系统是否足够优秀，需要更多的用户购买多种商品、阅读多条新闻等)，越深入挖掘用户的兴趣，推荐的成功率往往越高

因此，对于许多内容型APP应用来说，建立良好的推荐体系是提高绩效的重要手段。

推荐系统满足难以文字表述的需求

目前主流的搜索引擎仍然是以文字构成查询词（Query），这是因为文字是人们描述需求最简洁、直接的方式，搜索引擎抓取和索引的绝大部分内容也是以文字方式组织的。

因为这个因素，我们统计发现用户输入的搜索查询词也大都是比较短小的，查询词中包含5个或5个以内元素（或称Term）的占总查询量的98%以上（例如：Query“达观数据地址”，包含两个元素“达观数据”和“地址”）。

但另一方面，用户存在着大量的需求是比较难用精炼的文字来组织的，例如想查找“离我比较近的且价格100元以内的川菜馆”、“和我正在看的这条裙子同款式的但是价格更优惠的其他裙子”等需求。

一方面几乎没有用户愿意输入这么多字来找结果（用户天然都是愿意偷懒的），另一方面搜索引擎对语义的理解目前还无法做到足够深入；所以在满足这些需求的时候，通过推荐系统设置的功能（例如页面上设置的“相关推荐”、“猜你喜欢”等模块），加上与用户的交互（例如筛选、排序、点击等），不断积累和挖掘用户偏好，可以将这些难以用文字表达的需求良好的满足起来。

形象的来说，推荐引擎又被人们称为是无声的搜索，意思是用户虽然不用主动输入查询词来搜索，但是推荐引擎通过分析用户历史的行为、当前的上下文场景，自动来生成复杂的查询条件，进而给出计算并推荐的结果。

马太效应和长尾理论

马太效应（MattnewEffect）是指强者愈强、gxdsb愈弱的现象，在互联网中引申为热门的产品受到更多的关注，冷门内容则愈发的会被遗忘的现象。马太效应取名自圣经《新约·马太福音》的一则寓言：“凡有的，还要加倍给他叫他多余；没有的，连他所有的也要夺过来。”

搜索引擎就非常充分的体现了马太效应——如下面的Google点击热图，越红的部分表示点击多和热，越偏紫色的部分表示点击少而冷，绝大部分用户的点击都集中在顶部少量的结果上，下面的结果以及翻页后的结果获得的关注非常少。这也解释了Google和百度的广告为什么这么赚钱，企业客户为什么要花大力气做SEM或SEO来提升排名——因为只有排到搜索结果的前面才有机会。

搜索引擎充分体现的马太效应：头部内容吸引了绝大部分点击

有意思的是，与“马太效应”相对应，还有一个非常有影响力的理论称为“长尾理论”。

长尾理论（Long TailEffect）是“连线”杂志主编ngdxn（lyfbxAnderson）在2004年10月的“长尾”（Long Tail）一文中最早提出的，长尾实际上是统计学中幂率（Power Laws）和zgdjqm分布特征（Pareto Distribution）的拓展和口语化表达，用来描述热门和冷门物品的分布情况。lyfbx Anderson通过观察数据发现，在互联网时代由于网络技术能以很低的成本让人们去获得更多的信息和选择，在很多网站内有越来越多的原先被“遗忘”的非最热门的事物重新被人们关注起来。事实上，每一个人的品味和偏好都并非和主流人群完全一致，lyfbx指出：当我们发现得越多，我们就越能体会到我们需要更多的选择。如果说搜索引擎体现着马太效应的话，那么长尾理论则阐述了推荐系统发挥的价值。陈运文

推荐系统和长尾理论

一个实际的例子就是亚马逊（Amazon）网络书店和传统大型书店的数据对比。市场上出版发行的图书种类超过了数百万，但是其中大部分图书是无法在传统大型书店上架销售的（实体店铺空间有限），而能放在书店显著位置（例如畅销书Best Seller货架）上的更是凤毛麟角，因此传统书店的经营模式多以畅销书为中心。但是亚马逊等网络书店的发展为长尾书籍提供了无限广阔的空间，用户浏览、采购这些长尾书籍比传统书店方便得多，于是互联网时代销售成千上万的小众图书，哪怕一次仅卖一两本，但是因为这些图书的种类比热门书籍要多得多，就像长长的尾巴那样，这些图书的销量积累起来甚至超过那些畅销书。正如亚马逊的丰富的钥匙所说：“如果我有10万种书，哪怕一次仅卖掉一本，10年后加起来它们的销售就会超过最新出版的《哈利·波特》！”

长尾理论作为一种新的经济模式，被成功的应用于网络经济领域。而对长尾资源的盘活和利用，恰恰是推荐系统所擅长的，因为用户对长尾内容通常是陌生的，无法主动搜索，唯有通过推荐的方式，引起用户的注意，发掘出用户的兴趣，帮助用户做出最终的选择。

盘活长尾内容对企业来说也是非常关键的，营造一个内容丰富、百花齐放的生态，能保障企业健康的生态。试想一下，一个企业如果只依赖0.1%的“爆款”商品或内容来吸引人气，那么随着时间推移这些爆款不再受欢迎，而新的爆款又没有及时补位，那么企业的业绩必然会有巨大波动。

只依赖最热门内容的另一个不易察觉的危险是潜在用户的流失：因为只依赖爆款虽然能吸引一批用户（简称A类用户），但同时也悄悄排斥了对这些热门内容并不感冒的用户（简称B类用户），按照长尾理论，B类用户的数量并不少，并且随时间推移A类用户会逐步转变为B类用户（因为人们都是喜新厌旧的），所以依靠推荐系统来充分满足用户个性化、差异化的需求，让长尾内容在合适的时机来曝光，维护企业健康的生态，才能让企业的运转更稳定，波动更小。

评价方法的异同

搜索引擎通常基于Cranfield评价体系，并基于信息检索中常用的评价指标，例如nDCG（英文全称为normalized Discounted Cumulative Gain）、Precision-Recall（或其组合方式F1）、P@N等方法，具体可参见之前发表于InfoQ的文章《怎样量化评价搜索引擎的结果质量陈运文》。整体上看，评价的着眼点在于将优质结果尽可能排到搜索结果的最前面，前10条结果（对应搜索结果的第一页）几乎涵盖了搜索引擎评估的主要内容。让用户以最少的点击次数、最快的速度找到内容是评价的核心。

推荐系统的评价面要宽泛的多，往往推荐结果的数量要多很多，出现的位置、场景也非常复杂，从量化角度来看，当应用于Top-N结果推荐时，MAP（Mean Average Precison）或CTR（Click Through Rate，计算广告中常用）是普遍的计量方法；当用于评分预测问题时，RMSE（Root Mean Squared Error）或MAE（MeanAbsolute Error）是常见量化方法。

由于推荐系统和实际业务绑定更为紧密，从业务角度也有很多侧面评价方法，根据不同的业务形态，有不同的方法，例如带来的增量点击，推荐成功数，成交转化提升量，用户延长的停留时间等指标。

搜索和推荐的相互交融

搜索和推荐虽然有很多差异，但两者都是大数据技术的应用分支，存在着大量的交叠。近年来，搜索引擎逐步融合了推荐系统的结果，例如右侧的“相关推荐”、底部的“相关搜索词”等，都使用了推荐系统的产品思路和运算方法（如下图红圈区域）。

在另一些平台型电商网站中，由于结果数量巨大，且相关性并没有明显差异，因而对搜索结果的个性化排序有一定的运作空间，这里融合运用的个性化推荐技术也对促进成交有良好的帮助。

搜索引擎中融合的推荐系统元素

推荐系统也大量运用了搜索引擎的技术，搜索引擎解决运算性能的一个重要的数据结构是倒排索引技术（Inverted Index），而在推荐系统中，一类重要算法是基于内容的推荐（Content-based Recommendation），这其中大量运用了倒排索引、查询、结果归并等方法。另外点击反馈（Click Feedback）算法等也都在两者中大量运用以提升效果。

关于达观数据

达观数据是专注于企业大数据应用服务的高科技创业公司，致力于为电商、新媒体、金融、企业等提供高质量的大数据挖掘服务，包括推荐系统和搜索引擎等技术服务，力争通过达观数据积累的技术经验，帮助合作企业们提高业绩，提升服务质量，增强竞争力。

本文总结

作为大数据应用的两大类应用，搜索引擎和推荐系统既相互伴随和影响，又满足不同的产品需求。在作为互联网产品的连接器：连接人、信息、服务之间的桥梁，搜索和推荐有其各自的特点，本文对两者的关系进行了阐述，分析了异同。它们都是数据挖掘技术、信息检索技术、计算统计学等悠久学科的智慧结晶，也关联到认知科学、预测理论、营销学等相关学科，感兴趣的读者们可以延伸到这些相关学科里做更深入的了解。（文/陈运文）