菜单 关闭

7种改进网站或内部网内置搜索引擎的方法

通过 页劳布海默3月13日,二千零一十六

总结:当用户查询被修改为允许用户输入错误或拼写错误时,网站搜索的准确性会带来好处。模糊的搜索词,以及与网站上的术语不完全匹配的单词选择。


现代网站关注的是外部搜索引擎的优化,比如谷歌,百度和印第安人。虽然搜索引擎优化(SEO)对于把访问者带到你的网站上是非常重要的,的质量内置的搜索经常被忽视。用户会参与网站搜索以查找产品,内容,其他关键资产;未能提供良好的搜索体验可能会失败转换,出售,以及最终的客户。

有一些标准的实践可以用来加强你的网站搜索。在讨论之前,我们定义了用于评估搜索引擎性能的两个关键信息检索术语:精确性和召回。这些可以帮助您更好地理解以下技术的含义和权衡。

搜索性能的两个指标:精确性和召回

  • 精密度是的百分比检索到相关的搜索结果.
  • 回忆所有相关结果的百分比搜索系统实际检索到的.

想象一下在食谱网站上,我们有1000种菜谱,其中300道是印度菜。假设我们在寻找印度菜时,我们在搜索结果页面上得到500个结果。在这500个搜索结果中,实际上只有100道是印度菜;其余400个实际上是与我们的搜索无关的非点菜配方。这意味着精度是100/500或20%。这个回忆将是100/300或33%,由于搜索引擎在该网站提供的300种印度食谱中只找到100种,这意味着200个印度食谱根本没有出现在我们的搜索结果页面上。一个完美的搜索引擎只会给我们300个结果,与现场提供的300种印度食谱相对应,所以它有300/300或100%的精度和召回率。然而,在现实世界中,这种情况很少发生。我们在下面讨论的不同技术权衡了召回的精确性,反之亦然,所以理解概念上的差异是很重要的。

最初谷歌团队的一个伟大见解是,对于大多数网络搜索来说,精确性比回忆更重要:互联网上的信息太多了,甚至没有人会记得。希望查看所有相关结果。对于万维网搜索,更重要的是要关注高精度:确保所有前10名的点击都与用户当前的问题尽可能密切相关。

相反,对于单个网站或内部网上的内部搜索,回忆是非常重要的。例如,如果您在工程公司的内部网中搜索有关该公司过去咨询过的所有吊桥的信息,错过一两座桥,把它们丢掉是很不幸的。工具书类新桥梁方案的章节。或者,在电子商务网站上,如果搜索错过了相关产品,客户会假设网站不带它去其他地方购买。

7改进网站搜索的技术

1。手动改进常见查询的结果

许多典型的商业搜索引擎可以与网站和内部网集成,提供手动改进常见搜索查询的功能。为了更好地利用这些特性,您将需要定期检查搜索日志,并评估您的网站搜索返回的结果,以便频繁进行用户查询。当关联算法无法返回您认为高度相关的项时,对于某些查询,您可以手动指示这些项目并将其显示在搜索结果列表的顶部。然而,在展示结果时,请注意将手动升级的项目分为“已升级”或“最佳匹配”列表。因为用户经常忽略这些,就像他们忽略了网页搜索引擎上的点击付费广告一样。相反,只需将手动点击与搜索引擎生成的点击集成,并向用户显示一个列表。

2。提供策划的搜索建议

搜索术语建议(也称为预测性搜索)是指在用户键入时在搜索框正下方显示建议的查询。然而,搜索日志中未编辑的常见查询列表将没有帮助。记得,用户查询可能误导,不恰当的,或者包含没有结果的术语。相反,建议策展的检索有用结果的查询词。这些建议可以基于您的搜索日志或您的内容的描述性元数据(在我们的一整天中对此有更多了解)信息架构研讨会)突出显示与输入查询匹配的建议查询词也很重要,所以用户可以很容易地识别相似性(如果,例如,键入的单词出现在建议查询的中间)。

易趣使用粗体字表示搜索建议
易趣使用粗体字表示用户键入的查询与查询建议的关系。

在电子商务网站上,预测框还应显示产品 结果使用照片帮助用户快速评估产品。(有关电子商务搜索的更多信息和其他指南,看到我们的报告电子商务用户体验:搜索

内联网,最有效的指导方针之一投资回报率正在实施员工搜索建议:与员工姓名匹配的查询显示联系人信息,照片,以及作为用户类型链接到特定于员工的页面。将员工联系信息显示为“零点击”结果(用户甚至无需点击搜索结果即可找到所需信息)可以节省大量员工时间,以及公司资金。(对于更具体的内部网考虑,看到我们Intranet搜索指南报告

三。识别同义词和替代术语

用户通常不会形成完美的查询。也许他们不知道合适的短语,或者行业术语,或者他们还不知道自己到底在找什么,从模糊的搜索词开始。

百思买的搜索不允许使用同义词
在bestbuy.com上搜索“Soundbar Cable”会产生大量的声音条,但是没有匹配的实际电缆需要插入一个声音棒到电视。百思买的搜索引擎只提供该电缆的技术名称,“光缆”,不帮助不是AV专家的用户。这种缺乏灵活性的做法可以将用户发送给具有更为适应的网站搜索的竞争对手。

你的网站搜索应该包含真实的用户同义词和替代术语,尤其是如果你的内容很专业,行业特定,或技术。记得,你的用户可能不知道你办公室里每个人每天都用的精心制作的行话。查看搜索日志,查找内容中当前没有的同义词。然后,您可以在搜索引擎中创建同义词表,其中用户搜索词映射到返回适当结果的现有术语。

4。使用词干调整变体单词形式

这是另一个常见的场景:假设您在网站上搜索术语“营销自动化”。如果作者只使用“自动营销解决方案”等术语,你的搜索没有任何结果,尽管网站上的许多相关文章都符合您的信息需求(但与您的确切查manbetx官网手机登陆询不匹配)。你可以假设网站没有任何相关的内容,然后离开。

使用一个称为词干的过程可以避免这个问题。堵塞指从单词中删除词尾(如后缀)。把它们还原成它们的形态“茎”。例如,在英语中,单词减少减少,和减少都是为了约简.如果搜索引擎使用词干,寻找减少还将返回包含单词的结果减少.

许多商业搜索产品都有可用的词干特征(如黄金标准英文分词算法)默认情况下,此功能通常未启用;打开它是很容易的,因此是一个低成本的搜索改进。

尽管堵塞会促进召回,它还可以通过返回不相关的结果来降低精度,但恰好包含了查询词的词干。例如,搜索“大学”也可能返回“通用”,因为这两个词的词干相同。通过分析搜索日志并检查有多少用户搜索词是您网站上使用的词的变体,来决定词干是否适合您的网站。

5.妥善处理拼写错误

打字错误和拼写错误非常常见,这就是为什么所有大型搜索引擎都提供你是说拼写更正。尽管拼写建议被认为是至关重要的,许多网站搜索系统不支持它们。尤其是当你的内容包含很多复杂的行话时(比如在B2B网站上)。拼写建议是帮助用户找到所需内容的关键。查询建议通常会帮助用户调整拼写错误。虽然他们正在键入查询。然而,有时用户会不遗余力地进行拼写错误的查询,您需要在搜索结果页面上提供一个你是说链接。

如果原始查询没有任何结果,这是一个很好的实践,可以继续自动检索其他拼写建议的结果,不需要用户单击你是说链接。一定要弄清楚,你检索到了用户拼写变化的结果。

谷歌显示拼写建议结果的时间。
google指示它何时选择检索用户查询的可选拼写,并提供了一个明确的选项来强制使用原始拼写进行搜索。

6.支持同音词

有时,用户可能输入同音词而不是他们真正的意思。(同音词是发音相同的词,但拼写不同,比如“和平”和“碎片”,或者“斯图尔特”和“斯图尔特”。)对于这些情况,一个有用的工具是Soundex,这是一种算法,用于查找拼写不同、发音相似的单词。Soundex将搜索词(和索引内容中的词)转换为其语音表示,并使您的网站搜索能够检索拼写与查询词完全不同的结果,但发音相同。Soundex广泛使用,有助于搜索合适的名称,行话术语,外来词,还有更多。它甚至内置于PHP等编程语言中,进入MySQL数据库,因此,对于您的开发团队来说,将其集成到搜索引擎中相对容易。

拼写建议和使用同音词都能提高回忆能力,但它们可以降低精度,通过返回可能不相关的结果,但听起来像是查询词。

7。忽略停止词

即使是网络上最好的书面内容,大多数单词都是停下话。停止词包括功能词,如文章(“a”,manbetx官网手机登陆“”介词(“of”,“为了”或连词(“but”,“和”还有其他高频词(“be”,“似乎”)出现在大多数文档中,对于其中任何一个文档都不太可能是独特的。这些词会对搜索相关性产生负面影响。

管理这个问题的最简单方法是让你的网站的搜索引擎使用一个排除的列表停用词,在用户查询中被忽略。如果你的搜索引擎不做很多复杂的语言建模来确定相关性排名,从用户的查询中删除停止词有两个好处:(1)它可以加快搜索性能,(2)它有助于抑制包含这些常用词的无关结果。大多数语言都有许多停止词列表,但是,使用前,一定要确保它不包括任何在你的行业或网站上特别重要的术语。

忽略停止词会提高精度,但召回率较低,尤其是在边缘案例中,比如著名的“是或不是”的例子,这是什么完全停下话。然而,如果你的搜索引擎已经做了复杂的短语匹配和自然语言处理(就像谷歌做的那样)。做排除停止词,因为它们提供了可以改进搜索结果的附加上下文。

总结

虽然主要的网络搜索引擎变得越来越复杂,许多网站的内置搜索被忽视了。堵塞,不包括停止词,显示策划的查询建议,使用同音词和拼写建议都可以修改搜索查询以适应用户错误或者解决单词选择的可能变化,并且可以提高搜索结果的质量或数量,而无需进行重大的开发投资。

工具书类

Dan Jurafsky“斯坦福自然语言处理:单词规范化和词干化”(链接

WBruce CroftDonald Metzler特雷弗·斯特罗曼,搜索引擎:实践中的信息检索,Addison Wesley2010。