改进网站站内搜索-百度,Google自定义搜索和Elasticsearch自建搜索

WordPress自带的搜索虽然说可以搜出一些东西出来,但是有时搜索的结果不一定满意,而且没有联词搜索和模糊搜索,导致有时候必须指定准确的关键字才能搜索出结果来。况且Wordpress自带的搜索对MysqL数据库查询依赖大,数据库大的话比较消耗时间。

替换Wordpress默认的搜索也不是什么难事,懂行的人基本上都知道site:wrfou.com xxx就可以搜索出指定网站的站内内容,而百度、Google都推出了自定义搜索,就是把site:wrfou.com xxx直接嵌入到站内,用户点击搜索后不用跳转到百度Google就可以看到结果。

不过百度,Google自定义搜索依赖于搜索引擎的索引,这对于索引少或者是新站来说,有时新的文章搜索不出来,影响了用户体验。于是,Elasticsearch这种开源免费的自建搜索引擎诞生了,这是一个分布式、可扩展、实时的搜索与数据分析引擎,可以处理全文搜索和结构化数据的实时统计。

本篇文章就来分享一下百度,Google自定义搜索和Elasticsearch自建搜索整合Wordpress的方法,更多的关于WordPress建站及WP优化的文章还有:

  1. Linux的php-fpm优化心得-php-fpm进程占用内存大和不释放内存问题

  2. WordPress添加支付宝,微信打赏按钮制作实例和Paypal.me打赏链接

  3. 五款优秀的RSS阅读器推荐-附国内外各大RSS阅读器收集整理汇总


一、百度站内搜索引擎

网站:

  1. https://ziyuan.baidu.com/cse/wiki/introduce



1.1 百度站内搜索引擎使用

首先是到百度站内搜索引擎添加想要使用的网站域名。

然后是选择百度站内搜索引擎样式,有嵌入式、悬浮式、侧边式以及与原站的搜索框整合型,请根据你自己的需要来选择。(点击放大)

百度自定义搜索引擎还有一些高级可供我们优化站内搜索结果,例如可以设置关键词,搜索提示以及内文提词等等。

百度站内搜索引擎还允许你自定义二级域名,同时还可以添加Logo等信息。

1.2 百度站内搜索引擎不支持Https

非常可惜,百度站内搜索引擎至今不支持Https。虽然说百度搜索宣称Https有利于安全,但是自己的产品也不怎么热心于Https,而且看一下百度站内搜索引擎的官网,基本上有快两年没有更新了,大家要做好百度关闭该产品的准备。

如果是Https站点的话,要么使用Nginx的反代(见:Nginx反向绑定),要么就不要使用嵌入式,改用托管式的,即点击搜索按钮后跳转到百度自定义搜索网站。代码改进如下(请将s=xxx换成你自己的):

  1. <input type="text" name="q" id="bdcsMain" value="搜索全站内容" onfocus="if (value =='搜索全站内容'){value =''}" onblur="if (value ==''){value='搜索全站内容'}" >

  2. <button class="search-submit" id="btnPost" type="submit" onclick="window.open('http://zhannei.baidu.com/cse/search?s=14135322191061470907&entry=1&q='+document.getElementById('bdcsMain').value)">搜索</button>


嵌入效果如下:

搜索

二、Google自定义搜索

网站:

  1. https://cse.google.com/



2.1 Google自定义搜索使用

首先登录到Google自定义搜索官网页面,然后点击新建一个自定义搜索。

接着就是设置你要索引的网址,命名一个名称等。(点击放大)

创建完成后,你就可以点击获取代码了。

Google站内搜索同样提供了外观设置、搜索结果优化等功能,你可以根据自己的需要来调整。(点击放大)

Google自定义搜索允许你置顶某一个搜索结果、自动填充、同义词等等。

这是Google自定义搜索搜索效果,嵌入到网页可能还会受到原CSS的影响,需要自己再一步微调。(点击放大)

Google自定义搜索还可以搜索图片,实在很强大。

2.2 Google自定义搜索不显示问题

由于众所周知的原因,Google自定义搜索在国内是无法正常显示,那么如何解决此问题呢?一个可行的方法就是用反代(见:Nginx反向绑定),或者将Google自定义搜索相关文件本地化。实现难度比较大……

Google自定义搜索其实也是可以托管的,效果如下:

  1. https://cse.google.com/cse/publicurl?cx=011545314673148308753:3gbnph6-kfc


三、Elasticsearch自建搜索

网站:

  1. https://www.elastic.co


3.1 安装Elasticsearch

Elasticsearch安装基本上可以参考官方的教程了,这里直接引用imququ.com的安装方法:

虚拟机和线上环境都是 Ubuntu 14.04.4 LTS,Elasticsearch 用的是最新版。一切开始之前,先要检查机器上是否装有 java 环境,如果没有可以通过以下命令安装:

  1. sudo apt-get install openjdk-7-jre-headless


下载 Elasticsearch 2.3.0 压缩包并解压:

  1. wget -c https://download.elasticsearch.org/elasticsearch/release/org/elasticsearch/distribution/zip/elasticsearch/2.3.0/elasticsearch-2.3.0.zip

  2. unzip elasticsearch-2.3.0.zip


将解压得到的 elasticsearch-2.3.0 目录重命名为 ~/es_root(名称及位置没有限制,可以将它挪到你认为合适的任何位置)。Elasticsearch 无需安装,直接可以运行(注意:不能用 root 帐号运行):

  1. BASHcd ~/es_root/bin/

  2. chmod a+x elasticsearch

  3. ./elasticsearch


如果屏幕上没有打印错误信息,说明 Elasticsearch 服务已经成功启动。新建一个终端,用 curl 验证下:

  1. BASHcurl -XGET http://127.0.0.1:9200/?pretty

  2. {

  3. "name" : "Melissa Gold",

  4. "cluster_name" : "elasticsearch",

  5. "version" : {

  6. "number" : "2.3.0",

  7. "build_hash" : "8371be8d5fe5df7fb9c0516c474d77b9feddd888",

  8. "build_timestamp" : "2016-03-29T07:54:48Z",

  9. "build_snapshot" : false,

  10. "lucene_version" : "5.5.0"

  11. },

  12. "tagline" : "You Know, for Search"

  13. }


如果看到以上信息,说明一切正常,否则请根据屏幕上的错误信息查找原因。尽管 Elasticsearch 本身是用 java 写的,但它对外可以通过 RESTful 接口交互,十分方便。

默认情况下 Elasticsearch 的 RESTful 服务只有本机才能访问,也就是说无法从主机访问虚拟机中的服务。为了方便调试,可以修改 ~/es_root/config/elasticsearch.yml 文件,加入以下两行:

  1. network.bind_host: "0.0.0.0"

  2. network.publish_host: _non_loopback:ipv4_


但线上环境千万不要这样配置,否则任何人都可以通过这个接口修改你的数据。

3.2 安装 IK Analysis

Elasticsearch搜索自带的分词器会粗暴地把每个汉字直接分开,没有根据词库来分词。为了处理中文搜索,还需要安装中文分词插件。我使用的是 elasticsearch-analysis-ik,支持自定义词库。

首先,下载与 Elasticsearch 匹配的 elasticsearch-analysis-ik 插件:

  1. wget -c https://github.com/medcl/elasticsearch-analysis-ik/archive/v1.9.0.zip

  2. unzip v1.9.0.zip


解压后,进入插件源码目录编译:

  1. BASHsudo apt-get install maven

  2. cd elasticsearch-analysis-ik-1.9.0

  3. mvn package


如果一切顺利,在 target/releases/ 目录下可以找到编好的文件。将其解压并拷到 ~/es_root 对应目录:

  1. mkdir -p ~/es_root/plugins/ik/

  2. unzip target/releases/elasticsearch-analysis-ik-1.9.0.zip -d ~/es_root/plugins/ik/


elasticsearch-analysis-ik 的配置文件在 ~/es_root/plugins/ik/config/ik/ 目录,很多都是词表,直接用文本编辑器打开就可以修改,改完记得保存为 utf-8 格式。

现在再启动 Elasticsearch 服务,如果看到类似下面这样的信息,说明 IK Analysis 插件已经装好了:

  1. plugins [analysis-ik]


3.3 配置同义词

Elasticsearch 自带一个名为 synonym 的同义词 filter。为了能让 IK 和 synonym 同时工作,我们需要定义新的 analyzer,用 IK 做 tokenizer,synonym 做 filter。听上去很复杂,实际上要做的只是加一段配置。

打开 ~/es_root/config/elasticsearch.yml 文件,加入以下配置:

  1. YAMLindex:

  2. analysis:

  3. analyzer:

  4. ik_syno:

  5. type: custom

  6. tokenizer: ik_max_word

  7. filter: [my_synonym_filter]

  8. ik_syno_smart:

  9. type: custom

  10. tokenizer: ik_smart

  11. filter: [my_synonym_filter]

  12. filter:

  13. my_synonym_filter:

  14. type: synonym

  15. synonyms_path: analysis/synonym.txt


以上配置定义了 ik_syno 和 ik_syno_smart 这两个新的 analyzer,分别对应 IK 的 ik_max_word 和 ik_smart 两种分词策略。根据 IK 的文档,二者区别如下:

  • ik_max_word:会将文本做最细粒度的拆分,会穷尽各种可能的组合;

  • ik_smart:会将文本做最粗粒度的拆分;


ik_syno 和 ik_syno_smart 都会使用 synonym filter 实现同义词转换。为了方便后续测试,建议创建 ~/es_root/config/analysis/synonym.txt 文件,输入一些同义词并存为 utf-8 格式。例如:

  1. ua,user-agent,userAgent

  2. js,javascript

  3. 谷歌=>google


3.4 Elasticsearch整合Wordpress

WordPress插件:
1、ElasticPress:https://wordpress.org/plugins/elasticpress/

2、WP Search with Elasticsearch:https://wordpress.org/plugins/db-search-with-elasticsearch/

这两款Elasticsearch WordPress 插件,都是可以帮助我们将Elasticsearch搜索整合到Wordpress,首先是激活插件,然后到插件设置页面填写Elasticsearch服务器相关的信息。(点击放大)

然后就可以将Wordpress的文章以及页面同步到Elasticsearch服务器并开始索引了。

四、总结

百度站内搜索引擎适合用在没有使用Https以及百度索引量大的网站,对于新站以及用上了Https的网站使用百度站内搜索引擎非常不利,而Google自定义搜索适合国外的朋友使用,国内的朋友不要折腾了。

Elasticsearch自建搜索是一个非常不错的工具,功能强大,用于Wordpress的全文搜索真的是“牛刀小试”了,Elasticsearch可以对文档进行索引、搜索、排序、过滤,它能够执行复杂的全文搜索。
    A+
发布日期:2018年12月16日  所属分类: 实用技术
标签: