javaweb搜索功能实现(php搜索引擎代码)

1 .为什么要使用Sphinx

如果您目前正在运营论坛，论坛数据超过100瓦，许多用户反映论坛搜索速度非常慢，请考虑使用Sphinx (当然，也可以使用其他全文搜索程序或方法)

2 .什么是2.Sphinx

Sphinx是由俄罗斯人Andrew Aksyonoff开发的高性能全文软件包，在通用和商务合同双重许可协议下发行。

全文检索是指以文件的所有文本信息为检索对象的信息检索技术。检索的对象可能是文章的标题，也可能是文章的作者，也可能是文章的摘要和内容。

3.Sphinx特性

l高速索引(对于新CPU，约为10 MB/秒)；

l高速检索(2-4G文本量中平均查询速度小于0.1秒)；

l高可用性(在单CPU最具挑战性的秋季支持100 GB文本和100M文档)；

l提供良好的相关排名

l分布式搜索支持

提供l文档的摘要生成

提供从MySQL内部插件存储引擎的搜索

l支持大胆的朋友、短语和同义词搜索

每个l文档支持多个全文域(默认最多32个)；

每个l文档的多属性支持；

支持l断词

l支持单字节编码和UTF-8编码；

下载并安装Sphinx

网址http://www.coreseek.cn/news/7/52 /找到适合自己的操作系统版本。例如，如果我是Windows，我就可以下载通用版本的Coreseek Win32。在Linux上，可以下载并自行编译安装软件包。这里解释一下为什么我们下载的程序叫做Coreseek。 Coreseek是基于Sphinx开发的软件，对Sphinx进行了一些更改，在中文方面比Sphinx更好，所以我们使用它。

下载完成后，将程序解压缩到您想要解压缩的位置。例如，我想解压缩到电子驱动器的根目录。然后，将目录重命名为Coreseek，Coreseek安装完成。您安装的目录是E:coreseek。

使用Sphinx

要使用Sphinx，必须

1 )首先需要数据

2 )创建Sphinx配置文件

3 )生成索引

4 )启动Sphinx

5 )使用(调用api或search.exe程序进行咨询) )。

第1件()数据导入) )

创建测试所需的数据库、表和数据篇幅有限。这些在附件里。下载后导入到MySQL即可。

第二个：(创建配置文件() ) )

接下来，必须创建Sphinx配置文件E:coreseeketcmysql.conf，并按如下方式修改其内容：

source mysql

{

type=mysql

sql_host=localhost

sql_user=root

sql_pass=

sql_db=test

sql_port=3306

sql_query_pre=SET NAMES utf8

sql_query=SELECT id，addtime，title，content FROM post

sql_attr_timestamp=addtime

}

索引MySQL

{

source=mysql

path=e :/coreseek/var/data/MySQL

charset _ dict path=e :/coreseek/etc /

charset_type=zh_cn.utf-8

}

搜索

{

listen=931

max_matches = 1000

pid_file = E:/coreseek/var/log/searchd_mysql.pid

log = E:/coreseek/var/log/searchd_mysql.log

query_log = E:/coreseek/var/log/query_mysql.log

}

先讲下这个配置文件中每项的含义。

source mysql{} 定义源名称为mysql，也可以叫其他的，比如：source xxx{}

type 数据源类型

sql_* 数据相关的配置，比如sql_host,sql_pass什么的，这些不解释鸟

sql_query 建立索引时的查询命令，在这里尽可能不使用where或group by，将where与groupby的内容交给sphinx，由sphinx进行条件过滤与groupby效率会更高，注意：select 的字段必须包括一个唯一主键以及要全文检索的字段，where中要用到的字段也要select出来

sql_query_pre 在执行sql_query前执行的sql命令, 可以有多条

sql_attr 以这个开头的配置项，表示属性字段，在where,orderby,groupby中出现的字段要分别定义一个属性，定义不同类型的字段要用不同的属性名,比如上面的sql_attr_timestamp就是时间戳类型。

index mysql{} 定义索引名称为mysql，也可以叫其他的，比如：index xxx{}

source 关联源，就是source xxx定义的。

path 索引文件存放路径，比如：E:/coreseek/var/data/mysql 实际存放在E:/coreseek/var/data/目录，然后创建多个名称为mysql后缀却不同的索引文件

charset_dictpath 指明分词法读取词典文件的位置，当启用分词法时，为必填项。在使用LibMMSeg作为分词库时，需要确保词典文件uni.lib在指定的目录下

charset_type 字符集，比如charset_type = zh_cn.gbk

searchd{} sphinx守护进程配置

listen 监听端口

max_matches最大匹配数，也就是查找的数据再多也只返回这里设置的1000条

pid_file pid文件路径

log全文检索日志

query_log查询日志

好了，配置文件就这样，配置的参数还有很多，大家可以自己查文档。

第3件：(生成索引)

开始 -> 运行 -> 输入cmd回车，打开命令行工具

e:coreseekbinindexer --config e:coreseeketcmysql.conf --all

这一串东西其实就是调用indexer程序来生成所有索引

如果只想对某个数据源进行索引，则可以这样：e:coreseekbinindexer --config e:coreseeketcmysql.conf 索引名称(索引名称指配置文件中所定义的)

--config,--all这些都是indexer程序的参数，想了解更多参数的朋友可以查看文档

运行命令后如果你没看到FATAL,ERROR这些东西，那么索引文件就算生成成功了，比如我看到得就是

………省略………

using config file 'e:coreseeketcmysql.conf'...

indexing index 'mysql'...

collected 4 docs, 0.0 MB

………省略………

第4件：(启动Sphinx)

同样命令行下

e:coreseekbinsearchd --config e:coreseeketcmysql.conf

运行后提示了一大堆东西

using config file 'e:coreseeketcmysql.conf'...

listening on all interfaces, port=9312

accepting connections

不用管这些鸟文是啥意思，反正Sphinx是启动好了。

现在有一串鸟文的这个命令行是不能关的，因为关了Sphinx也就关了，如果觉得这样不爽，可以将Sphinx安装成系统服务，在后台运行。

安装系统服务只需在命令行中输入以下命令

e:coreseekbinsearchd --config e:coreseeketcmysql.conf --install

安装之后记得启动这个服务，不会启动那我没法，自己google。

第5步：(使用Sphinx)

在web根目录下建立一个search目录(当然不在根目录也行，同样目录名也可以随取)，复制E:coreseekapi sphinxapi.php文件到search目录(sphinxapi.php这个是sphinx官方提供的api)，开始php程序的编写。

在search目录建立一个文件，名字叫啥都行，我管它叫index.php，其内容如下

include 'sphinxapi.php'; // 加载Sphinx API

$sc = new SphinxClient(); // 实例化Api

$sc->setServer('localhost', 9312); // 设置服务端，第一个参数sphinx服务器地址，第二个sphinx监听端口

$res = $sc->query('sphinx', 'mysql'); // 执行查询，第一个参数查询的关键字，第二个查询的索引名称，mysql索引名称(这个也是在配置文件中定义的)，多个索引名称以,分开，也可以用*表示所有索引。

print_r($res);

打印结果：

Array

(

………省略………

[matches] => Array

(

[2] => Array

(

[weight] => 2

[attrs] => Array

(

[addtime] => 1282622004

)

[4] => Array

(

[weight] => 2

[attrs] => Array

(

[addtime] => 1282622079

)

………省略………

)

Matches中就是查询的结果了，但是仿佛不是我们想要的数据，比如titile，content字段的内容就没有查询出来，根据官方的说明是Sphinx并没有连接到MySQL去取数据，只是根据它自己的索引内容进行计算，因此如果想用Sphinx提供的API去取得我们想要的数据，还必须以查询的结果为依据，再次查询MySQL从而得到我们想要的数据。

查询结果中键值分别表示

2唯一主键

weight权重

attrs sql_attr_*中配置

至此，搜索引擎算是完成一大半了，剩下的大家可以自行完成。

比如：

$ids = array_keys($res['matches']); // 获取主键

$ids = join(',', $ids);

$query = mysql_query("SELECT * FROM post WHERE id IN ({$ids})");

while($row = mysql_fetch_assoc($query)) {

.....

}

Sphinx的更多配置，程序的参数等，大家可以查看Sphinx的文档。

jqdkfd有事情忙的时候，你会觉得时间过得很快　很快。可能你会感觉有点累。但这是一个人成功的历程。请坚信，我一定会好好的。