首页 > 编程知识 正文

网页搜索引擎大全(Site搜索)

时间:2023-05-04 16:45:33 阅读:69043 作者:4873

Java网络课程的设计主题之一是制作搜索引擎,简单地记录流程。

功能来自湖南科技大学计算机学院官网新闻http://computer.hnust.edu.cn/a/xueyuanxinwen2/list_52_1.html

主要包括信息爬网、索引、检索实现、web实现

爬取新闻

在计算机学院官网上取新闻链接标题发布日期新闻内容,每条新闻另存为txt文件,以日期命名

登上的txt列表

txt文件的内容

爬行动物的写法很笨拙。 官网上的新闻有几个格式标签不一致,爬的时候一次七八页左右。 在这个过程中出现了很多编码问题。 我建议你先弄清楚乱码的原因。 可以在很多百度上搜索解决方法。 在此请参考下面的https://blog.csdn.net/apple 9005/article/details /

我爬上新闻列表中每一页的源代码,然后利用BeautifulSoup提取每个新闻的链接,下载每个新闻的源代码,最后从中提取所需的内容,并保存为txt文件

建立索引

这一部分不完全清楚,主要使用Lucene索引,但不能直接检索文本文件,因此根据输入的单词进行检索需要使用Lucene编制索引进行分词

要索引的进程目录

建议首先在电脑上运行Lucene的简单实例,自己制作文本文档进行搜索。 操作一次就能理解大概的事情。 在此参见https://blog.csdn.net/u 012463017/article/details/46315367。 这篇文章的过程很详细,而且写文件的内容

实现搜索

分开写用户输入的句子,将分开写的结果保存在一个ArrayList中,使用布尔检索检索包含这些词的文档。 根据语序排序后,将前500个文档按时间月排序并返回结果,以确保搜索结果的时效性

实现检索的程序目录

web实现

在webroot下创建三个jsp文件,以显示首页搜索界面、搜索成功的界面和搜索失败的界面

使用servlet实现了请求管理,但在使用过程中同样出现了中文乱码问题,获取的输入语句乱码出现异常,后来询问后发现编码方式和解码方式不一致。 解决方法:在为get输入值的语句之后添加input=newstring(input.getbytes )、(iso8859-1 )和(UTF-8 )。

程序目录结构(确保导入servlet软件包、analysis软件包和lucene core软件包)。

大家在写程序的过程中出现了问题,所以一定要调试啊。 只要调试就可以知道你的值是否输了,哪一步有错误。 最后要想很多,先想好再动手。 计算机这门学科考验逻辑能力

自己写的搜索引擎基本参考的这篇文章https://blog.csdn.net/John _ bian/article/details/74502323根据这个大神修改了部分,源代码大神评论区

附上我的爬虫链接(写着low ) (3359 pan.Baidu.com/s/18 xyjpjgkdq9nlbveaq 5s la密码) mrx9)

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。