基于java的文本搜索引擎文献综述
2021-09-30 23:02:10
毕业论文课题相关文献综述
一、搜索引擎开发的背景及意义
在互联网蓬勃发展的今天,互联网上的信息更是浩如烟海。人们在享受互联网带来的便利的同时,却面临着一个如何在如此海量的内容中准确、快捷地找到自己所需要的信息的问题,由此互联网搜索引擎应运而生。
在对搜索引擎的原理、组成、数据结构和工作流程等方面深入研究的基础上,对搜索引擎的三个核心部分即网络蜘蛛、网页索引和搜索的分析及实现过程进行阐述。网络蜘蛛部分采用了基于递归和归档机制的Heritrix网络爬虫;网页索引部分利用开源的Lucene引擎架构设计并实现了一个可复用的、可扩展的索引建立与管理子系统;搜索部分在Ajax技术支持上,设计并实现一个灵活、简洁的用户接口。本系统具有抓取网页、建立和管理索引、建立日志以及搜索信息等功能,具备一定的应用前景。
二、国内外在该方向的研究现状及分析
如今的互联网以及信息技术领域已经进入了云计算、大数据的时代,技术的创新日新月异,作为网络信息入口和第一大互联网应用工具的搜索引擎也将发生改变。
日前,在《二十一世纪商业评论》举办的21世纪中国最佳商业模式评选中,中搜高级副总裁陈波对大数据环境和搜索引擎的发展谈及了自己的观点,他认为大数据和搜索是一个比较对立的话题,大数据是比较时髦的概念,处在市场和泡沫阶段;搜索引擎却是不时髦的话题,是个具有创新性的领域。在互联网大数据背景下,传统搜索引擎在模式和技术上都会发生巨变,不改变将会淘汰。
互联网大数据特征在多个领域发展的愈加明显。新浪微博每日内容更新量超过一亿条,注册用户超过3亿;全球最大视频网站youtube的日访问量已经超过十亿次;Facebook一天新增评论32亿条,分享3亿张照片;淘宝网站每天的交易量和访问量更是千万级别。在2012年互联网行业会议上,中国工程院院士邬贺铨表示约有800EB,如果装在DVD光盘中要装1.68亿张、装在硬盘中要装80万个。
在国外,一些新兴的科技公司已经在从事大数据下的用户行为分析,并在搜索领域对谷歌、微软等巨头发起挑战,谷歌、微软也在迅速做出改变。
此外,云计算、大数据信息也推动了其他互联网平台涉足搜索引擎领域,加快在搜索领域的掘金步伐。2012下半年,全球最大的社交网站Facebook表示要推出自己的搜索引擎平台,在2013年初,Facebook推出图谱搜索(Graph Search),正式进军搜索领域。
三、课题内容
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。