网站数据收集与处理系统设计文献综述

 2021-10-06 13:55:20

毕业论文课题相关文献综述

文献综述

1. 前言

进入二十一世纪，随着网络的普及和应用，人们能够接触的信息也越来越多，互联网时代的来临，使得网络成为了大量信息的载体。但是在这些大量的信息中，怎样去准确的提取自己想要的信息成了一个巨大的难题。一般来说，人们在互联网上寻找资料和提取信息的检索辅助工具是搜索引擎，常用的搜索引擎有google，baidu，yahoo等，但是这些工具也有它的局限性。比如说不同领域，不同背景的用户往往对所搜索的信息的要求不一样，得到的查询结果中有很多用户所不需要的信息。如何能够满足不同人的需求是现今网站信息收集与处理的发展热点。

2. 研究现状

网络数据采集是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取，并按照一定规则和筛选标准进行数据归类，并形成数据库文件的一个过程。目前主要运用垂直网络爬虫等来实现信息收集。网络爬虫，是一种自动提取网页的程序，它可以从互联网上自动下载网页并且将下载的内容储存到本地数据库中。网络爬虫被用来从海量的互联网信息中抓取网页上的信息，所以网络爬虫是搜索引擎的重要组成部分。

为了解决现今存在的局限性，定向抓取相关网页资源的主题爬虫应运而生。随着人们对主题爬虫研究的深入, 各种具有智能性的算法被相继用在了主题爬虫的设计实现上, 如蚁群算法、遗传算法、人工鱼群算法等等。这些智能爬虫所搜集到的网页具有更强的主题相关性, 并且在查全率、查准率上有了非常大的提高。网络爬虫是搜索引擎的重要组成部分，通过网络爬虫，搜索引擎才能采集到互联网上数亿的网页信息。网络爬虫效率的提高，是搜索引擎领域的研究热点。

3. 原理及实现

网络爬虫通过请求站点上的HTML文档访问某一站点。它遍历Web空间,不断从一个站点移动到另一个站点,自动建立索引,并加入到网页数据库中。网络爬虫进入某个超级文本时, 它利用HTML语言的标记结构来搜索信息及获取指向其他超级文本的URL地址,可以完全不依赖用户干预实现网络上的自动爬行和搜索。

网络爬虫功能结构：

传统网络爬虫的包括三个模块，即协议处理模块，URL处理模块和内容检测模块。其中，协议处理模块是用来提供网络爬虫在爬行时所需要的网络协议；URL处理模块负责对采集的URL进行排列顺序；内容检测模块被用来处理网络上大量存在的内容重复的页面，从而提高网络爬虫的工作效率。网络爬虫的功能模块如图1所示。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码