网站数据采集与分析系统设计文献综述

 2021-10-06 13:56:17

毕业论文课题相关文献综述

文献综述

一、课题的开发背景

随着因特网的不断发展，人们的需求也在不断的提高，网络信息检索已经成为人们每天都要进行的内容。互联网技术日益发展，网络海量信息不断增长，如何从中迅速、准确的找到自己所需的信息是一个非常重要的问题，对信息的准确获取与分拣已经成为一种越来越大的需求。在搜索引擎中有垂直搜索引擎和普通的网页搜索引擎，这两者的最大区别是垂直搜索引擎可以对网页信息进行结构化的信息抽取，即将网页的非结构化数据抽取成特定的结构化信息数据。例如，网页搜索是以网页为最小单位，网页块分析是以网页块为最小单位，而垂直搜索是以结构化数据为最小单位。垂直搜索引擎将数据存储到数据库，进行了进一步的加工处理，如：去重、分类等，最后分词、索引再以搜索的方式满足用户的各种需求。在整个过程中，搜索的信息数据由非结构化数据抽取成结构化数据，经过深度加工处理后又以非结构化的方式和结构化的方式返回给搜索用户^[1-2]。本次毕业设计可以通过利用垂直搜索引擎技术的网络蜘蛛（或数据采集机器人）将海量信息和数据采集回后，进行分拣和二次加工，以此来实现网络数据价值与利益更大化、更专业化的目的。具体是在购物网站上抓取关键性的数据，并形成数据报告，使用户获取新的有价值的信息，使用户在购物的时候更具参考价值。

网络数据采集通常与计算机科学有关，本次课题通过统计、在线分析处理的方法来实现目标。其中，在网页信息提取中所采用的技术为网络爬虫，网络爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念三种。覆盖率、时效性、重复率都是网络爬虫的基本评价指标。网络爬虫是专门用来检索信息的机器人，现代意义上的搜索引擎，能以人类无法达到的速度不间断地执行某项任务^[3]。而将数据存储的地方为数据库，数据库是按照数据结构来组织、存储和管理数据的仓库，它的基本结构分为三个层次，分别为物理数据层、概念数据层以及逻辑数据层。它能实现数据共享、数据独立、数据集中、数据安全、数据一致等功能。而数据挖掘是数据库知识发现中的一个步骤，主要有数据准备、规律寻找和规律表示三个步骤，一般指从大量的数据中自动搜索隐藏于其中的有着特殊关系的信息过程^[4]。

二、研究现状

在网页信息提取中所采用的技术为网络爬虫（也叫机器人或网络蜘蛛），是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是垂直搜索引擎的重要组成^[5]。对网络爬虫的研究有斯坦福大学的Google,康柏研究中心的Mercator,卡内基梅隆大学的WebSPHNIX以及国内上海交通大学的Igloo系统。开源的Web爬虫项目有Heritrix、J-Spider等。网络爬虫可从一个或若干个初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断地从当前页面上抽取出如商品名称、价格、简介等的内容。

数据采集可根据网络不同的数据类型与网站结构，采用分布式抓取、分析、数据挖掘等方法来获取信息，这种信息系统能对指定的网站进行定向数据抓取和分析，并在专业知识库建立、网站内容建设、报社媒体资讯获取、企业竞争情报分析等领域应用很广。这种信息系统能大大降低政府部门和大多数企业在信息建设过程中的人工成本^[6]。面对海量信息世界，在越来越多的信息和数据可以从互联网上获得的同时，对大量数据的分析、采集和深度挖掘还可能产生巨大的商机。

三、课题的基本内容

1、分析URL，选择合适的编程语言设计一个针对某购物网站某一大类商品关键数据的抓取程序；

2、选择合适的数据库存储这些数据；

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码