开题报告内容:(包括拟研究或解决的问题、采用的研究手段及文献综述,不少于2000字)
体检资料的数据挖掘
1、 文献综述
随着科技社会的进步,每天都有数以亿万的数据产生。当前, 在各种企业、商业领域中的交易记录与财务报表, 科学研究领域所收集的数据(例如气象卫星传回的气象图像)其数据规模经常在数十兆字节, 甚至成百上千兆节。但是人们却无法从这些原始数据中直接获取信息,我们需要将这样的 数据洪流 转换为 整齐有序 但却 堆积如山 数据集合的能力。[1]从原始数据到知识发现,就必须要进行相应的分析处理,因此各种数据分析软件应运而生。目前被称为当今最权威的两大统计软件则为SPSS与SAS。在此次分析中,则选择使用SPSS19作为分析健康查体数据的工具。
SPSS,全称Statistical Product and Service Solutions,意为统计产品与服务解决方案。它是世界上应用最广泛的专业统计软件之一,分布于通信、医疗、银行、证券、保险、制造、商业、市场研究和科研教育等多个领域和行业。SPSS从1968年到现在能经久不衰的原因就在于它强大的统计分析与数据准备功能,方便的图表展示功能,以及良好的兼容性、界面的友好性满足了广大用户的需求。[2]此次运用的软件为SPSS19版,是SPSS公司被IBM收购后推出的第一个作品,较于之前并没有做很大的改动,只是界面已经彻底改变为IBM的蓝色风格。对统计术语不熟悉的用户,17、19、20版均有中文界面。所以使用起来也很方便。
此次所挖掘分析的数据来自健康查体中心的3481位体检者的健康查体数据。
健康查体作为了解体质状况的基本手段,主要是通过一系列体征数据检测各项指标是否正常,从而判断人的健康水平。健康查体的项目包括身高、体重、血压、外科检查、内科检查、五官科检查、血液检查、肝功能检测、肾功能检测、血脂检测、心肌酶四项检测、甲状腺功能检测、血流变检测、类风湿因子检测、C-反应蛋白测定、微量元素检测、丙肝抗体测定、甲胎蛋白,癌胚抗原测定、防癌检测、尿常规检测、便常规检测、肺功能检测、骨密度检测、十二导联心电图、碳14检测、经颅多普勒检查、彩超,B超、X光检查、妇科检查,以及全身热成像分析。[3]
吴占福,马旭平,李亚奎[12]认为,统计分析软件SPSS在社会科学,自然科学的各个领域都能发挥巨大作用,它功能强大,应用广泛,并且易学易用,SPSS 提供用户图形界面( graphical user interface , GUI) 窗口环境, 在屏幕上清晰显示各类分析选项, 并具备完整的下拉式菜单( pull-down menus) 及对话框(dialogue box) , 用户界面非常友好, 其操作具有和其他Windows 应用软件相同的特点. 最显著的特点是使用菜单和对话框操作方式, 绝大多数操作过程仅靠鼠标击键即可完成, 易于操作,因而成为非统计专业人员应用最多的统计软件.
2、 拟研究、解决的问题及意义
运用统计学方法利用SPSS19分析健康查体数据,查看各项身体指标,了解体检者的体质状况。同时掌握SPSS19的基本用法,学会利用SPSS对数据进行分析操作,并得出有效结论。
拟解决问题如下:
1、 确定正确的数据分析方法(包括严格设计支持下的统计方法、半试验研究支持下的统计方法及片智能化、自动化分析的数据挖掘应用方法),鉴于数据的局限性,本次将采用半试验研究支持下的统计方法。
2、 由于不同的统计方法对数据文件结构的要求不一样,必要时需要对数据文件的结构进行重新调整或转换,应研究如何对数据进行数据管理。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。