基于人工智能的机器人写手作品识别文献综述

 2023-02-27 22:11:34

辨别出一篇文章究竟是由通过庞大数据算法训练出来的机器写作的还是由人类创作的,这就涉及到文本分类的问题,这也是本课题的关键所在。

文本分类(text categorization,TC)技术是信息检索和文本挖掘的重要基础技术,其作用是根据文本的某些特征,在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。

文本分类是一个有指导的学习过程,它根据一个已经被标注的训练文本集合,找到文本属性(特征)和文本类别之间的关系模型(分类器),然后利用这种学习得到的关系模型对新的文本进行类别判。

文本分类的过程总体可划分为训练和分类两部分。

训练的目的是通过新本和类别之间的联系构造分类模型,使其用于分类。

分类过程是跟据训练结果对未知文本进行分类,给定类别标识的过程。

训练文本分类器过程如下图:文本分类算法有很多,如朴素贝叶斯分类算法,Rocchio算法,K最近邻算法,决策树算法,人工神经网络,fastText算法,支持向量机等等。

朴素贝叶斯分类算法(Nave Bayes)是一种典型的概率模型算法,根据贝叶斯公式作,算出文本属于某特定类别的概率。

它的基本思路是计算文本属于类别的概率,该类别概率等于文本中每一个特征词属于类别的概率的综合表达式,而每个词属于该类别的概率又在一定程度上可以用这个词在该类别训练文本中出现的次数(词频信息)来粗略估计。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。