Den*_*hev 18 nlp machine-learning markov-chains data-mining
让我们想象一下,我有两个由同一个人写的英语文本.是否有可能应用一些马尔可夫链算法来分析每个:基于统计数据创建某种指纹,并比较从不同文本得到的指纹?比方说,我们有一个包含100个文本的库.有人写了第1号文字和其他一些文字,我们需要通过分析他/她的写作风格来猜测哪一个.有没有已知的算法呢?可以在这里应用马尔可夫链吗?
dou*_*oug 17
绝对有可能,而且确实给出一个文本或其中某些部分的作者的成功记录令人印象深刻.
一些有代表性的研究(警告:链接到pdf文件):
为了帮助您进行网络搜索,这门学科通常被称为测量学(有时也称为Stylogenetics).
因此,我认为最重要的两个问题是:哪些分类器对此目的有用,哪些数据被输入分类器?
我仍然感到惊讶的是,实现非常准确的分类需要多少数据.数据通常只是一个单词频率列表.(此处可在线获取单词频率列表目录.)
例如,机器学习中广泛使用的一个数据集,可从网上的许多地方获得,由四位作者的数据组成:莎士比亚,简奥斯汀,杰克伦敦,米尔顿.这些作品分为872件(大致相当于章节),换句话说,四个作者中每一件约有220个不同的实质文本; 这些部分中的每一个都成为数据集中的单个数据点.接下来,对每个文本执行字频扫描,并且将70个最常用的单词用于研究,丢弃频率扫描的其余结果.这是70个单词列表中的前20个.
['a', 'all', 'also', 'an', 'and', 'any', 'are', 'as', 'at', 'be', 'been',
  'but', 'by', 'can', 'do', 'down', 'even', 'every', 'for', 'from'] 
然后,每个数据点只是872章每章中70个单词的每个单词的计数.
[78, 34, 21, 45, 76, 9, 23, 12, 43, 54, 110, 21, 45, 59, 87, 59, 34, 104, 93, 40]
这些数据点中的每一个都是作者文学指纹的一个实例.
每个数据点中的最后一项是一个整数(1-4),表示该文本所属的四位作者之一.
最近,我通过一个简单的无监督ML算法运行这个数据集; 结果非常好 - 几乎完全分离了四个类,你可以在我对StackOverflow的前一个Q的回答中看到,这与使用ML的文本分类有关,而不是作者识别.
那么使用其他算法呢?显然,受监督类别中的大多数机器学习算法都可以成功解决此类数据.其中,经常使用多层感知器(MLP,又名神经网络)(使用神经网络的作者归因是一种经常被引用的研究).
| 归档时间: | 
 | 
| 查看次数: | 4237 次 | 
| 最近记录: |