相关疑难解决方法(0)

N-gram:解释+ 2个申请

我想用n-gram(最好用PHP)实现一些应用程序.


哪种类型的n-gram更适合大多数用途?单词级别或字符级别n-gram?你怎么能在PHP中实现一个n-gram-tokenizer?


首先,我想知道N-gram到底是什么.它是否正确?这就是我理解n-gram的方式:

句子:"我住在纽约."

单词级别的双字母(n为2):"#I","我活着","住在纽约","NY#"

字符级别双字母(n为2):"#I","I#","#l","li","iv","ve","e#","#i","in"," n#","#N","NY","Y#"

如果你有这个n-gram-parts数组,你可以删除重复的数组并为每个给出频率的部分添加一个计数器:

单词级别双字母:[1,1,1,1,1]

字符级别的双字母:[2,1,1,...]

它是否正确?


此外,我想了解更多关于你可以用n-gram做什么:

  • 如何使用n-gram识别文本的语言?
  • 即使您没有双语语料库,是否可以使用n-gram进行机器翻译?
  • 如何构建垃圾邮件过滤器(垃圾邮件,火腿)?将n-gram与贝叶斯滤波器相结合?
  • 如何进行主题定位?例如:关于篮球还是狗的文字?我的方法(用维基百科文章"狗"和"篮球"做下面的内容):为两个文档构建n-gram向量,对它们进行标准化,计算曼哈顿/欧几里德距离,结果越接近1,越高的是相似

您如何看待我的应用方法,特别是最后一个?


我希望你能帮助我.提前致谢!

php nlp analysis n-gram

18
推荐指数
1
解决办法
9132
查看次数

标签 统计

analysis ×1

n-gram ×1

nlp ×1

php ×1