我想用n-gram(最好用PHP)实现一些应用程序.
哪种类型的n-gram更适合大多数用途?单词级别或字符级别n-gram?你怎么能在PHP中实现一个n-gram-tokenizer?
首先,我想知道N-gram到底是什么.它是否正确?这就是我理解n-gram的方式:
句子:"我住在纽约."
单词级别的双字母(n为2):"#I","我活着","住在纽约","NY#"
字符级别双字母(n为2):"#I","I#","#l","li","iv","ve","e#","#i","in"," n#","#N","NY","Y#"
如果你有这个n-gram-parts数组,你可以删除重复的数组并为每个给出频率的部分添加一个计数器:
单词级别双字母:[1,1,1,1,1]
字符级别的双字母:[2,1,1,...]
它是否正确?
此外,我想了解更多关于你可以用n-gram做什么:
您如何看待我的应用方法,特别是最后一个?
我希望你能帮助我.提前致谢!