我从这个网站http://sharpnlp.codeplex.com/ 下载了SharpNLP,但它下载了.nbin文件,我不知道如何处理.任何帮助pleeeeeeeease?
Aru*_*ran 14
我也是像你这样的用户.但是有点挣扎,我找到了几种使用Nbin文件的方法.如上所述,Nbin文件是经过训练的模型.我们可以使用BinaryGisModelWriter创建Nbin文件.然而就像我一样,我相信你也不想创建自己的模型,而是在项目中有效地使用nbin文件.
为此你需要两个dll.
SharpEntropy.dll OpenNLP.dll
除此之外,您还可以从代码项目中为SharpNLP下载示例项目
最好下载样本的.NET 2.0版本
在里面你将有一个名为OpenNLP的项目.将该项目添加到您希望使用NLP或nbin文件的任何项目中,并将解决方案中的引用添加到"OpenNLP"项目中.
现在从您的主要解决方案,您可以初始化不同的工具,例如,我将向您展示句子检测器,标记器和PosTagger的初始化
private string mModelPath = @"C:\Users\ATS\Documents\Visual Studio 2012\Projects\Google_page_speed_json\Google_page_speed_json\bin\Release\";
private OpenNLP.Tools.SentenceDetect.MaximumEntropySentenceDetector mSentenceDetector;
private OpenNLP.Tools.Tokenize.EnglishMaximumEntropyTokenizer mTokenizer;
private OpenNLP.Tools.PosTagger.EnglishMaximumEntropyPosTagger mPosTagger;
Run Code Online (Sandbox Code Playgroud)
该mModelPath是认为你想使用的nbin文件的路径变量.
现在,我将向您展示如何使用上面定义的类的构造函数来使用nbin文件.
对于句子探测器
private string[] SplitSentences(string paragraph)
{
if (mSentenceDetector == null)
{
mSentenceDetector = new OpenNLP.Tools.SentenceDetect.EnglishMaximumEntropySentenceDetector(mModelPath + "EnglishSD.nbin");
}
return mSentenceDetector.SentenceDetect(paragraph);
}
Run Code Online (Sandbox Code Playgroud)
对于Tokenizer
private string[] TokenizeSentence(string sentence)
{
if (mTokenizer == null)
{
mTokenizer = new OpenNLP.Tools.Tokenize.EnglishMaximumEntropyTokenizer(mModelPath + "EnglishTok.nbin");
}
return mTokenizer.Tokenize(sentence);
}
Run Code Online (Sandbox Code Playgroud)
而对于POSTagger
private string[] PosTagTokens(string[] tokens)
{
if (mPosTagger == null)
{
mPosTagger = new OpenNLP.Tools.PosTagger.EnglishMaximumEntropyPosTagger(mModelPath + "EnglishPOS.nbin", mModelPath + @"\Parser\tagdict");
}
return mPosTagger.Tag(tokens);
}
Run Code Online (Sandbox Code Playgroud)
您可以看到我分别使用了EnglishSD.nbin,EnglishTok.nbin和EnglishPOS.nbin进行句子检测,标记和POS标记.nbin文件只是预先训练的模型,一般可以使用SharpNLP或OpenNLP.
您可以从官方OpenNLP工具模型或Nbin文件的Codeplex存储库中找到最新的训练模型集,以便与SharpNLP一起使用
使用上述方法和Nbin文件的样本POS标记符如下,
public void POSTagger_Method(string sent)
{
File.WriteAllText("POSTagged.txt", sent+"\n\n");
string[] split_sentences = SplitSentences(sent);
foreach (string sentence in split_sentences)
{
File.AppendAllText("POSTagged.txt", sentence+"\n");
string[] tokens = TokenizeSentence(sentence);
string[] tags = PosTagTokens(tokens);
for (int currentTag = 0; currentTag < tags.Length; currentTag++)
{
File.AppendAllText("POSTagged.txt", tokens[currentTag] + " - " + tags[currentTag]+"\n");
}
File.AppendAllText("POSTagged.txt", "\n\n");
}
}
Run Code Online (Sandbox Code Playgroud)
您可以通过使用可用的Nbin文件编写类似的分块,解析等方法,或者您可以训练自己的一个.
虽然我没有自己训练模型,但是从一个整齐的训练文本文件中训练模型的语法是
System.IO.StreamReader trainingStreamReader = new System.IO.StreamReader(trainingDataFile);
SharpEntropy.ITrainingEventReader eventReader = new SharpEntropy.BasicEventReader(new SharpEntropy.PlainTextByLineDataReader(trainingStreamReader));
SharpEntropy.GisTrainer trainer = new SharpEntropy.GisTrainer();
trainer.TrainModel(eventReader);
mModel = new SharpEntropy.GisModel(trainer);
Run Code Online (Sandbox Code Playgroud)
我相信这篇文章将帮助您开始使用SharpNLP.请考虑讨论您遇到的任何问题.我很乐意回复.
| 归档时间: |
|
| 查看次数: |
8744 次 |
| 最近记录: |