我想知道哪种编程语言更适合自然语言处理.Java还是Python?我找到了很多关于它的问题和答案.但我仍然迷失在选择使用哪一个.
我想知道哪个NLP库用于Java,因为有很多库(LingPipe,GATE,OpenNLP,StandfordNLP).对于Python,大多数程序员推荐使用NLTK.
但是,如果我要从非结构化数据(只是自由形成的简单英文文本)中进行一些文本处理或信息提取以获得一些有用的信息,那么最佳选择是什么?Java还是Python?合适的图书馆
更新
我想要做的是从非结构化数据中提取有用的产品信息(例如,用户制作不同形式的广告,关于手机或笔记本电脑的标准不是很标准)
我需要在当前模块中实现一些NLP.我正在寻找一些可以帮助我的好图书馆.我遇到了'LingPipe',但无法完全遵循如何使用它.
基本上,我们需要实现一个功能,其中应用程序可以解释用简体中文输入的客户指令(交付说明).例如:
有谁知道如何解决这个文件读取错误,TreeTagger这是一个常用的自然语言处理工具用于POS标记,lemmatize和块句?
alvas@ikoma:~/treetagger$ echo 'Hello world!' | cmd/tree-tagger-english
reading parameters ...
ERROR: Can't open for reading: /home/alvas/treetagger/lib/english.par
aborted.
Run Code Online (Sandbox Code Playgroud)
我没有遇到任何可能的安装问题,如http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/installation-hints.txt中暗示的那样.我已按照网页上的说明正确安装(http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/#Linux):
alvas@ikoma:~$ mkdir treetagger
alvas@ikoma:~$ cd treetagger
alvas@ikoma:~/treetagger$ wget ftp://ftp.ims.uni-stuttgart.de/pub/corpora/tree-tagger-linux-3.2.tar.gz
alvas@ikoma:~/treetagger$ wget ftp://ftp.ims.uni-stuttgart.de/pub/corpora/tagger-scripts.tar.gz
alvas@ikoma:~/treetagger$ wget ftp://ftp.ims.uni-stuttgart.de/pub/corpora/install-tagger.sh
alvas@ikoma:~/treetagger$ wget ftp://ftp.ims.uni-stuttgart.de/pub/corpora/dutch-par-linux-3.2-utf8.bin.gz
alvas@ikoma:~/treetagger$ wget ftp://ftp.ims.uni-stuttgart.de/pub/corpora/german-par-linux-3.2-utf8.bin.gz
alvas@ikoma:~/treetagger$ wget ftp://ftp.ims.uni-stuttgart.de/pub/corpora/italian-par-linux-3.2-utf8.bin.gz
alvas@ikoma:~/treetagger$ wget ftp://ftp.ims.uni-stuttgart.de/pub/corpora/spanish-par-linux-3.2-utf8.bin.gz
alvas@ikoma:~/treetagger$ wget ftp://ftp.ims.uni-stuttgart.de/pub/corpora/french-par-linux-3.2-utf8.bin.gz
alvas@ikoma:~/treetagger$ sh install-tagger.sh
Linux version of TreeTagger installed.
Tagging scripts installed.
German parameter file (Linux, UTF8) installed.
German chunker parameter file (Linux) installed.
French …Run Code Online (Sandbox Code Playgroud)