我想在 Python 中使用带有非英语语料库的 SVM 进行 POS 标记。看起来 Python 还不支持使用 SVM 进行标记(http://www.nltk.org/_modules)。
scikit-learn 有一个 SVM 模块。所以我安装了 scikit-learn 并在 Python 中使用它,但我找不到任何关于使用 SVM 进行 POS 标记的教程。
我真的不知道该怎么做,任何帮助将不胜感激。
我想从文件夹(带有os.walk)读取所有文件并将它们转换为一种编码(UTF-8)。问题是这些文件没有相同的编码。它们可以是 UTF-8、带 BOM 的 UTF-8、UTF-16。
有没有办法在不知道这些文件的编码的情况下读取这些文件?
我尝试在 Visual Studio 2013 中构建 CRF++ 并在最后一行出现此错误:
array_[begin + siblings[i].code].base =
value_ ?
static_cast<array_type_>(-value_[siblings[i].left]-1) :
static_cast<array_type_>(-siblings[i].left-1);
Run Code Online (Sandbox Code Playgroud)
错误 C4146:一元减运算符应用于无符号类型,结果仍然无符号
具体来说,它在 darts.h,第 189 行。
我在 Visual Studio 2015 中再次构建,然后没有错误。
如何在 Visual Studio 2013 中解决此问题?
当我使用 Brill Tagger 时,出现此错误。
TypeError: '_sre.SRE_Pattern' object is not iterable
WARNING:root:2016-04-05 00:05:37.503718 is when this event was logged.
ERROR:root:'_sre.SRE_Pattern' object is not iterable
Traceback (most recent call last):
File "D:\Dropbox\VCL\MyWrapper.py", line 137, in run_alg
CLC_POS.tag_file(input_utf8, path_out + '.pos', file_encoding, CLC_POS.load_tagger('pos_tbl_86943.model'), '')
File "D:\Dropbox\VCL\CLC_POS.py", line 277, in tag_file
token_tag = tagger.tag(word_list)
File "C:\Python34\lib\site-packages\nltk\tag\brill.py", line 264, in tag
tagged_tokens = self._initial_tagger.tag(tokens)
File "C:\Python34\lib\site-packages\nltk\tag\sequential.py", line 61, in tag
tags.append(self.tag_one(tokens, i, tags))
File "C:\Python34\lib\site-packages\nltk\tag\sequential.py", line 81, in tag_one
tag = tagger.choose_tag(tokens, index, history)
File …Run Code Online (Sandbox Code Playgroud) 我在Python 3.5中安装了numpy,scipy和scikit-learn.当我运行我的程序时,我收到此错误.
Traceback (most recent call last):
File "D:/Dropbox/Cong Toan/Tools/NLP_Tools/doc_sim.py", line 1, in <module>
from sklearn.feature_extraction.text import TfidfVectorizer
File "C:\Python35-32\lib\site-packages\sklearn\__init__.py", line 57, in <module>
from .base import clone
File "C:\Python35-32\lib\site-packages\sklearn\base.py", line 11, in <module>
from .utils.fixes import signature
File "C:\Python35-32\lib\site-packages\sklearn\utils\__init__.py", line 11, in <module>
from .validation import (as_float_array,
File "C:\Python35-32\lib\site-packages\sklearn\utils\validation.py", line 16, in <module>
from ..utils.fixes import signature
File "C:\Python35-32\lib\site-packages\sklearn\utils\fixes.py", line 324, in <module>
from scipy.sparse.linalg import lsqr as sparse_lsqr
File "C:\Python35-32\lib\site-packages\scipy\sparse\linalg\__init__.py", line 112, in <module>
from .isolve import * …Run Code Online (Sandbox Code Playgroud) python ×4
pos-tagger ×2
scikit-learn ×2
c++ ×1
casting ×1
dll ×1
encoding ×1
nltk ×1
numpy ×1
python-3.x ×1
readfile ×1
regex ×1
svm ×1