小编sop*_*ros的帖子

酸洗经过训练的 NLTK 模型

所以我目前正在对一组手术数据训练一个隐马尔可夫模型,如下所示:

nltkTrainer = nltk.tag.hmm.HiddenMarkovModelTrainer(range(15),range(90))
model = nltkTrainer.train_unsupervised(data, max_iterations=3)
Run Code Online (Sandbox Code Playgroud)

如果有帮助,“模型”将作为“HiddenMarkovModelTagger 15 个状态和 90 个输出符号”给出

然而,在我的机器上运行这个完整的训练需要将近一个小时。我希望能够序列化 nltk 模型输出“模型”以在会话之间加载和保存。我已经阅读过,似乎每个人都在使用 Python 的内置 pickle,它对已知数据类型工作得很好。我什至可以使用以下代码腌制我训练的模型变量:

f = open('my_classifier.pickle', 'wb')
pickle.dump(model, f)
f.close()
Run Code Online (Sandbox Code Playgroud)

但是在尝试加载腌制文件时,出现错误:

/usr/local/lib/python2.7/dist-packages/nltk/probability.pyc in __init__(self, probdist_dict)
   1971         """
   1972         defaultdict.__init__(self, DictionaryProbDist)
-> 1973         self.update(probdist_dict)
   1974 
   1975 ##//////////////////////////////////////////////////////

TypeError: 'type' object is not iterable
Run Code Online (Sandbox Code Playgroud)

有没有人找到解决这个问题的方法?这是 NLTK 的问题吗?

python pickle nltk python-2.7 hidden-markov-models

6
推荐指数
0
解决办法
2041
查看次数

熊猫DataFrame RangeIndex

我创建了一个Pandas DataFrame。我需要创建一个RangeIndex为数据帧对应于框架- RangeIndex(start=0, stop=x, step=y)-其中xy与我的数据帧。

我还没有看到如何执行此操作的示例-是否有特定于此的方法或语法?

谢谢

python machine-learning dataframe pandas

6
推荐指数
1
解决办法
1万
查看次数

为什么OpenFST似乎没有"运行"或"接受"或"转换"命令?

我听说过很多关于OpenFST的好东西,但我努力让它发挥作用.我正在构建一个FST自动机(fstcompile),我想用它作为接受器来检查一组字符串是否匹配(非常相似的正则表达式,但具有OpenFST提供的自动机优化提供的优点).事情就是这样:
如何检查生成的自动机是否接受字符串?

我发现一个建议是输入字符串应该变成一个简单的自动机,并由接受自动机组成以获得结果.我发现它非常麻烦和奇怪.有更简单的方法(通过cmd行或Python/C++)?

python openfst fst

6
推荐指数
1
解决办法
479
查看次数

python imblearn make_pipeline TypeError:Pipeline的最后一步应该实现fit

我正在尝试在管道内实现 imblearn 的 SMOTE。我的数据集是存储在 Pandas 数据框中的文本数据。请看下面的代码片段

text_clf =Pipeline([('vect', TfidfVectorizer()),('scale', StandardScaler(with_mean=False)),('smt', SMOTE(random_state=5)),('clf', LinearSVC(class_weight='balanced'))])
Run Code Online (Sandbox Code Playgroud)

在此之后,我使用 GridsearchCV。

grid = GridSearchCV(text_clf, parameters, cv=4, n_jobs=-1, scoring = 'accuracy') 
Run Code Online (Sandbox Code Playgroud)

其中参数只是主要用于 TfidfVectorizer() 的调整参数。我收到以下错误。

 All intermediate steps should be transformers and implement fit and transform. 'SMOTE
Run Code Online (Sandbox Code Playgroud)

发布此错误,我已将代码更改为如下。

vect = TfidfVectorizer(use_idf=True,smooth_idf = True, max_df = 0.25, sublinear_tf = True, ngram_range=(1,2))
X = vect.fit_transform(X).todense()
Y = vect.fit_transform(Y).todense()
X_Train,X_Test,Y_Train,y_test = train_test_split(X,Y, random_state=0, test_size=0.33, shuffle=True)
text_clf =make_pipeline([('smt', SMOTE(random_state=5)),('scale', StandardScaler(with_mean=False)),('clf', LinearSVC(class_weight='balanced'))])
grid = GridSearchCV(text_clf, parameters, cv=4, n_jobs=-1, scoring = 'accuracy')
Run Code Online (Sandbox Code Playgroud)

哪里parameters是什么,但调整 …

python scikit-learn imblearn

6
推荐指数
1
解决办法
4745
查看次数

将 WindowsPath 转换为 PosixPath

我正在使用该类pathlib在我的 Python 项目中管理我的路径Path

当我使用 Linux 时,一切正常。但是在 Windows 上,我有一个小问题。

在我的代码中的某个时刻,我必须编写一个 JavaScript 文件,其中列出了对其他几个文件的引用。这些路径必须以 POSIX 格式编写。但是当我str(my_path_instance)在 Windows 上做的时候,路径是用 Windows 格式写的。

您知道将 a 转换WindowsPathPosixPathwith的简单方法pathlib吗?

python windows posix pathlib

6
推荐指数
1
解决办法
6984
查看次数

在python中导入类时显示警告

我在不同的模块中有一个类,我想在DeprecationWarning导入该类时显示一个。这样做的正确方法是什么?

模块 1 包含 -

class Test:
    pass
Run Code Online (Sandbox Code Playgroud)

模块 2 包含 -

from module1 import Test #this line should show a DeprecationWarning.
Run Code Online (Sandbox Code Playgroud)

python warnings exception deprecation-warning

6
推荐指数
1
解决办法
1051
查看次数

如何将 df.info() 转换为数据帧。df.info()

如何转换df.info()成data_frame。

我希望能够将此数据框与其他数据框合并。

df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 458 entries, 0 to 457
Data columns (total 9 columns):
Name        457 non-null object
Team        457 non-null object
Number      457 non-null float64
Position    457 non-null object
Age         457 non-null float64
Height      457 non-null object
Weight      457 non-null float64
College     373 non-null object
Salary      446 non-null float64
dtypes: float64(4), object(5)
memory usage: 32.3+ KB
Run Code Online (Sandbox Code Playgroud)

merge converters dataframe python-3.x pandas

6
推荐指数
1
解决办法
2821
查看次数

如何在熊猫中保持最快的骑行

我有一个这样的数据框:

 df = pd.DataFrame({'origin': ['town a', 'town a', 'town a','town a', 'town c', 'town c'],\
'destination': ['town b', 'town b', 'town b','town b','town b','town b'], \
'departure_hour': ['09:30', '09:45','10:00', '10:30','14:30', '15:30'],\
'arrival_hour': ['11:30', '10:50','12:00', '11:45','16:30', '19:30'],\
'date': ['29-09-2020', '29-09-2020','29-09-2020','29-09-2020','29-09-2020','29-09-2020']})

   origin destination departure_hour arrival_hour        date
0  town a      town b          09:30        11:30  29-09-2020
1  town a      town b          09:45        10:50  29-09-2020
2  town a      town b          10:00        12:00  29-09-2020
3  town a      town b          10:30        11:45  29-09-2020
4  town c      town …
Run Code Online (Sandbox Code Playgroud)

python performance dataframe python-3.x pandas

6
推荐指数
1
解决办法
63
查看次数

如何在 Julia 中加载 UTF16 编码的文本文件?

我有一个文本文件(很确定)是用 UTF16 编码的,但我不知道如何在 Julia 中加载它。我是否必须将它作为字节加载然后转换为UTF16String

unicode encoding julia

5
推荐指数
1
解决办法
543
查看次数

安装 sparknlp 后,无法导入 sparknlp

以下在 Cloudera CDSW 集群网关上成功运行。

import pyspark
from pyspark.sql import SparkSession
spark = (SparkSession
            .builder
            .config("spark.jars.packages","JohnSnowLabs:spark-nlp:1.2.3")
            .getOrCreate()
         )
Run Code Online (Sandbox Code Playgroud)

产生这个输出。

Ivy Default Cache set to: /home/cdsw/.ivy2/cache
The jars for the packages stored in: /home/cdsw/.ivy2/jars
:: loading settings :: url = jar:file:/opt/cloudera/parcels/SPARK2-2.2.0.cloudera1-1.cdh5.12.0.p0.142354/lib/spark2/jars/ivy-2.4.0.jar!/org/apache/ivy/core/settings/ivysettings.xml
JohnSnowLabs#spark-nlp added as a dependency
:: resolving dependencies :: org.apache.spark#spark-submit-parent;1.0
    confs: [default]
    found JohnSnowLabs#spark-nlp;1.2.3 in spark-packages
    found com.typesafe#config;1.3.0 in central
    found org.fusesource.leveldbjni#leveldbjni-all;1.8 in central
downloading http://dl.bintray.com/spark-packages/maven/JohnSnowLabs/spark-nlp/1.2.3/spark-nlp-1.2.3.jar ...
    [SUCCESSFUL ] JohnSnowLabs#spark-nlp;1.2.3!spark-nlp.jar (3357ms)
downloading https://repo1.maven.org/maven2/com/typesafe/config/1.3.0/config-1.3.0.jar ...
    [SUCCESSFUL ] com.typesafe#config;1.3.0!config.jar(bundle) (348ms)
downloading https://repo1.maven.org/maven2/org/fusesource/leveldbjni/leveldbjni-all/1.8/leveldbjni-all-1.8.jar ... …
Run Code Online (Sandbox Code Playgroud)

apache-spark pyspark apache-spark-mllib spark-packages johnsnowlabs-spark-nlp

5
推荐指数
2
解决办法
4297
查看次数