小编rma*_*esh的帖子

导入 StanfordNER 标记器 Google Colab

我在尝试导入 StanfordNER Tagger 以用于 NER 时遇到了一些问题。这是我的代码(从这里的其他帖子中提取了部分代码):

import os
def install_java():
  !apt-get install -y openjdk-8-jdk-headless -qq > /dev/null
  os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
  !java -version
install_java()

!pip install StanfordCoreNLP
from stanfordcorenlp import StanfordCoreNLP
nlp = StanfordCoreNLP('stanford-corenlp', lang='en', memory='4g')
Run Code Online (Sandbox Code Playgroud)

我得到的错误突出显示了告诉我的最后一行代码:

OSError: stanford-corenlp is not a directory.
Run Code Online (Sandbox Code Playgroud)

任何帮助都会很棒!

编辑:这是另一行对我有用的代码。对于 StanfordNERTagger 中的内容,将这些文件加载​​到 Colab 中并提供路径名。对我最初提出的问题做同样的事情。为我工作。

from nltk.tag import StanfordNERTagger
from nltk.tokenize import word_tokenize



st = StanfordNERTagger('/content/english.muc.7class.distsim.crf.ser.gz',
                   '/content/stanford-ner.jar',
                   encoding='utf-8')

text = 'While in France, Christine Lagarde discussed short-term stimulus efforts in a recent interview with the Wall Street …
Run Code Online (Sandbox Code Playgroud)

python stanford-nlp google-colaboratory

5
推荐指数
1
解决办法
1001
查看次数

无法从 Keras 导入 Tokenizer

目前正在研究深度学习示例,他们正在使用 Tokenizer 包。我收到以下错误:

AttributeError:“Tokenizer”对象没有属性“word_index”

这是我的代码:

from keras.preprocessing.text import Tokenizer

samples = ['The cat say on the mat.', 'The dog ate my homework.']

tokenizer = Tokenizer(num_words=1000)
tokenizer.fit_on_sequences(samples)

sequences = tokenizer.texts_to_sequences(samples)

one_hot_results = tokenizer.texts_to_matrix(samples, mode='binary')

word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))
Run Code Online (Sandbox Code Playgroud)

谁能帮我发现我的错误吗?

python machine-learning deep-learning keras

3
推荐指数
1
解决办法
2万
查看次数

Sklearn 0.20+的交叉验证?

我正在尝试进行交叉验证,我遇到了一个错误,上面写着:"发现输入变量的样本数量不一致:[18,1]"

我在pandas数据框(df)中使用不同的列作为功能,最后一列作为标签.这来自加州大学欧文分校的机器学习库.导入我过去使用的交叉验证包时,我收到一个可能已经折旧的错误.我将运行决策树,SVM和K-NN.

我的代码是这样的:

feature = [df['age'], df['job'], df['marital'], df['education'], df['default'], df['housing'], df['loan'], df['contact'],
       df['month'], df['day_of_week'], df['campaign'], df['pdays'], df['previous'], df['emp.var.rate'], df['cons.price.idx'],
       df['cons.conf.idx'], df['euribor3m'], df['nr.employed']]
label = [df['y']]

from sklearn.cross_validation import train_test_split
from sklearn.model_selection import cross_val_score
# Model Training 
x = feature[:]
y = label
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.5)
Run Code Online (Sandbox Code Playgroud)

任何帮助都会很棒!

python machine-learning scikit-learn cross-validation sklearn-pandas

2
推荐指数
1
解决办法
1729
查看次数

从Pandas删除此特定行的问题?

我在Databricks上运行它,我很难连续下降.默认情况下,上传文档时,所有行都标题为"_c1,_c2,_c3 ...": 我的示例CSV文件

我希望第一排成为我的标题,而我在做这件事时遇到了困难.

至于代码,这是我得到的最远的(我的数据帧是df):

df.columns = df.iloc[0]
df.drop(df.index[0])
df.index.name = None
df.columns.name = None
Run Code Online (Sandbox Code Playgroud)

这会返回一个如下所示的数据框: 在此输入图像描述

我想我是在正确的轨道上,但我不知道如何完全删除第0行.'df.drop(df.index [0])'似乎不起作用.任何帮助都会很棒!

python pandas

1
推荐指数
1
解决办法
30
查看次数

计算列表中数字和字母的数量?

说 list(x) = ["12/12/12", "Jul-23-2017"]

我想计算字母的数量(在这种情况下是 0)和数字的数量(在这种情况下是 6)。

我尝试调用x[i].isalpha()x[i].isnumeric()在迭代 for 循环时抛出错误说明

“类型错误:列表索引必须是整数或切片,而不是 str”

任何帮助将不胜感激!

python python-3.x

0
推荐指数
1
解决办法
2385
查看次数

如何在Q中将csv加载到表中?

对Q来说很新,我在按照文档中的示例将数据加载到表中时遇到了一些问题.

我正在运行以下代码:

table1: get `:pathname.csv
Run Code Online (Sandbox Code Playgroud)

虽然它不会抛出错误,但是当我运行以下命令时,没有任何内容出现:

select * from table1
Run Code Online (Sandbox Code Playgroud)

或者在选择特定列时:

select col1 from table1
Run Code Online (Sandbox Code Playgroud)

如果有人能指导我朝着正确的方向前进,那就太棒了!

编辑:这似乎工作并保留我的所有列:

table1: (9#"S";enlist csv) 0: `:data.CSV
Run Code Online (Sandbox Code Playgroud)

database kdb

0
推荐指数
1
解决办法
262
查看次数