我在尝试导入 StanfordNER Tagger 以用于 NER 时遇到了一些问题。这是我的代码(从这里的其他帖子中提取了部分代码):
import os
def install_java():
!apt-get install -y openjdk-8-jdk-headless -qq > /dev/null
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
!java -version
install_java()
!pip install StanfordCoreNLP
from stanfordcorenlp import StanfordCoreNLP
nlp = StanfordCoreNLP('stanford-corenlp', lang='en', memory='4g')
Run Code Online (Sandbox Code Playgroud)
我得到的错误突出显示了告诉我的最后一行代码:
OSError: stanford-corenlp is not a directory.
Run Code Online (Sandbox Code Playgroud)
任何帮助都会很棒!
编辑:这是另一行对我有用的代码。对于 StanfordNERTagger 中的内容,将这些文件加载到 Colab 中并提供路径名。对我最初提出的问题做同样的事情。为我工作。
from nltk.tag import StanfordNERTagger
from nltk.tokenize import word_tokenize
st = StanfordNERTagger('/content/english.muc.7class.distsim.crf.ser.gz',
'/content/stanford-ner.jar',
encoding='utf-8')
text = 'While in France, Christine Lagarde discussed short-term stimulus efforts in a recent interview with the Wall Street …
Run Code Online (Sandbox Code Playgroud) 目前正在研究深度学习示例,他们正在使用 Tokenizer 包。我收到以下错误:
AttributeError:“Tokenizer”对象没有属性“word_index”
这是我的代码:
from keras.preprocessing.text import Tokenizer
samples = ['The cat say on the mat.', 'The dog ate my homework.']
tokenizer = Tokenizer(num_words=1000)
tokenizer.fit_on_sequences(samples)
sequences = tokenizer.texts_to_sequences(samples)
one_hot_results = tokenizer.texts_to_matrix(samples, mode='binary')
word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))
Run Code Online (Sandbox Code Playgroud)
谁能帮我发现我的错误吗?
我正在尝试进行交叉验证,我遇到了一个错误,上面写着:"发现输入变量的样本数量不一致:[18,1]"
我在pandas数据框(df)中使用不同的列作为功能,最后一列作为标签.这来自加州大学欧文分校的机器学习库.导入我过去使用的交叉验证包时,我收到一个可能已经折旧的错误.我将运行决策树,SVM和K-NN.
我的代码是这样的:
feature = [df['age'], df['job'], df['marital'], df['education'], df['default'], df['housing'], df['loan'], df['contact'],
df['month'], df['day_of_week'], df['campaign'], df['pdays'], df['previous'], df['emp.var.rate'], df['cons.price.idx'],
df['cons.conf.idx'], df['euribor3m'], df['nr.employed']]
label = [df['y']]
from sklearn.cross_validation import train_test_split
from sklearn.model_selection import cross_val_score
# Model Training
x = feature[:]
y = label
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.5)
Run Code Online (Sandbox Code Playgroud)
任何帮助都会很棒!
python machine-learning scikit-learn cross-validation sklearn-pandas
我在Databricks上运行它,我很难连续下降.默认情况下,上传文档时,所有行都标题为"_c1,_c2,_c3 ...":
我希望第一排成为我的标题,而我在做这件事时遇到了困难.
至于代码,这是我得到的最远的(我的数据帧是df):
df.columns = df.iloc[0]
df.drop(df.index[0])
df.index.name = None
df.columns.name = None
Run Code Online (Sandbox Code Playgroud)
我想我是在正确的轨道上,但我不知道如何完全删除第0行.'df.drop(df.index [0])'似乎不起作用.任何帮助都会很棒!
说 list(x) = ["12/12/12", "Jul-23-2017"]
我想计算字母的数量(在这种情况下是 0)和数字的数量(在这种情况下是 6)。
我尝试调用x[i].isalpha()
并x[i].isnumeric()
在迭代 for 循环时抛出错误说明
“类型错误:列表索引必须是整数或切片,而不是 str”
任何帮助将不胜感激!
对Q来说很新,我在按照文档中的示例将数据加载到表中时遇到了一些问题.
我正在运行以下代码:
table1: get `:pathname.csv
Run Code Online (Sandbox Code Playgroud)
虽然它不会抛出错误,但是当我运行以下命令时,没有任何内容出现:
select * from table1
Run Code Online (Sandbox Code Playgroud)
或者在选择特定列时:
select col1 from table1
Run Code Online (Sandbox Code Playgroud)
如果有人能指导我朝着正确的方向前进,那就太棒了!
编辑:这似乎工作并保留我的所有列:
table1: (9#"S";enlist csv) 0: `:data.CSV
Run Code Online (Sandbox Code Playgroud)