我想只使用维基百科的医学数据进行分析.我使用python进行抓取.我已经使用这个库在查询中按字搜索:
import wikipedia
import requests
import pprint
from bs4 import BeautifulSoup
wikipedia.set_lang("en")
query = raw_input()
WikiPage = wikipedia.page(title = query,auto_suggest = True)
cat = WikiPage.categories
for i in cat:
print i
Run Code Online (Sandbox Code Playgroud)
并获得类别.
但是,我的问题反之亦然:
我想给出类别,例如:健康或医学术语,并获得所有这类文章.
我怎样才能做到这一点?
我是DNN和TesorFlow的新手.我有NN用于二进制分类的问题.
作为输入数据,我有文本数据集,它由TF-IDF转换为数字向量.
训练数据集的行数为43 000个特征数4235
我尝试使用TFlearn库,然后使用Keras io.但结果是相同的--NN只预测一个标签0或1,然后给出比随机森林更差的准确度.
我将添加脚本,我用于NN构建.请告诉我它有什么问题.
model = Sequential()
model.add(Dense(100, input_dim=4235, init='uniform', activation='relu'))
model.add(Dense(4235, init='uniform', activation='relu'))
model.add(Dense(1, init='uniform', activation='sigmoid'))
# Compile model
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
# Fit the model
model.fit(X_train, y_train, nb_epoch=100, batch_size=10, verbose=2)
Run Code Online (Sandbox Code Playgroud)