我正在使用HTML5 fetch API.
var request = new Request('https://davidwalsh.name/demo/arsenal.json');
fetch(request).then(function(response) {
// Convert to JSON
return response.json();
}).then(function(j) {
// Yay, `j` is a JavaScript object
console.log(JSON.stringify(j));
}).catch(function(error) {
console.log('Request failed', error)
});
Run Code Online (Sandbox Code Playgroud)
我能够使用普通的json但无法获取上述api url的数据.它抛出错误:
Fetch API无法加载https://davidwalsh.name/demo/arsenal.json.请求的资源上不存在"Access-Control-Allow-Origin"标头.原产地" :HTTP //本地主机,因此"是不允许访问.如果不透明响应满足您的需求,请将请求的模式设置为"no-cors"以获取禁用CORS的资源.
我已经在python中创建了一个字典并将其转换为pickle.它的大小达到了300MB.现在,我想加载相同的泡菜.
output = open('myfile.pkl', 'rb')
mydict = pickle.load(output)
Run Code Online (Sandbox Code Playgroud)
加载这个泡菜大约需要15秒.我怎样才能减少这个时间?
硬件规格:Ubuntu 14.04,4GB RAM
下面的代码显示了使用json,pickle,cPickle转储或加载文件所需的时间.
转储后,文件大小约为300MB.
import json, pickle, cPickle
import os, timeit
import json
mydict= {all values to be added}
def dump_json():
output = open('myfile1.json', 'wb')
json.dump(mydict, output)
output.close()
def dump_pickle():
output = open('myfile2.pkl', 'wb')
pickle.dump(mydict, output,protocol=cPickle.HIGHEST_PROTOCOL)
output.close()
def dump_cpickle():
output = open('myfile3.pkl', 'wb')
cPickle.dump(mydict, output,protocol=cPickle.HIGHEST_PROTOCOL)
output.close()
def load_json():
output = open('myfile1.json', 'rb')
mydict = json.load(output)
output.close()
def load_pickle():
output = open('myfile2.pkl', 'rb')
mydict = pickle.load(output)
output.close()
def …
Run Code Online (Sandbox Code Playgroud) 我想在SPARQL查询中使用关系AND/OR运算符.
这里查询:
SELECT DISTINCT ?dbpedia_link str(?name) as ?label str(?label1) as ?label1 ?freebase_link WHERE {
?dbpedia_link rdfs:label ?label1 .
?dbpedia_link foaf:name ?name .
{
{ ?dbpedia_link rdf:type dbpedia-owl:Film .}
UNION
{ ?dbpedia_link rdf:type dbpedia-owl:Person .}
}
?dbpedia_link owl:sameAs ?freebase_link .
FILTER regex(?freebase_link, "^http://rdf.freebase.com") .
FILTER (lang(?label1) = 'en').
?name bif:contains "Akshay_Kumar" .
?dbpedia_link dcterms:subject ?sub
}
Run Code Online (Sandbox Code Playgroud)
在这个查询中,我使用了单个名称的Akshay_Kumar.现在我想要,我如何使用关系AND/OR运算符一次使用多个名称.简而言之,我们如何在sparql中使用关系运算符.
执行sparql查询URL:http://dbpedia.org/sparql
我想读一个稀疏矩阵.当我使用scikit学习构建ngrams时.它的transform()在稀疏矩阵中给出输出.我想在不执行todense()的情况下读取该矩阵.
码:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
document = ['john guy','nice guy']
vectorizer = CountVectorizer(ngram_range=(1, 2))
X = vectorizer.fit_transform(document)
transformer = vectorizer.transform(document)
print transformer
Run Code Online (Sandbox Code Playgroud)
输出:
(0, 0) 1
(0, 1) 1
(0, 2) 1
(1, 0) 1
(1, 3) 1
(1, 4) 1
Run Code Online (Sandbox Code Playgroud)
如何读取此输出以获取其值.我需要在(0,0),(0,1)等处的值并保存到列表中.
我想在 python 中将大量数据存储到字典中。巨大的数据可能在21 GB左右。我写了一个片段来做到这一点。将整数值存储在字典中。
代码:
import timeit
import sys
dicts = {}
print "\n***Building dict..."
start = timeit.default_timer()
for j in range(0,5):
for i in range(0,1000000):
dicts[''+str(j)+str(i)] = i
print str(i) + '-' + str(j)
print "Size : ", sys.getsizeof(dicts)/1024/1024, " MB"
print "Total time of build dict", timeit.default_timer() - start
Run Code Online (Sandbox Code Playgroud)
在运行时,当我使用 **getsizeof(dicts)**
大约1.2GB达到大小时,它无法将值存储在字典中但不显示任何错误。Dictionary是否有一些容量来存储数据?
那么,问题是如何将大量数据存储到字典中?
注意:不需要将数据存储在文件或数据库中。因为我想非常快地检索 …
在用户登录他的帐户后,我在烧瓶(python 框架)中使用用户的电子邮件 ID创建了一个会话。好的,它的工作正常,并且在我交叉检查时创建了会话。它的网址是. 但是,当用户从浏览器单击注销按钮时,我发现会话不起作用..(我不知道,虽然我在登录时创建了会话)。"http://localhost:5000/login"
我的 ajax 代码在apache2 服务器上以"http://localhost:80/index.html"
.
当我使用curl交叉检查时,它工作正常。但是,在浏览器的情况下,当我单击注销按钮时,我在终端(ubuntu)上发现了一条消息,表明您的会话已过期,这是我在登录时创建的。
在这里,Ajax代码为登录的一部分的index.html
// Login ajax python
$("#btn_login").click(function(){
var txt1 = $("#txt1").val();
var txt3 = $("#txt3").val();
console.log("text: ", txt1, txt3);
var a = {"username": txt1, "password": txt3, "type": "login"};
$.ajax(
{
url: "http://localhost:5000/login",
type: "POST",
headers: {"Content-Type": "application/json"},
data: JSON.stringify(a),
dataType: "json",
success: function(response) { …
Run Code Online (Sandbox Code Playgroud) 我试图找出两个文档之间的相似性。我正在使用Doc2vec Gensim来训练大约10k 文档。大约有10个字符串类型的标签。每个标签都由一个唯一的单词组成,并包含某种文档。使用分布式记忆方法训练模型。
Doc2Vec(alpha=0.025, min_alpha=0.0001, min_count=2, window=10, dm=1, dm_mean=1, epochs=50, seed=25, vector_size=100, workers=1)
Run Code Online (Sandbox Code Playgroud)
我也尝试过dm和dbow。与dbow相比, dm给出了更好的结果(相似度分数)。我理解dm 与 dbow的概念。但不知道哪种方法适合两个文档之间的相似性度量。
第一个问题:哪种方法在相似性方面表现最好?
model.wv.n_similarity(<words_1>, <words_2>)
使用词向量给出相似度得分。
model.docvecs.similarity_unseen_docs(model, doc1, doc2)
使用文档向量给出相似性得分,其中 doc1 和 doc2 不是标签/或文档标签的索引。每个 doc1 和 doc2 包含 10-20 个单词的句子。
wv.n_similarity和docvecs.similarity_unseen_docs都对相同类型的文档提供不同的相似度分数。
与wv.n_similarity相比,docvecs.similarity_unseen_docs给出了一点好的结果,但wv.n_similarity有时也给出了很好的结果。
问题:docvecs.similarity_unseen_docs 和 wv.n_similarity 之间有什么区别?我可以使用 docvecs.similarity_unseen_docs 来查找未见过的数据之间的相似度分数(这可能是一个愚蠢的问题)?
我为什么问这个问题,因为docvecs.similarity_unseen_docs提供标签上的相似度分数,而不是属于其标签的实际单词的相似度分数。我不确定,如果我错了,请纠正我。 …
我正在尝试安装aspell-python包进行拼写纠正. 安装包时遇到问题.
错误:
python setup.py install
running install
running build
running build_ext
building 'aspell' extension
gcc -pthread -fno-strict-aliasing -DNDEBUG -g -fwrapv -O2 -Wall -Wstrict-prototypes -fPIC -I/usr/include/python2.7 -c aspell.c -o build/temp.linux-i686-2.7/aspell.o
aspell.c:53:20: fatal error: aspell.h: No such file or directory
compilation terminated.
error: command 'gcc' failed with exit status 1
Run Code Online (Sandbox Code Playgroud)
GCC已经安装了版本gcc(Ubuntu/Linaro 4.7.2-2ubuntu1)4.7.2
libaspell15已经安装
我是GATE ANNIE的新手.我尝试了GATE GUI界面,并获得了完成任务的经验.我想知道如何在Java中实现命名实体提取?
我做了R&D但无法找到任何有关命名实体提取的教程.
是否有任何代码可用,找出命名实体提取在GATE ANNIE中的Java?
我建立的n-gram使用多个文本文档scikit学习.我需要使用countVectorizer构建文档频率.
示例:
document1 = "john is a nice guy"
document2 = "person can be a guy"
Run Code Online (Sandbox Code Playgroud)
所以,文档频率将是
{'be': 1,
'can': 1,
'guy': 2,
'is': 1,
'john': 1,
'nice': 1,
'person': 1}
Run Code Online (Sandbox Code Playgroud)
这里的文档只是字符串,但是当我尝试使用大量数据时.它会引发MEMORY ERROR.
代码:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
document = [Huge amount of data around 7MB] # ['john is a guy', 'person guy']
vectorizer = CountVectorizer(ngram_range=(1, 5))
X = vectorizer.fit_transform(document).todense()
tranformer = …
Run Code Online (Sandbox Code Playgroud) 我需要使用Stanford CoreNLP进行浅层解析和深度解析.我google了很多但没有成功.最后,我发现有2个解析器,Constituency解析器和Dependency解析器.
我的问题是:
选区解析器浅层解析和依赖解析器是深度解析吗?
任何人都可以把上述解析器的代码和任何有用的链接?
python ×6
java ×2
memory ×2
nlp ×2
numpy ×2
scikit-learn ×2
ajax ×1
api ×1
aspell ×1
dbpedia ×1
dictionary ×1
doc2vec ×1
fetch-api ×1
flask ×1
gate ×1
gensim ×1
html ×1
installation ×1
jquery ×1
n-gram ×1
parsing ×1
performance ×1
pickle ×1
python-3.x ×1
scipy ×1
session ×1
similarity ×1
sparql ×1
stanford-nlp ×1
ubuntu ×1
url ×1