小编AMi*_*sra的帖子

Python3错误:initial_value必须是str或None

虽然从移植代码python23,我从一个URL读取时出现此错误

TypeError:initial_value必须是str或None,而不是字节.

import urllib
import json
import gzip
from urllib.parse import urlencode
from urllib.request import Request


service_url = 'https://babelfy.io/v1/disambiguate'
text = 'BabelNet is both a multilingual encyclopedic dictionary and a semantic network'
lang = 'EN'
Key  = 'KEY'

    params = {
        'text' : text,
        'key'  : Key,
        'lang' :'EN'

        }

url = service_url + '?' + urllib.urlencode(params)
request = Request(url)
request.add_header('Accept-encoding', 'gzip')
response = urllib.request.urlopen(request)
if response.info().get('Content-Encoding') == 'gzip':
            buf = StringIO(response.read())
            f = gzip.GzipFile(fileobj=buf)
            data …
Run Code Online (Sandbox Code Playgroud)

python urllib urllib2 python-3.x

46
推荐指数
2
解决办法
5万
查看次数

使用斯坦福解析器进行子句提取

我有一个复杂的句子,我需要将它分为主要和从属条款.例如
ABC 的一句话引用了许多国家禁止使用化学添加剂的事实,并认为它们也可能在这种状态下被禁止.
需要拆分

1)ABC cites the fact   
2)chemical additives are banned in many countries   
3)ABC feels they may be banned in this state too.    
Run Code Online (Sandbox Code Playgroud)

我想我可以使用Stanford Parser树或依赖项,但我不知道如何从这里开始.

那个树

(ROOT
  (S
    (NP (NNP ABC))
    (VP (VBZ cites)
      (NP (DT the) (NN fact))
      (SBAR (IN that)
        (S
          (NP (NN chemical) (NNS additives))
          (VP
            (VP (VBP are)
              (VP (VBN banned)
                (PP (IN in)
                  (NP (JJ many) (NNS countries)))))
            (CC and)
            (VP (VBZ feels)
              (SBAR
                (S
                  (NP (PRP they))
                  (VP (MD may)
                    (VP (VB …

nlp stanford-nlp

14
推荐指数
1
解决办法
8073
查看次数

将 R 中的 CSV 读取为 data.frame

我是 R 新手,正在尝试阅读 csv。该文档显示了一个函数read.csv()。但是,当我读取文件并检查变量的类型时,它会显示一个列表。文档将其显示为data.frame. 有人可以解释为什么会这样吗?

到目前为止我的代码:

mytable<-read.csv(InputFile,header=TRUE,stringsAsFactors=FALSE)
dim(mytable)
typeof(mytable)
Run Code Online (Sandbox Code Playgroud)

输出:

dim(mytable)
[1] 500  20

typeof(mytable)
[1] "list"
Run Code Online (Sandbox Code Playgroud)

csv r dataframe

8
推荐指数
1
解决办法
4359
查看次数

Mac OS 10.9致命错误:找不到'tr1/unordered_map'文件

我使用xcode-select --install安装了命令行工具.
如果我执行cd/Library/Developer/CommandLineTools/usr/bin,我可以在那里看到gcc.

我试图在命令行上安装一个外部应用程序,它会产生这些错误

/Library/Developer/CommandLineTools/usr/bin/../include/c++/v1/ext/hash_set:205:5: warning: 
      Use of the header <ext/hash_set> is deprecated. Migrate to <unordered_set>
      [-W#warnings]
#   warning Use of the header <ext/hash_set> is deprecated.  Migrate to ...
    ^
In file included from src/stl_logging_unittest.cc:34:
In file included from ./src/glog/stl_logging.h:76:
/Library/Developer/CommandLineTools/usr/bin/../include/c++/v1/ext/hash_map:212:5: warning: 
      Use of the header <ext/hash_map> is deprecated. Migrate to <unordered_map>
      [-W#warnings]
#   warning Use of the header <ext/hash_map> is deprecated.  Migrate to ...
    ^
In file included from src/stl_logging_unittest.cc:34:
./src/glog/stl_logging.h:77:11: fatal error: 'ext/slist' file not found
# include …
Run Code Online (Sandbox Code Playgroud)

macos command-line-tool

6
推荐指数
0
解决办法
1780
查看次数

使用相似性函数来聚类scikit-learn

我使用函数来计算一对文档之间的相似性,并且想要使用这种相似性度量来执行聚类.
代码到目前为止

Sim=np.zeros((n, n)) # create a numpy arrary  
i=0  
j=0       
for i in range(0,n):      
   for j in range(i,n):  
    if i==j:  
        Sim[i][j]=1
     else:    
         Sim[i][j]=simfunction(list_doc[i],list_doc[j]) # calculate similarity between documents i and j using simfunction
Sim=Sim+ Sim.T - np.diag(Sim.diagonal()) # complete the symmetric matrix

AggClusterDistObj=AgglomerativeClustering(n_clusters=num_cluster,linkage='average',affinity="precomputed") 
Res_Labels=AggClusterDistObj.fit_predict(Sim)
Run Code Online (Sandbox Code Playgroud)

我担心的是,我在这里使用了相似度函数,我认为根据文档它应该是一个不相似矩阵,我怎样才能将它改为不相似矩阵.还有什么是更有效的方法来做到这一点.

python hierarchical-clustering scikit-learn

3
推荐指数
1
解决办法
2150
查看次数

有效地将列表合并到字典列表中

我有2个列表,我想将它们合并为词典列表.我的代码:

import pprint

list1 = [1, 2, 3, 4]
list2 = [0, 1, 1, 2]
newlist = []
for i in range(0, len(list1)):
    newdict = {}
    newdict["original"] = list1[i]
    newdict["updated"] = list2[i]
    newlist.append(newdict)
pprint.pprint(newlist)
Run Code Online (Sandbox Code Playgroud)

输出:

[{'original': 1, 'updated': 0},
 {'original': 2, 'updated': 1},
 {'original': 3, 'updated': 1},
 {'original': 4, 'updated': 2}]
Run Code Online (Sandbox Code Playgroud)

有更好或更快的方法吗?

python dictionary list

2
推荐指数
1
解决办法
119
查看次数

获取数据框中所有列的平均值并创建一个新数据框

我有一个仅包含数值的数据框,我想计算每列的平均值并创建一个新的数据框。
原始数据帧由日期时间字段索引。新数据帧应由与原始数据帧相同的字段进行索引,其值等于原始数据帧的最后一行索引。

到目前为止的代码

mean_series=df.mean()     
df_mean= pd.DataFrame(stddev_series)
df_mean.rename(columns=lambda x: 'std_dev_'+ x, inplace=True)
Run Code Online (Sandbox Code Playgroud)

但这给出了一个错误

df_mean.rename(columns=lambda x: 'std_mean_'+ x, inplace=True)
TypeError: ufunc 'add' did not contain a loop with signature matching types dtype('S21') dtype('S21') dtype('S21')
Run Code Online (Sandbox Code Playgroud)

python series dataframe

2
推荐指数
1
解决办法
7427
查看次数

通过将存储为字符串的键的整数值对字典列表进行排序

我有一个字典列表,其值存储为字符串.我想通过将值作为整数而不是字符串来对它们进行排序.代码我有

 XWordDict=[{"name":"ABC","pos":"1"},{"name":"GHI","pos":"10"},{"name":"DEF","pos":"2"}]
Xlistsorted=sorted(XWordDict,key=(operator.itemgetter("pos")))
Run Code Online (Sandbox Code Playgroud)

这给出了订单

[{'name': 'ABC', 'pos': '1'}, {'name': 'GHI', 'pos': '10'}, {'name': 'DEF', 'pos': '2'}]
Run Code Online (Sandbox Code Playgroud)

但我希望它是

 [{'name': 'ABC', 'pos': '1'}, {'name': 'DEF', 'pos': '2'}, {'name': 'GHI', 'pos': '10'}]
Run Code Online (Sandbox Code Playgroud)

如果我换到

Xlistsorted=sorted(XWordDict,key=int(operator.itemgetter("pos)))
Run Code Online (Sandbox Code Playgroud)

它给出了一个错误

TypeError: int() argument must be a string or a number, not 'operator.itemgetter'
Run Code Online (Sandbox Code Playgroud)

python sorting dictionary

0
推荐指数
1
解决办法
4539
查看次数