我需要为使用 python 包创建一个形式 (id, {feature name: features weight}) 的迭代。
我的数据存储在熊猫数据框中,这里有一个例子:
data = pd.DataFrame({"id":[1,2,3],
"gender":[1,0,1],
"age":[25,23,40]})
Run Code Online (Sandbox Code Playgroud)
对于 {feature name: features weight}) 部分,我知道我可以使用这个:
fe = data.to_dict(orient='records')
Out[28]:
[{'age': 25, 'gender': 1, 'id': 1},
{'age': 23, 'gender': 0, 'id': 2},
{'age': 40, 'gender': 1, 'id': 3}]
Run Code Online (Sandbox Code Playgroud)
我知道我也可以遍历数据框来获取 id,如下所示:
(row[1] for row in data.itertuples())
Run Code Online (Sandbox Code Playgroud)
但是我可以将这两个放在一起以获得我尝试过的一个可迭代(生成器对象):
((row[1] for row in data.itertuples()),fe[i] for i in range(len(data)))
Run Code Online (Sandbox Code Playgroud)
但语法错误。你们知道怎么做吗?
我有这个数组(它是相似度计算的结果)它是一个像这样的元组列表:
example = [[(a,b), (c,d)], [(a1,b1), (c1,d2)] …]
Run Code Online (Sandbox Code Playgroud)
在示例中有 121044 个列表,每个列表包含 30 个元组。
我想要一个像元组的第二个值(即:b、d、b1、d2)那样的 Pandas Dataframe,而不需要花太多时间来计算它
你有什么想法 ?
我正在做一个项目,我想从URL下载一个csv文件。我在该站点上进行了一些研究,但所提供的解决方案均不适合我。
该网址可直接为您提供下载或打开文件的文件,我不知道该怎么说一个python保存文件(如果我也可以重命名它会很好)
但是,当我使用此代码打开url时,没有任何反应。
import urllib
url='https://data.toulouse-metropole.fr/api/records/1.0/download/?dataset=dechets-menagers-et-assimiles-collectes'
testfile = urllib.request.urlopen(url)
Run Code Online (Sandbox Code Playgroud)
有任何想法吗?