小编Jon*_*Jon的帖子

如何使用csv.DictReader读取存储在S3中的csv?

我有获取AWS S3对象的代码.如何使用Python的csv.DictReader读取此StreamingBody?

import boto3, csv

session = boto3.session.Session(aws_access_key_id=<>, aws_secret_access_key=<>, region_name=<>)
s3_resource = session.resource('s3')
s3_object = s3_resource.Object(<bucket>, <key>)
streaming_body = s3_object.get()['Body']

#csv.DictReader(???)
Run Code Online (Sandbox Code Playgroud)

python csv amazon-s3 amazon-web-services

10
推荐指数
1
解决办法
1万
查看次数

熊猫群分组中的唯一值

我有一个数据框,需要分组,然后再分组。从子组中,我需要返回子组以及列的唯一值。

df = pandas.DataFrame({'country': pandas.Series(['US', 'Canada', 'US', 'US']),
                       'gender': pandas.Series(['male', 'female', 'male', 'female']),
                       'industry': pandas.Series(['real estate', 'shipping', 'telecom', 'real estate']),
                       'income': pandas.Series([1, 2, 3, 4])})

def subgroup(g):
    return g.groupby(['gender'])

s = df.groupby(['country']).apply(subgroup)
Run Code Online (Sandbox Code Playgroud)

从s,如何计算“行业”的唯一性以及将其归为哪个“性别”?

--------------------------------------------
| US     | male   | [real estate, telecom] |
|        |----------------------------------
|        | female | [real estate]          |
--------------------------------------------
| Canada | female | [shipping]             |
--------------------------------------------
Run Code Online (Sandbox Code Playgroud)

python dataframe pandas data-science

5
推荐指数
1
解决办法
1625
查看次数

Wikipedia Mediawiki API 在查询中获取 URL

使用 MediaWiki API 我有一个返回我想要的结果的查询:

https://en.wikipedia.org/w/api.php?action=query&list=allpages&apfrom=Apple&aplimit=5
Run Code Online (Sandbox Code Playgroud)

如何修改它以包含返回的每个页面的 URL?

我尝试添加“info”属性和“url”信息,但它不返回附加信息:

https://en.wikipedia.org/w/api.php?action=query&list=allpages&apfrom=Apple&aplimit=5&prop=info&inprop=url
Run Code Online (Sandbox Code Playgroud)

mediawiki wikipedia wikipedia-api mediawiki-api

1
推荐指数
1
解决办法
2925
查看次数