小编pra*_*het的帖子

如何加载excel表并清理python中的数据?

从文件Energy Indicators.xls中加载能源数据,该文件是联合国2013年能源供应和可再生电力生产指标列表,应放入变量名称为energy的DataFrame中。

请记住,这是一个 Excel 文件,而不是逗号分隔值文件。此外,请确保从数据文件中排除页脚和页眉信息。前两列是不必要的,因此您应该删除它们,并且您应该更改列标签,以便这些列是:

['国家'、'能源供应'、'人均能源供应'、'可再​​生能源百分比'] 将能源供应转换为千兆焦耳(1,000,000 亿焦耳)。对于所有缺少数据(例如带有“...”的数据)的国家/地区,请确保将其反映为 np.NaN 值。

重命名以下国家/地区列表(用于后面的问题):“大韩民国”:“韩国”,“美利坚合众国”:“美国”,“大不列颠及北爱尔兰联合王国”:“美国王国”、“中国、香港特别行政区”:“香港”

还有几个国家的名称中带有数字和/或括号。一定要删除这些,例如'Bolivia (Plurinational State of)'应该是'Bolivia','Switzerland17'应该是'Switzerland'。

接下来,从文件world_bank.csv 中加载GDP 数据,该文件是一个包含世界银行从1960 年到2015 年的各国GDP 的csv。称之为 DataFrame GDP。确保跳过标题,并重命名以下国家/地区列表: "Korea, Rep.": "South Korea", "Iran, Islam Rep.": "Iran", "Hong Kong SAR, China": "Hong Kong ”

最后,从文件 scimagojr-3.xlsx 中加载能源工程和电力技术的 Sciamgo 期刊和国家排名数据,该文件根据国家在上述领域的期刊贡献进行排名。调用此 DataFrame ScimEn。

将三个数据集:GDP、Energy 和 ScimEn 加入一个新数据集(使用国家名称的交集)。仅使用过去 10 年(2006-2015)的 GDP 数据和 Scimagojr '排名'(排名 1 至 15)的前 15 个国家。

这个DataFrame的索引应该是国家名称,列应该是['Rank', 'Documents', 'Citable documents', 'Citations', 'Self- citations', 'Citations per document', 'H指数”、“能源供应”、“人均能源供应”、“可再生能源百分比”、“2006”、“2007”、“2008”、“2009”、“2010”、“2011”、“2012”、“2013” ', '2014', '2015']。

此函数应返回一个包含 20 列和 15 个条目的 DataFrame。 …

python dataframe pandas data-science

0
推荐指数
1
解决办法
1万
查看次数

标签 统计

data-science ×1

dataframe ×1

pandas ×1

python ×1