小编rah*_*f23的帖子

Pandas 遍历 Excel 工作表并附加到 df

我正在尝试遍历 Excel 工作表并将多个工作表中的数据附加到数据框中。

到目前为止,我有:

master_df = pd.DataFrame()
for sheet in target_sheets:
    df1 = file.parse(sheet, skiprows=4) 
    master_df.append(df1, ignore_index=True)
Run Code Online (Sandbox Code Playgroud)

但是当我调用master_df.head()它返回时__

这些工作表上的数据格式相同并且相互关联。

所以我想像这样加入他们:

表 1 包含:

A1
B1
C1
Run Code Online (Sandbox Code Playgroud)

表 2 包含:

A2
B2
C2
Run Code Online (Sandbox Code Playgroud)

第 3 页:

A3
B3
C3
Run Code Online (Sandbox Code Playgroud)

最终结果:

A1
B1
C1
A2
B2
C2
A3
B3
C3
Run Code Online (Sandbox Code Playgroud)

我的逻辑是否正确或者我怎样才能做到这一点?

python python-3.x pandas

2
推荐指数
1
解决办法
5811
查看次数

BeautifulSoup 无法找到具有特定类的表

从本质上讲,我试图从具有下面给定类标题的表格中提取文本。我已经编写了从每一行中提取文本的其余代码,因此我不需要这方面的任何帮助。我似乎无法弄清楚为什么我会收到此错误:

"ResultSet object has no attribute '%s'. You're probably treating a list of items like a single item. Did you call find_all() when you meant to call find()?" % key
AttributeError: ResultSet object has no attribute 'find'. You're probably treating a list of items like a single item. Did you call find_all() when you meant to call find()?
Run Code Online (Sandbox Code Playgroud)

代码是:

from bs4 import BeautifulSoup

import requests

header = {'User-agent' : 'Mozilla/5.0 (Windows; U; Windows NT 5.1; de; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5'}

url …
Run Code Online (Sandbox Code Playgroud)

python beautifulsoup

1
推荐指数
1
解决办法
7776
查看次数

使用pandas和fuzzwuzzy匹配相似的列元素

我有一个excel文件,在一列中包含1000多个公司名称,在另一列中包含大约20,000个公司名称.

目标是尽可能多地匹配名称.问题是第一列(1000+)中的名称格式不正确,这意味着"公司名称"字符串看起来像"9Com(panynAm9e00").我正试图找出解决此问题的最佳方法.(仅12个名字完全匹配)

在尝试了不同的方法后,我最终试图在每个名称中匹配4-5个或更多字符,具体取决于每个字符串的长度,使用正则表达式.但我只是在努力寻找最有效的方法来做到这一点.

例如:

第1栏

 1. 9Com(panynAm9e00 
 2. NikE4 
 3. Mitrosof2
Run Code Online (Sandbox Code Playgroud)

第2栏

 1. Microsoft
 2. Company Name
 3. Nike
Run Code Online (Sandbox Code Playgroud)

获取第1列中的第一个元素并在第2列中查找匹配项.如果没有完全匹配,则查找具有4-5个相同字符的字符串.

有什么建议?

python pandas fuzzywuzzy

1
推荐指数
1
解决办法
224
查看次数

pandas.DataFrame.plot() 更新后不显示 x 轴

import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use('seaborn-white')
Run Code Online (Sandbox Code Playgroud)

燃尽数据框:

                Forecast    Actual
Baseline        11422       11422
February 2018   11422       11325
March 2018      11420       10717
April 2018      11415       10272
May 2018        11393       8771
June 2018       11382       7750
July 2018       10069       6940
August 2018     6330        6038
September 2018  6153        4998
Run Code Online (Sandbox Code Playgroud)

用于通过调用生成带有 x 轴的图表:

burndown_data.plot(figsize=(15,3),grid=True,title=title,marker='o')
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

但升级到最新的 pandas 之后,x 轴丢失了。如何解决这个问题?

在此输入图像描述

当我尝试这种方法时:

Matplotlib:: 未显示所有 x 轴数据框变量

我有一个错误: 在此输入图像描述

python matplotlib pandas

0
推荐指数
1
解决办法
8242
查看次数