我正在尝试遍历 Excel 工作表并将多个工作表中的数据附加到数据框中。
到目前为止,我有:
master_df = pd.DataFrame()
for sheet in target_sheets:
df1 = file.parse(sheet, skiprows=4)
master_df.append(df1, ignore_index=True)
Run Code Online (Sandbox Code Playgroud)
但是当我调用master_df.head()它返回时__
这些工作表上的数据格式相同并且相互关联。
所以我想像这样加入他们:
表 1 包含:
A1
B1
C1
Run Code Online (Sandbox Code Playgroud)
表 2 包含:
A2
B2
C2
Run Code Online (Sandbox Code Playgroud)
第 3 页:
A3
B3
C3
Run Code Online (Sandbox Code Playgroud)
最终结果:
A1
B1
C1
A2
B2
C2
A3
B3
C3
Run Code Online (Sandbox Code Playgroud)
我的逻辑是否正确或者我怎样才能做到这一点?
从本质上讲,我试图从具有下面给定类标题的表格中提取文本。我已经编写了从每一行中提取文本的其余代码,因此我不需要这方面的任何帮助。我似乎无法弄清楚为什么我会收到此错误:
"ResultSet object has no attribute '%s'. You're probably treating a list of items like a single item. Did you call find_all() when you meant to call find()?" % key
AttributeError: ResultSet object has no attribute 'find'. You're probably treating a list of items like a single item. Did you call find_all() when you meant to call find()?
Run Code Online (Sandbox Code Playgroud)
代码是:
from bs4 import BeautifulSoup
import requests
header = {'User-agent' : 'Mozilla/5.0 (Windows; U; Windows NT 5.1; de; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5'}
url …Run Code Online (Sandbox Code Playgroud) 我有一个excel文件,在一列中包含1000多个公司名称,在另一列中包含大约20,000个公司名称.
目标是尽可能多地匹配名称.问题是第一列(1000+)中的名称格式不正确,这意味着"公司名称"字符串看起来像"9Com(panynAm9e00").我正试图找出解决此问题的最佳方法.(仅12个名字完全匹配)
在尝试了不同的方法后,我最终试图在每个名称中匹配4-5个或更多字符,具体取决于每个字符串的长度,使用正则表达式.但我只是在努力寻找最有效的方法来做到这一点.
例如:
第1栏
1. 9Com(panynAm9e00
2. NikE4
3. Mitrosof2
Run Code Online (Sandbox Code Playgroud)
第2栏
1. Microsoft
2. Company Name
3. Nike
Run Code Online (Sandbox Code Playgroud)
获取第1列中的第一个元素并在第2列中查找匹配项.如果没有完全匹配,则查找具有4-5个相同字符的字符串.
有什么建议?
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use('seaborn-white')
Run Code Online (Sandbox Code Playgroud)
燃尽数据框:
Forecast Actual
Baseline 11422 11422
February 2018 11422 11325
March 2018 11420 10717
April 2018 11415 10272
May 2018 11393 8771
June 2018 11382 7750
July 2018 10069 6940
August 2018 6330 6038
September 2018 6153 4998
Run Code Online (Sandbox Code Playgroud)
用于通过调用生成带有 x 轴的图表:
burndown_data.plot(figsize=(15,3),grid=True,title=title,marker='o')
Run Code Online (Sandbox Code Playgroud)
但升级到最新的 pandas 之后,x 轴丢失了。如何解决这个问题?
当我尝试这种方法时: