我想选择包含列表中任何子字符串的列中的那些行。这就是我现在所拥有的。
product = ['LID', 'TABLEWARE', 'CUP', 'COVER', 'CONTAINER', 'PACKAGING']
df_plastic_prod = df_plastic[df_plastic['Goods Shipped'].str.contains(product)]
df_plastic_prod.info()
Run Code Online (Sandbox Code Playgroud)
样本 df_ Plastic
Name          Product
David        PLASTIC BOTTLE
Meghan       PLASTIC COVER
Melanie      PLASTIC CUP 
Aaron        PLASTIC BOWL
Venus        PLASTIC KNIFE
Abigail      PLASTIC CONTAINER
Sophia       PLASTIC LID
Run Code Online (Sandbox Code Playgroud)
所需的 df_ Plastic_prod
Name          Product
Meghan       PLASTIC COVER
Melanie      PLASTIC CUP 
Abigail      PLASTIC CONTAINER
Sophia       PLASTIC LID
Run Code Online (Sandbox Code Playgroud)
提前致谢!我感谢任何对此的帮助!
我有一个带有“地址”列的数据框 df 。我想删除街道地址(理论上是第一个逗号之前的部分)并保留城市级地址。
df
Address
777 Brockton Avenue, Abington, MA 2351
30 Memorial Drive, Avon, MA 2322
250 Hartford Avenue, Bellingham, MA 2019
700 Oak Street, Brockton, MA 2301
66-4 Parkhurst Rd, Chelmsford, MA 1824
Run Code Online (Sandbox Code Playgroud)
所需的 df
Address
Abington, MA 2351
Avon, MA 2322
Bellingham, MA 2019
Brockton, MA 2301
Chelmsford, MA 1824
Run Code Online (Sandbox Code Playgroud)
我尝试了以下代码,但它删除了所有逗号之前的所有字符串。我只想删除列中第一个逗号之前的字符串。
df['Address'] = df['Address'].str.split(',').str.get(-1)
Run Code Online (Sandbox Code Playgroud)
提前致谢!
我试图用 1 替换所有大于 1 的数字,同时以最小的努力在整个数据框中保持原始 1 和 0 不变。任何支持表示赞赏!
我的数据框看起来像这样,但包含更多的列和行。
Report No   Apple   Orange   Lemon   Grape   Pear
One           5       0        2       1      1
Two           1       1        0       3      2
Three         0       0        2       1      3
Four          1       1        3       0      0
Five          4       0        0       1      1
Six           1       3        1       2      0
Run Code Online (Sandbox Code Playgroud)
期望输出:
Report No   Apple   Orange   Lemon   Grape   Pear
One           1       0        1       1      1
Two           1       1        0       1      1
Three         0       0        1       1      1
Four …Run Code Online (Sandbox Code Playgroud) 我有一个包含表格的 pdf 文件,想使用 tabula 将其作为数据框读取。但只有第一个 PDF 页有列标题。第 1 页之后的数据帧标题成为信息的第一行。有什么方法可以将第 1 页数据帧中的标题添加到其余数据帧中吗?提前致谢。非常感激!
我正在尝试将一些数据框和绘图导出到一个 Excel 中的不同选项卡。每个选项卡应仅包含一个数据框或图表。我已经完成了数据框导出部分,但我不知道如何使用类似的逻辑导出绘图。
Xlsxwriter:导出两个数据帧:表和misc_user
writer = pd.ExcelWriter(path_output + '\Report_{}.xlsx'.format(*arg), engine='xlsxwriter')
table.to_excel(writer, sheet_name='Uploads')
misc_user.to_excel(writer, sheet_name='Misc Users')
writer.save()
Run Code Online (Sandbox Code Playgroud)
然后我有两个由另外两个数据框制成的绘图
# plotly 
user_evt_long = px.line(user_evt_long, x='Month', y='Times', color='ELEVATE?')
# Show plot 
user_evt_long.show()
Run Code Online (Sandbox Code Playgroud)
top_users_fig = px.bar(top_users, x='account_name', y='users_count', title = 'Top Ten Uploads')
top_users_fig.show()
Run Code Online (Sandbox Code Playgroud)
所以总共应该有四个选项卡。“上传”选项卡包含table、“其他用户”选项卡包含misc_user、“用户”选项卡包含user_evt_long、“热门用户”选项卡包含top_users_fig。
如何导出user_evt_long并top_users_fig使用与数据框导出类似的逻辑?