如何处理与熊猫数据框关联的元数据?

qua*_*guy 15 python finance metadata divide pandas

Q1:将元信息保存到数据帧的最佳实践是什么?我知道以下编码实践

import pandas as pd
df = pd.DataFrame([])
df.currency = 'USD'
df.measure = 'Price'
df.frequency = 'daily'
Run Code Online (Sandbox Code Playgroud)

但正如这篇文章将元信息/元数据添加到 Pandas DataFrame 中所述,这与通过应用诸如“groupby、pivot、join 或 loc”等函数而丢失信息的风险相关联,因为它们可能会返回“一个没有元数据的新 DataFrame随附的”。

这仍然有效还是在此期间对元信息处理进行了更新?为此目的对熊猫进行子类化是一种很好的编码习惯吗?

Q2:什么是替代编码实践?

我不认为构建一个单独的对象是非常合适的。使用 Multiindex 也不能说服我。假设我想将带有价格的数据框除以带有收益的数据框。使用 Multiindices 将非常复杂。

#define price DataFrame
p_index = pd.MultiIndex.from_tuples([['Apple', 'price', 'daily'],['MSFT', 'price', 'daily']])
price = pd.DataFrame([[90, 20], [85, 30], [70, 25]], columns=p_index)

# define earnings dataframe
e_index = pd.MultiIndex.from_tuples(
    [['Apple', 'earnings', 'daily'], ['MSFT', 'earnings', 'daily']])
earnings=pd.DataFrame([[5000, 2000], [5800, 2200], [5100, 3000]], 
                columns=e_index)

price.divide(earnings.values, level=1, axis=0)
Run Code Online (Sandbox Code Playgroud)

在上面的例子中,我什至不确保公司指数真的匹配。我可能需要调用 pd.DataFrame.reindex() 或类似的。在我看来,这不是一个好的编码实践。

在我看不到的上下文中处理元信息的问题是否有直接的解决方案?

先感谢您

Joh*_*hnE 4

尽管构建自定义对象不是您的第一选择,但它可能是您唯一可行的选择,并且具有极其灵活的显着优势。这是一个非常简单的例子:

df=pd.DataFrame({'stock': 'AAPL AAPL MSFT MSFT'.split(),
                 'price':[ 445.,455.,195.,205.]})

col_labels = { 'stock' : 'Ticker Symbol',
               'price' : 'Closing Price in USD' }
Run Code Online (Sandbox Code Playgroud)

这只是列标签的字典,但通常大多数元数据都与特定列相关。这是带有标签的示例数据:

df.rename(columns=col_labels)

#   Ticker Symbol  Closing Price in USD
# 0          AAPL                 445.0
# 1          AAPL                 455.0
# 2          MSFT                 195.0
# 3          MSFT                 205.0
Run Code Online (Sandbox Code Playgroud)

好处是标签“持久”,因为您基本上可以将它们应用于其列是原始列的子集或超集的任何数据:

df.groupby('stock').mean().rename(columns=col_labels)

#        Closing Price in USD
# stock                      
# AAPL                  450.0
# MSFT                  200.0
Run Code Online (Sandbox Code Playgroud)

如果使用该属性,您可以获得一些有限的持久性attrs

df.attrs = col_labels
Run Code Online (Sandbox Code Playgroud)

但它相当有限。.copy()对于通过、loc[]、 或派生的数据帧,它将持续存在iloc[],但对于groupby(). 您当然可以重新附加到任何衍生数据框,例如,

df2.attrs = df.attrs
Run Code Online (Sandbox Code Playgroud)

但正如文档(或缺乏文档)中所述,这是一个实验性功能,可能会发生变化。看起来总比没有好一点,也许将来会扩大。我根本找不到太多关于 的信息attrs,但它似乎被初始化为一个空字典,并且只能是一个字典(或类似的),尽管列表当然可以嵌套在顶层以下。