小编Wil*_*lem的帖子

SEC 的 EDGAR（加拿大的 SEDAR）数据库的国际等价物？

是否有适用于欧洲公司的 SEC 的 EDGAR（备案数据库）等价物？或者任何其他地区的事情？对于英国，我找到了“公司之家”。

http://www.sedar.com/homepage_en.htm
https://www.sec.gov/edgar/searchedgar/accessing-edgar-data.htm
http://download.companieshouse.gov.uk/en_monthlyaccountsdata.html

Run Code Online (Sandbox Code Playgroud)

我正在寻找美国以外的 (XBRL) 文件，最好是欧洲实体。

finance dataset xbrl

Wil*_*lem

2017 07-19

6
推荐指数

2
解决办法

7002
查看次数

Postgresql 临时文件：设备上没有剩余空间，临时文件的位置

我在 Windows PC 上运行 Postgresql 9.6，数据目录在 4TB 数据磁盘上，Postgresql 软件在 300 GB 的 SSD 上。我正在运行一个大型且复杂的查询，导致此错误：

    ERROR: could not write block 196800198 of temporary file: No space left on                                 device
    SQL state: 53100

Run Code Online (Sandbox Code Playgroud)

我的问题：如何查看正在哪个磁盘上写入临时文件？

我怀疑它是在我的 300 GB SSD 上写入，而不是在我的 4TB 数据磁盘上。

我对优化查询以减少开销不感兴趣，我只想知道它在哪里写入临时文件。

postgresql

Wil*_*lem

lucky-day

5
推荐指数

0
解决办法

7573
查看次数

熊猫groupby + transform和多列

为了获得对groupby数据执行的具有与原始DataFrame相同的详细程度的结果（相同的观察计数），我使用了转换功能。

示例： 原始数据框

name, year, grade
Jack, 2010, 6
Jack, 2011, 7
Rosie, 2010, 7
Rosie, 2011, 8

Run Code Online (Sandbox Code Playgroud)

分组变换后

name, year, grade, average grade
Jack, 2010, 6, 6.5
Jack, 2011, 7, 6.5
Rosie, 2010, 7, 7.5
Rosie, 2011, 8, 7.5

Run Code Online (Sandbox Code Playgroud)

但是，如果使用基于多列的更高级的功能，事情就会变得更加复杂。让我感到困惑的是，我似乎无法访问groupby-transform组合中的多个列。

df = pd.DataFrame({'a':[1,2,3,4,5,6],
               'b':[1,2,3,4,5,6],
               'c':['q', 'q', 'q', 'q', 'w', 'w'],  
               'd':['z','z','z','o','o','o']})

def f(x):
 y=sum(x['a'])+sum(x['b'])
 return(y)

df['e'] = df.groupby(['c','d']).transform(f)

Run Code Online (Sandbox Code Playgroud)

给我：

KeyError: ('a', 'occurred at index a')

Run Code Online (Sandbox Code Playgroud)

虽然我知道以下方法确实有效：

df.groupby(['c','d']).apply(f)

Run Code Online (Sandbox Code Playgroud)

是什么导致了这种现象，以及如何获得这样的结果：

a   b   c   d   e
1   1   q   z   12
2 …

Run Code Online (Sandbox Code Playgroud)

python pandas pandas-groupby

Wil*_*lem

2018 11-09

4
推荐指数

1
解决办法

3749
查看次数

pg_dump/pg_restore lc_collate English_United States.1252 Windows Linux 迁移

我想用

pg_dump -j 8 -Fd -f /tmp/newout.dir fsdcm_external

Run Code Online (Sandbox Code Playgroud)

不转储 LC_COLLATE ('English_United States.1252')，因为它与我的 Linux 机器不兼容。

我最初通过以下过程成功迁移了 LC_COLLATE = 'English_United States.1252' 的数据库：

@Windows机器：

pg_dump postgres > "/drive/folder/options.bak"

Run Code Online (Sandbox Code Playgroud)

@Linux机器：

psql postgres < "/drive/folder/backup.bak"

Run Code Online (Sandbox Code Playgroud)

但是，我更喜欢使用“作业”进行并行转储和恢复（如复制 postgresql 数据库的更快方法（或最佳方法）），因此我尝试：

@Windows机器：

pg_dump -j 8 -Fd -f /tmp/newout.dir fsdcm_external

Run Code Online (Sandbox Code Playgroud)

@Linux机器：

pg_restore -j 8 --format=d -C -d postgres /tmp/newout.dir/

Run Code Online (Sandbox Code Playgroud)

我期望有相同的 LC_COLLATE 中性转储，但我收到了此错误：

pg_restore: [archiver (db)] Error while PROCESSING TOC:
pg_restore: [archiver (db)] Error from TOC entry 3498; 1262        
12401 DATABASE postgres postgres
pg_restore: [archiver (db)] could not …

Run Code Online (Sandbox Code Playgroud)

postgresql

Wil*_*lem

lucky-day

2
推荐指数

1
解决办法

4809
查看次数

熊猫找到DataFrame矩阵的最小值：索引，列

我想在所有行和所有列的pandas DataFrame中获取最小值的索引和列名。

我已经尝试过.idxmin，但这似乎仅在应用于列时才起作用。理想情况下，该函数是不需要循环的单行代码。看来这是一个非常普遍的问题，但是我还没有找到解决方案。

我的数据框：

      col0, col1, col2
index0 1     2     3 
index1 2     3     4
index2 5     6     7

Run Code Online (Sandbox Code Playgroud)

我想获取矩阵中最小值的索引和列：1。

所以：

some_func(df) = (index0,col0)

Run Code Online (Sandbox Code Playgroud)

python pandas

Wil*_*lem

2019 09-07

2
推荐指数

1
解决办法

60
查看次数

python pandas 在数据框列中添加列表作为默认值

我想在数据框 df 中创建一个新列，该列将填充所有行[np.nan]

    df['new'] = [np.nan]

Run Code Online (Sandbox Code Playgroud)

我明白了

ValueError: Length of values does not match length of index

Run Code Online (Sandbox Code Playgroud)

如果我尝试

    test['new'] = np.nan
    test['new'] = test['new'].astype('object')
    test['new'] = [np.nan]

Run Code Online (Sandbox Code Playgroud)

我明白了

ValueError: Length of values does not match length of index

Run Code Online (Sandbox Code Playgroud)

我想确保所有行都填充了包含以下内容的列表nan

python pandas

Wil*_*lem

2018 08-07

1
推荐指数

1
解决办法

2931
查看次数

标签统计

pandas ×3

python ×3

postgresql ×2

dataset ×1

finance ×1

pandas-groupby ×1

xbrl ×1

SEC 的 EDGAR（加拿大的 SEDAR）数据库的国际等价物？

Postgresql 临时文件：设备上没有剩余空间，临时文件的位置

熊猫groupby + transform和多列

pg_dump/pg_restore lc_collat​​e English_United States.1252 Windows Linux 迁移

熊猫找到DataFrame矩阵的最小值：索引，列

python pandas 在数据框列中添加列表作为默认值

标签 统计

小编Wil_lem的帖子

pg_dump/pg_restore lc_collate English_United States.1252 Windows Linux 迁移

标签统计