小编Mic*_*ael的帖子

在pandas数据帧中高效存储大字符串列

我有一个大型的pandas数据框,其字符串列的字符串大小严重偏斜.大多数行都有长度<20的字符串,但有些行的字符串长度超过2000.

我使用pandas.HDFStorage.append将此数据帧存储在磁盘上并设置min_itemsize = 4000.但是,这种方法非常低效,因为hdf5文件的大小非常大,而且我们知道大多数都是空的.

是否可以为此字符串列的行分配不同的大小？也就是说,将小min_itemsize分配给字符串为short的行,并将大min_itemsize分配给字符串为long的行.

hdf5 python-2.7 pandas

Mic*_*ael

2015 08-31

3
推荐指数

1
解决办法

2366
查看次数

如何在 PySpark DataFrame 中替换无穷大

似乎不支持替换无穷大值。我尝试了下面的代码，但它不起作用。还是我错过了什么？

a=sqlContext.createDataFrame([(None, None), (1, np.inf), (None, 2)])
a.replace(np.inf, 10)

Run Code Online (Sandbox Code Playgroud)

或者我必须采取痛苦的路线：将PySpark DataFrame转换为pandas DataFrame，替换无穷大值，然后将其转换回PySpark DataFrame

python pandas apache-spark apache-spark-sql pyspark

Mic*_*ael

2015 12-23

3
推荐指数

1
解决办法

5629
查看次数

在数据帧中使用dropDuplicates会导致分区号发生更改

我有一个大型数据框,我用800分区创建.

df.rdd.getNumPartitions()
800

Run Code Online (Sandbox Code Playgroud)

当我在数据帧上使用dropDuplicates时,它会将分区更改为默认值200

df = df.dropDuplicates()
df.rdd.getNumPartitions()
200

Run Code Online (Sandbox Code Playgroud)

这种行为会给我带来麻烦,因为它会导致内存不足.

你对修复这个问题有什么建议吗？我尝试将spark.sql.shuffle.partition设置为800,但它不起作用.谢谢

partitioning apache-spark apache-spark-sql pyspark

Mic*_*ael

2019 01-13

3
推荐指数

1
解决办法

4066
查看次数

如何在Jupyter Notebook中增加Markdown表的字体大小？

我有一个带有降价单元格的木工笔记本

# Projects

<div style="font-size: 50px">

hello

| Project                      |Project Type       | Status                |
|------------------------------|-------------------|-----------------------|
|   Hello phase 1              |ABC                |Ongoing                |
|   Goodbye analytics          |EFG                |Completed              |

</div >

Run Code Online (Sandbox Code Playgroud)

但是，它不会增加表中单词的字体大小，而只会增加“ Hello”的字体大小。

可以增加表格内文字的字体大小吗？谢谢。

markdown ipython jupyter-notebook

Mic*_*ael

lucky-day

3
推荐指数

1
解决办法

5410
查看次数