小编Mic*_*ael的帖子

在pandas数据帧中高效存储大字符串列

我有一个大型的pandas数据框,其字符串列的字符串大小严重偏斜.大多数行都有长度<20的字符串,但有些行的字符串长度超过2000.

我使用pandas.HDFStorage.append将此数据帧存储在磁盘上并设置min_itemsize = 4000.但是,这种方法非常低效,因为hdf5文件的大小非常大,而且我们知道大多数都是空的.

是否可以为此字符串列的行分配不同的大小?也就是说,将小min_itemsize分配给字符串为short的行,并将大min_itemsize分配给字符串为long的行.

hdf5 python-2.7 pandas

3
推荐指数
1
解决办法
2366
查看次数

如何在 PySpark DataFrame 中替换无穷大

似乎不支持替换无穷大值。我尝试了下面的代码,但它不起作用。还是我错过了什么?

a=sqlContext.createDataFrame([(None, None), (1, np.inf), (None, 2)])
a.replace(np.inf, 10)
Run Code Online (Sandbox Code Playgroud)

或者我必须采取痛苦的路线:将PySpark DataFrame转换为pandas DataFrame,替换无穷大值,然后将其转换回PySpark DataFrame

python pandas apache-spark apache-spark-sql pyspark

3
推荐指数
1
解决办法
5629
查看次数

在数据帧中使用dropDuplicates会导致分区号发生更改

我有一个大型数据框,我用800分区创建.

df.rdd.getNumPartitions()
800
Run Code Online (Sandbox Code Playgroud)

当我在数据帧上使用dropDuplicates时,它会将分区更改为默认值200

df = df.dropDuplicates()
df.rdd.getNumPartitions()
200
Run Code Online (Sandbox Code Playgroud)

这种行为会给我带来麻烦,因为它会导致内存不足.

你对修复这个问题有什么建议吗?我尝试将spark.sql.shuffle.partition设置为800,但它不起作用.谢谢

partitioning apache-spark apache-spark-sql pyspark

3
推荐指数
1
解决办法
4066
查看次数

如何在Jupyter Notebook中增加Markdown表的字体大小?

我有一个带有降价单元格的木工笔记本

# Projects

<div style="font-size: 50px">

hello

| Project                      |Project Type       | Status                |
|------------------------------|-------------------|-----------------------|
|   Hello phase 1              |ABC                |Ongoing                |
|   Goodbye analytics          |EFG                |Completed              |

</div >
Run Code Online (Sandbox Code Playgroud)

但是,它不会增加表中单词的字体大小,而只会增加“ Hello”的字体大小。

可以增加表格内文字的字体大小吗?谢谢。

markdown ipython jupyter-notebook

3
推荐指数
1
解决办法
5410
查看次数