我有一个大型的pandas数据框,其字符串列的字符串大小严重偏斜.大多数行都有长度<20的字符串,但有些行的字符串长度超过2000.
我使用pandas.HDFStorage.append将此数据帧存储在磁盘上并设置min_itemsize = 4000.但是,这种方法非常低效,因为hdf5文件的大小非常大,而且我们知道大多数都是空的.
是否可以为此字符串列的行分配不同的大小?也就是说,将小min_itemsize分配给字符串为short的行,并将大min_itemsize分配给字符串为long的行.
似乎不支持替换无穷大值。我尝试了下面的代码,但它不起作用。还是我错过了什么?
a=sqlContext.createDataFrame([(None, None), (1, np.inf), (None, 2)])
a.replace(np.inf, 10)
Run Code Online (Sandbox Code Playgroud)
或者我必须采取痛苦的路线:将PySpark DataFrame转换为pandas DataFrame,替换无穷大值,然后将其转换回PySpark DataFrame
我有一个大型数据框,我用800分区创建.
df.rdd.getNumPartitions()
800
Run Code Online (Sandbox Code Playgroud)
当我在数据帧上使用dropDuplicates时,它会将分区更改为默认值200
df = df.dropDuplicates()
df.rdd.getNumPartitions()
200
Run Code Online (Sandbox Code Playgroud)
这种行为会给我带来麻烦,因为它会导致内存不足.
你对修复这个问题有什么建议吗?我尝试将spark.sql.shuffle.partition设置为800,但它不起作用.谢谢
我有一个带有降价单元格的木工笔记本
# Projects
<div style="font-size: 50px">
hello
| Project |Project Type | Status |
|------------------------------|-------------------|-----------------------|
| Hello phase 1 |ABC |Ongoing |
| Goodbye analytics |EFG |Completed |
</div >
Run Code Online (Sandbox Code Playgroud)
但是,它不会增加表中单词的字体大小,而只会增加“ Hello”的字体大小。
可以增加表格内文字的字体大小吗?谢谢。
apache-spark ×2
pandas ×2
pyspark ×2
hdf5 ×1
ipython ×1
markdown ×1
partitioning ×1
python ×1
python-2.7 ×1