我有一个 140MB 的 Excel 文件,需要使用 Pandas 进行分析。问题是,如果我以 xlsx 格式打开这个文件,python 需要 5 分钟才能读取它。我尝试手动将此文件保存为 csv,然后 Python 大约需要一秒钟才能打开并读取它!有不同的 2012-2014 解决方案,为什么 Python 3 并不能真正在我这边工作。
有人可以建议如何非常快速地将文件转换'C:\master_file.xlsx'为'C:\master_file.csv'?
请我想我有一个简单的问题,但我看不到任何有用的博客来展示如何实现这一目标。我有一个名为“series”的 python pandas 系列,我使用 series.hist() 来可视化直方图。我需要直接在图表上可视化每个 bin 的出现次数,但我找不到解决方案。
我如何才能在每个垃圾箱顶部看到一个标签,显示每个垃圾箱的出现次数?
准确地说,这是我的代码:
import matplotlib.pyplot as plt
your_bins=10
data = [df_5m_9_4pm.loc['2017-6']['sum_daily_cum_ret'].values]
plt.hist(data, binds = your_bins)
arr = plt.hist(data,bins = your_bins)
for i in range(your_bins):
plt.text(arr[1][i],arr[0][i],str(arr[0][i]))
Run Code Online (Sandbox Code Playgroud)
如果我只是打印变量“数据”,它是这样的:
[array([ 0. , 0.03099187, -0.00417244, ..., -0.00459067,
0.0529476 , -0.0076605 ])]
Run Code Online (Sandbox Code Playgroud)
如果我运行上面的代码,我会收到错误消息:
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-97-917078981b1d> in <module>()
2 your_bins=10
3 data = [df_5m_9_4pm.loc['2017-6']['sum_daily_cum_ret'].values]
----> 4 plt.hist(data, binds = your_bins)
5 arr = plt.hist(data,bins = your_bins)
6 for i in range(your_bins):
~/anaconda3/lib/python3.6/site-packages/matplotlib/pyplot.py in …Run Code Online (Sandbox Code Playgroud) 我的单元格 in[16] 有一个 python 循环,它在每个循环中调用一个函数,并且该函数打印一堆字符串。由于迭代次数很大(笔记本文件达到 99+ MB),我需要将这些字符串输出到 txt 或 csv 文件而不是 jupyter 文件内。我已经读过这里提到的答案: how to save the output of a cell in iPython Notebook?
但是,如果我使用该代码,我会收到以下粉红色错误消息:
错误:根:%capture未找到行魔法功能(但细胞魔法%%capture存在,您是说这个吗?)。
最终,还有此错误消息:NameError:名称'cap'未定义
所以只是给你举个例子。假设我有:
def test(i):
print(i)
for i in range(1,10):
test(i)
Run Code Online (Sandbox Code Playgroud)
如何导出/打印 txt 文件而不是笔记本中从 1 到 10 的值?老实说,我不是 python 专家,所以非常感谢您的帮助。
python ×2
capture ×1
histogram ×1
matplotlib ×1
numpy ×1
openpyxl ×1
pandas ×1
save ×1
xlrd ×1
xlsxwriter ×1