ama*_*ouq 5 python logarithm matplotlib
我有一个非常大且稀疏的垃圾邮件 Twitter 帐户数据集,它需要我缩放 x 轴,以便能够可视化各种变量的分布(直方图、kde 等)和 cdf(tweets_count、关注者数量/关注者数量) ETC)。
> describe(spammers_class1$tweets_count)
var n mean sd median trimmed mad min max range skew kurtosis se
1 1 1076817 443.47 3729.05 35 57.29 43 0 669873 669873 53.23 5974.73 3.59
Run Code Online (Sandbox Code Playgroud)
在这个数据集中,值 0 具有巨大的重要性(实际上 0 应该具有最高的密度)。然而,使用对数标度时,这些值将被忽略。例如,我想将该值更改为 0.1,但是如果存在拥有 10^-1 关注者的垃圾邮件帐户,则没有意义。
那么, python 和 matplotlib 中的解决方法是什么?
x
每个值加 1 ,然后取日志:
import matplotlib.pyplot as plt
import numpy as np
import matplotlib.ticker as ticker
fig, ax = plt.subplots()
x = [0, 10, 100, 1000]
y = [100, 20, 10, 50]
x = np.asarray(x) + 1
y = np.asarray(y)
ax.plot(x, y)
ax.set_xscale('log')
ax.set_xlim(x.min(), x.max())
ax.xaxis.set_major_formatter(ticker.FuncFormatter(lambda x, pos: '{0:g}'.format(x-1)))
ax.xaxis.set_major_locator(ticker.FixedLocator(x))
plt.show()
Run Code Online (Sandbox Code Playgroud)
使用
ax.xaxis.set_major_formatter(ticker.FuncFormatter(lambda x, pos: '{0:g}'.format(x-1)))
ax.xaxis.set_major_locator(ticker.FixedLocator(x))
Run Code Online (Sandbox Code Playgroud)
根据 的非对数值重新标记刻度线x
。
(我最初的建议是使用plt.xticks(x, x-1)
,但这会影响所有轴。为了隔离对某个特定轴的更改,我将所有命令调用更改为ax
,而不是调用plt
。)
matplotlib
删除包含NaN
,inf
或-inf
值的点。由于log(0)
是-inf
,因此对应于 的点x=0
将从对数图中删除。
如果将所有 x 值增加 1,则从 开始log(1) = 0
,对应于 的点将x=0
不会绘制在x=log(1)=0
对数图上。
剩余的 x 值也将移动 1,但这对眼睛来说并不重要,因为对于较大的 值log(x+1)
非常接近。log(x)
x
归档时间: |
|
查看次数: |
13605 次 |
最近记录: |