在ipython Notebook中,首先创建一个pandas Series对象,然后通过调用实例方法.hist(),浏览器显示该图.
我想知道如何将这个数字保存到文件(我的意思是不是通过右键单击并另存为,但脚本中需要的命令).
我是Spark-DataFrame API的初学者.
我使用此代码将csv tab分隔为Spark Dataframe
lines = sc.textFile('tail5.csv')
parts = lines.map(lambda l : l.strip().split('\t'))
fnames = *some name list*
schemaData = StructType([StructField(fname, StringType(), True) for fname in fnames])
ddf = sqlContext.createDataFrame(parts,schemaData)
Run Code Online (Sandbox Code Playgroud)
假设我使用Spark从新文件创建DataFrame,并使用内置方法toPandas()将其转换为pandas,
我有一个DataFrame叫做data列的大熊猫ms.我想消除data.ms高于95%百分位数的所有行.现在,我这样做:
limit = data.ms.describe(90)['95%']
valid_data = data[data['ms'] < limit]
Run Code Online (Sandbox Code Playgroud)
哪个有效,但我想把它推广到任何百分位数.最好的方法是什么?
我已经搜索过这个问题但我找不到任何相关内容.有没有更好的方法在Google中查询这样的内容,或者任何人都可以提供链接或链接或相当详细的解释?谢谢!
编辑:这是一个例子
template< typename T, size_t N>
struct Vector {
public:
Vector() {
this->template operator=(0);
}
// ...
template< typename U >
typename boost::enable_if< boost::is_convertible< U, T >, Vector& >::type operator=(Vector< U, N > const & other) {
typename Vector< U, N >::ConstIterator j = other.begin();
for (Iterator i = begin(); i != end(); ++i, ++j)
(*i) = (*j);
return *this;
}
};
Run Code Online (Sandbox Code Playgroud)
此示例来自Google Code上的ndarray项目,而不是我自己的代码.
有没有办法将列表的值分配给Common Lisp中的符号列表,类似于在Python中将元组值赋值给变量的方式?
x, y, z = (1, 2, 3)
Run Code Online (Sandbox Code Playgroud)
就像是
(setq '(n p) '(1 2))
Run Code Online (Sandbox Code Playgroud)
凡n与p现在等于1和2分别.以上就是我在脑海中思考它的方式,但它不起作用.我尝试使用apply如下:
(apply setq '('(n p) '(1 2)))
Run Code Online (Sandbox Code Playgroud)
我是Lisp的新手,所以如果这是显而易见的事情,请尽量不要过于苛刻,请指出我正确的方向!谢谢.
PS:我在Scheme中看过这样做的帖子和Common Lisp中关于元组扩展的类似帖子,但是这些在回答我的问题时并不是很有帮助1)因为我没有使用Scheme,2)因为排名最高的答案就是这个词apply.
我想将一个新参数传递给模板,同时保留它的原始数据上下文.
{{> myTemplate withIcon=True}}
我的解决方案是将这样的数据包装起来.
<code>
{{> myTemplate originalData=this withIcon=True}}
</code>
Run Code Online (Sandbox Code Playgroud)
有更好的解决方案吗?
我正在尝试创建一个直方图,该直方图将显示离散星级(1-5)中每个值的评级数量.每个值应该有一个条形,在x轴上,每个条形下面(中心)显示的唯一数字是[1,2,3,4,5].
我尝试将容器数量设置为5或其范围设置为0-7,但这会创建跨越值的条形(如提供的图像中所示)

这是我尝试过的代码(pandas和numpy):
df.stars.hist()
Run Code Online (Sandbox Code Playgroud)
和
hist, bins = np.histogram(x1, bins=5)
ax.bar(bins[:-1], hist.astype(np.float32) / hist.sum(), width=(bins[1]-bins[0]), color="blue")
Run Code Online (Sandbox Code Playgroud) 我有一个DataFrame16行和14671872列的对象.我不能为我的生活弄清楚如何在任何合理的时间内在具有24GB RAM的四核戴尔T410上切割此阵列.
我只想用数组的转置,因为这是多快,后来我将有一个MultiIndex在列,而我还没有发现大熊猫展示了如何使用任何文件MultiIndexS作为列.
我想在Github跟踪器上打开一个问题,但我想在我做之前发布这里,以防万一我错过了一些非常明显的东西.
我正在尝试通过 Python 的 MySQLdb 库将数据从 Pandas(从 CSV 导入)传递到 MySQL 数据库。当文字反斜杠开始发挥作用时,我遇到了麻烦。我从原始输入中转义了单个反斜杠,因此 Python 知道它们是文字反斜杠,而不是对后续字符的转义。但是当我尝试执行 INSERT 查询时,MySQLdb 说存在语法错误。但这是令人困惑和令人沮丧的部分:如果我将确切的字符串复制/粘贴到 MySQL 中,它可以毫无问题地执行。
我试图使数据和结构尽可能接近实际数据,但对其进行了更改以保留隐私。请注意,在第一行的 SourceSystemID 列的末尾和第二行的 MiddleInitial 列有两个类似的违规值。
In [39]: test
Out[39]:
ehrSystemID SourceSystemID LastName FirstName MiddleInitial Sex
0 fakePlace ABC\ NaN NaN NaN NaN
1 fakePlace XYZ Smith John \ M
npi deaNumber LicenseNumber ProvSpecialty dob
0 1234567890 AB1234567 !123456 Internal NaN
1 NaN NaN B123456 Internal NaN
Run Code Online (Sandbox Code Playgroud)
这些行的值转换为字符串以附加到 INSERT 语句的末尾(请注意,所有 MySQL 列都将是 varchar,因此所有值都用单引号括起来)
In [40]: testVals
Out[40]: "('fakePlace', 'ABC\\', '', '', '', '', '1234567890', …Run Code Online (Sandbox Code Playgroud) 我想绘制12个图表(每月一个图表),包括列'A'和'B'左侧y轴,以及'C'右侧的列。
下面的代码在左侧绘制了所有内容。
import pandas as pd
index=pd.date_range('2011-1-1 00:00:00', '2011-12-31 23:50:00', freq='1h')
df=pd.DataFrame(np.random.rand(len(index),3),columns=['A','B','C'],index=index)
df2 = df.groupby(lambda x: x.month)
for key, group in df2:
group.plot()
Run Code Online (Sandbox Code Playgroud)
如何分离柱和使用这样的:group.plot({'A','B':style='g'},{'C':secondary_y=True})?
Template.templatename.onCreated在文档中被提及(连同.onRendered和.onDestroyed方法).
但是,当我打电话给这些时,没有任 如果我打电话Template.templatename.created,例如,这是有效的.
有什么想法吗?我在文档中误读了什么吗?这是对其他东西的引用吗?
编辑:我刚刚在源代码中找到了这个:
https://github.com/meteor/meteor/blob/master/packages/blaze/template.js#L65
在第180行,这些被标记为在1.1中被弃用,但我仍然没有得到任何来自onCreated的爱....
有谁知道我做错了什么?
Template.channels_admin.onCreated = function () {
// .... doesn't run
};
Run Code Online (Sandbox Code Playgroud) 我是Python新手,在使用pandas重新采样某些数据时,我遇到了一个棘手的问题.
当我想重新采样时间序列数据时,应用算术平均函数非常简单.
例如:
假设ts是以分钟频率的时间序列数据(在pandas,它被封装在具有a的pandas.Series对象中DatetimeIndex).
要获得每组5分钟时段的算术平均值,它只是:
ts.resample('5min', how='mean')
Run Code Online (Sandbox Code Playgroud)
但是,我如何以这种方式计算几何平均数?是否有像上面这样的简单解决方案,例如:
ts.resample('5min', how='gmean')
Run Code Online (Sandbox Code Playgroud) python ×9
pandas ×8
matplotlib ×2
meteor ×2
templates ×2
apache-spark ×1
c++ ×1
common-lisp ×1
filtering ×1
histogram ×1
javascript ×1
lisp ×1
list ×1
mean ×1
meteor-blaze ×1
mysql ×1
mysql-python ×1
percentile ×1
plot ×1
pyspark ×1
sql ×1