小编Iva*_*van的帖子

在Sublime Text 3中搜索项目中的所有文件

有没有办法在Sublime Text 3中搜索项目内所有文件中的字符串?字符串不是方法.

sublimetext sublimetext3

272
推荐指数
4
解决办法
25万
查看次数

git + LaTeX工作流程

我在LaTeX写了一篇很长的文档.我有自己的工作电脑和笔记本电脑,我都在工作.我需要保持两台计算机之间的所有文件同步,并且还希望保留修订历史记录.我选择git作为我的DVCS,我在我的服务器上托管我的存储库.我也使用Kile + Okular进行编辑.Kile没有集成的git插件.我也没有在这篇文章中与任何人合作.如果由于某种原因我的服务器无法访问,我也在考虑在codaset上放置另一个私有存储库.

在这种情况下,推荐的工作流程是什么?如何在这个工作方案中安装分支?有没有办法比较同一个文件的两个版本?使用藏匿怎么样?

git latex git-workflow

261
推荐指数
3
解决办法
8万
查看次数

使用无值过滤Pyspark数据框列

我正在尝试过滤具有None行值的PySpark数据帧:

df.select('dt_mvmt').distinct().collect()

[Row(dt_mvmt=u'2016-03-27'),
 Row(dt_mvmt=u'2016-03-28'),
 Row(dt_mvmt=u'2016-03-29'),
 Row(dt_mvmt=None),
 Row(dt_mvmt=u'2016-03-30'),
 Row(dt_mvmt=u'2016-03-31')]
Run Code Online (Sandbox Code Playgroud)

我可以使用字符串值正确过滤:

df[df.dt_mvmt == '2016-03-31']
# some results here
Run Code Online (Sandbox Code Playgroud)

但这失败了:

df[df.dt_mvmt == None].count()
0
df[df.dt_mvmt != None].count()
0
Run Code Online (Sandbox Code Playgroud)

但每个类别肯定都有价值观.这是怎么回事?

python dataframe apache-spark apache-spark-sql pyspark

76
推荐指数
5
解决办法
16万
查看次数

使用pandas和matplotlib绘制分类数据

我有一个带有分类数据的数据框:

     colour  direction
1    red     up
2    blue    up
3    green   down
4    red     left
5    red     right
6    yellow  down
7    blue    down
Run Code Online (Sandbox Code Playgroud)

我想生成一些图表,如基于类别的饼图和直方图.是否可以不创建虚拟数字变量?就像是

df.plot(kind='hist')
Run Code Online (Sandbox Code Playgroud)

python pandas

71
推荐指数
6
解决办法
9万
查看次数

连接两个PySpark数据帧

我正在尝试连接两个PySpark数据帧和一些只在每个上面的列:

from pyspark.sql.functions import randn, rand

df_1 = sqlContext.range(0, 10)

+--+
|id|
+--+
| 0|
| 1|
| 2|
| 3|
| 4|
| 5|
| 6|
| 7|
| 8|
| 9|
+--+

df_2 = sqlContext.range(11, 20)

+--+
|id|
+--+
| 10|
| 11|
| 12|
| 13|
| 14|
| 15|
| 16|
| 17|
| 18|
| 19|
+--+

df_1 = df_1.select("id", rand(seed=10).alias("uniform"), randn(seed=27).alias("normal"))
df_2 = df_2.select("id", rand(seed=10).alias("uniform"), randn(seed=27).alias("normal_2"))
Run Code Online (Sandbox Code Playgroud)

现在我想生成第三个数据帧.我想要像熊猫这样的东西concat:

df_1.show()
+---+--------------------+--------------------+
| id|             uniform| …
Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark

36
推荐指数
7
解决办法
10万
查看次数

将StringIndexer应用于PySpark Dataframe中的多个列

我有一个PySpark数据帧

+-------+--------------+----+----+
|address|          date|name|food|
+-------+--------------+----+----+
|1111111|20151122045510| Yin|gre |
|1111111|20151122045501| Yin|gre |
|1111111|20151122045500| Yln|gra |
|1111112|20151122065832| Yun|ddd |
|1111113|20160101003221| Yan|fdf |
|1111111|20160703045231| Yin|gre |
|1111114|20150419134543| Yin|fdf |
|1111115|20151123174302| Yen|ddd |
|2111115|      20123192| Yen|gre |
+-------+--------------+----+----+
Run Code Online (Sandbox Code Playgroud)

我想转换为与pyspark.ml一起使用.我可以使用StringIndexer将name列转换为数字类别:

indexer = StringIndexer(inputCol="name", outputCol="name_index").fit(df)
df_ind = indexer.transform(df)
df_ind.show()
+-------+--------------+----+----------+----+
|address|          date|name|name_index|food|
+-------+--------------+----+----------+----+
|1111111|20151122045510| Yin|       0.0|gre |
|1111111|20151122045501| Yin|       0.0|gre |
|1111111|20151122045500| Yln|       2.0|gra |
|1111112|20151122065832| Yun|       4.0|ddd |
|1111113|20160101003221| Yan|       3.0|fdf |
|1111111|20160703045231| Yin|       0.0|gre |
|1111114|20150419134543| Yin|       0.0|fdf |
|1111115|20151123174302| Yen|       1.0|ddd |
|2111115| …
Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark

35
推荐指数
2
解决办法
2万
查看次数

使用scipy.integrate.quad来集成复数

我现在正在使用scipy.integrate.quad来成功整合一些真正的整数.现在出现了我需要整合复杂的被积函数的情况.quad似乎无法做到这一点,因为其他scipy.integrate例程,所以我问:有没有办法使用scipy.integrate集成复杂的被积函数,而不必分离实部和虚部的积分?

python numpy scipy complex-numbers

27
推荐指数
2
解决办法
2万
查看次数

如何逐个元素添加两个STL向量?

这个问题非常愚蠢,但我需要以非常有效的方式完成它 - 它将在我的代码中重复执行.我有一个返回向量的函数,我必须逐个元素地将返回的值添加到另一个向量.非常简单:

vector<double> result;
vector<double> result_temp
for(int i=0; i< 10; i++) result_temp.push_back(i);

result += result_temp //I would like to do something like that.
for(int i =0; i< result_temp.size();i++)result[i] += result_temp[i]; //this give me segfault
Run Code Online (Sandbox Code Playgroud)

我正在尝试的数学运算是

u [i] = u [i] + v [i]为所有我

可以做些什么?

谢谢

编辑:添加了一个简单的初始化,因为这不是重点.应如何初始化结果?

c++ stl vector

26
推荐指数
3
解决办法
5万
查看次数

使用dict中的值过滤pandas数据帧

我需要使用dict过滤数据框,使用键作为列名构造,值是我想要过滤的值:

filter_v = {'A':1, 'B':0, 'C':'This is right'}
# this would be the normal approach
df[(df['A'] == 1) & (df['B'] ==0)& (df['C'] == 'This is right')]
Run Code Online (Sandbox Code Playgroud)

但是我想做点什么

for column, value in filter_v.items():
    df[df[column] == value]
Run Code Online (Sandbox Code Playgroud)

但这会多次过滤数据框,一次过滤一个值,而不会同时应用所有过滤器.有没有办法以编程方式进行?

编辑:一个例子:

df1 = pd.DataFrame({'A':[1,0,1,1, np.nan], 'B':[1,1,1,0,1], 'C':['right','right','wrong','right', 'right'],'D':[1,2,2,3,4]})
filter_v = {'A':1, 'B':0, 'C':'right'}
df1.loc[df1[filter_v.keys()].isin(filter_v.values()).all(axis=1), :]
Run Code Online (Sandbox Code Playgroud)

    A   B   C   D
0   1   1   right   1
1   0   1   right   2
3   1   0   right   3
Run Code Online (Sandbox Code Playgroud)

但预期的结果是

    A   B   C   D
3   1   0   right …
Run Code Online (Sandbox Code Playgroud)

python pandas

24
推荐指数
2
解决办法
1万
查看次数

在Spark 1.6 Dataframe上的其他字段中获取每个组的不同元素

我正在尝试按星期在Spark数据框中进行分组,并为每个组计算一列的唯一值:

test.json
{"name":"Yin", "address":1111111, "date":20151122045510}
{"name":"Yin", "address":1111111, "date":20151122045501}
{"name":"Yln", "address":1111111, "date":20151122045500}
{"name":"Yun", "address":1111112, "date":20151122065832}
{"name":"Yan", "address":1111113, "date":20160101003221}
{"name":"Yin", "address":1111111, "date":20160703045231}
{"name":"Yin", "address":1111114, "date":20150419134543}
{"name":"Yen", "address":1111115, "date":20151123174302}
Run Code Online (Sandbox Code Playgroud)

和代码:

import pyspark.sql.funcions as func
from pyspark.sql.types import TimestampType
from datetime import datetime

df_y = sqlContext.read.json("/user/test.json")
udf_dt = func.udf(lambda x: datetime.strptime(x, '%Y%m%d%H%M%S'), TimestampType())
df = df_y.withColumn('datetime', udf_dt(df_y.date))
df_g = df_y.groupby(func.hour(df_y.date))    
df_g.count().distinct().show()
Run Code Online (Sandbox Code Playgroud)

pyspark的结果是

df_y.groupby(df_y.name).count().distinct().show()
+----+-----+
|name|count|
+----+-----+
| Yan|    1|
| Yun|    1|
| Yin|    4|
| Yen|    1|
| Yln|    1|
+----+-----+
Run Code Online (Sandbox Code Playgroud)

而我对大熊猫的期待是这样的:

df …
Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark

23
推荐指数
2
解决办法
3万
查看次数