有没有办法在Sublime Text 3中搜索项目内所有文件中的字符串?字符串不是方法.
我在LaTeX写了一篇很长的文档.我有自己的工作电脑和笔记本电脑,我都在工作.我需要保持两台计算机之间的所有文件同步,并且还希望保留修订历史记录.我选择git作为我的DVCS,我在我的服务器上托管我的存储库.我也使用Kile + Okular进行编辑.Kile没有集成的git插件.我也没有在这篇文章中与任何人合作.如果由于某种原因我的服务器无法访问,我也在考虑在codaset上放置另一个私有存储库.
在这种情况下,推荐的工作流程是什么?如何在这个工作方案中安装分支?有没有办法比较同一个文件的两个版本?使用藏匿怎么样?
我正在尝试过滤具有None行值的PySpark数据帧:
df.select('dt_mvmt').distinct().collect()
[Row(dt_mvmt=u'2016-03-27'),
Row(dt_mvmt=u'2016-03-28'),
Row(dt_mvmt=u'2016-03-29'),
Row(dt_mvmt=None),
Row(dt_mvmt=u'2016-03-30'),
Row(dt_mvmt=u'2016-03-31')]
Run Code Online (Sandbox Code Playgroud)
我可以使用字符串值正确过滤:
df[df.dt_mvmt == '2016-03-31']
# some results here
Run Code Online (Sandbox Code Playgroud)
但这失败了:
df[df.dt_mvmt == None].count()
0
df[df.dt_mvmt != None].count()
0
Run Code Online (Sandbox Code Playgroud)
但每个类别肯定都有价值观.这是怎么回事?
我有一个带有分类数据的数据框:
colour direction
1 red up
2 blue up
3 green down
4 red left
5 red right
6 yellow down
7 blue down
Run Code Online (Sandbox Code Playgroud)
我想生成一些图表,如基于类别的饼图和直方图.是否可以不创建虚拟数字变量?就像是
df.plot(kind='hist')
Run Code Online (Sandbox Code Playgroud) 我正在尝试连接两个PySpark数据帧和一些只在每个上面的列:
from pyspark.sql.functions import randn, rand
df_1 = sqlContext.range(0, 10)
+--+
|id|
+--+
| 0|
| 1|
| 2|
| 3|
| 4|
| 5|
| 6|
| 7|
| 8|
| 9|
+--+
df_2 = sqlContext.range(11, 20)
+--+
|id|
+--+
| 10|
| 11|
| 12|
| 13|
| 14|
| 15|
| 16|
| 17|
| 18|
| 19|
+--+
df_1 = df_1.select("id", rand(seed=10).alias("uniform"), randn(seed=27).alias("normal"))
df_2 = df_2.select("id", rand(seed=10).alias("uniform"), randn(seed=27).alias("normal_2"))
Run Code Online (Sandbox Code Playgroud)
现在我想生成第三个数据帧.我想要像熊猫这样的东西concat:
df_1.show()
+---+--------------------+--------------------+
| id| uniform| …Run Code Online (Sandbox Code Playgroud) 我有一个PySpark数据帧
+-------+--------------+----+----+
|address| date|name|food|
+-------+--------------+----+----+
|1111111|20151122045510| Yin|gre |
|1111111|20151122045501| Yin|gre |
|1111111|20151122045500| Yln|gra |
|1111112|20151122065832| Yun|ddd |
|1111113|20160101003221| Yan|fdf |
|1111111|20160703045231| Yin|gre |
|1111114|20150419134543| Yin|fdf |
|1111115|20151123174302| Yen|ddd |
|2111115| 20123192| Yen|gre |
+-------+--------------+----+----+
Run Code Online (Sandbox Code Playgroud)
我想转换为与pyspark.ml一起使用.我可以使用StringIndexer将name列转换为数字类别:
indexer = StringIndexer(inputCol="name", outputCol="name_index").fit(df)
df_ind = indexer.transform(df)
df_ind.show()
+-------+--------------+----+----------+----+
|address| date|name|name_index|food|
+-------+--------------+----+----------+----+
|1111111|20151122045510| Yin| 0.0|gre |
|1111111|20151122045501| Yin| 0.0|gre |
|1111111|20151122045500| Yln| 2.0|gra |
|1111112|20151122065832| Yun| 4.0|ddd |
|1111113|20160101003221| Yan| 3.0|fdf |
|1111111|20160703045231| Yin| 0.0|gre |
|1111114|20150419134543| Yin| 0.0|fdf |
|1111115|20151123174302| Yen| 1.0|ddd |
|2111115| …Run Code Online (Sandbox Code Playgroud) 我现在正在使用scipy.integrate.quad来成功整合一些真正的整数.现在出现了我需要整合复杂的被积函数的情况.quad似乎无法做到这一点,因为其他scipy.integrate例程,所以我问:有没有办法使用scipy.integrate集成复杂的被积函数,而不必分离实部和虚部的积分?
这个问题非常愚蠢,但我需要以非常有效的方式完成它 - 它将在我的代码中重复执行.我有一个返回向量的函数,我必须逐个元素地将返回的值添加到另一个向量.非常简单:
vector<double> result;
vector<double> result_temp
for(int i=0; i< 10; i++) result_temp.push_back(i);
result += result_temp //I would like to do something like that.
for(int i =0; i< result_temp.size();i++)result[i] += result_temp[i]; //this give me segfault
Run Code Online (Sandbox Code Playgroud)
我正在尝试的数学运算是
u [i] = u [i] + v [i]为所有我
可以做些什么?
谢谢
编辑:添加了一个简单的初始化,因为这不是重点.应如何初始化结果?
我需要使用dict过滤数据框,使用键作为列名构造,值是我想要过滤的值:
filter_v = {'A':1, 'B':0, 'C':'This is right'}
# this would be the normal approach
df[(df['A'] == 1) & (df['B'] ==0)& (df['C'] == 'This is right')]
Run Code Online (Sandbox Code Playgroud)
但是我想做点什么
for column, value in filter_v.items():
df[df[column] == value]
Run Code Online (Sandbox Code Playgroud)
但这会多次过滤数据框,一次过滤一个值,而不会同时应用所有过滤器.有没有办法以编程方式进行?
编辑:一个例子:
df1 = pd.DataFrame({'A':[1,0,1,1, np.nan], 'B':[1,1,1,0,1], 'C':['right','right','wrong','right', 'right'],'D':[1,2,2,3,4]})
filter_v = {'A':1, 'B':0, 'C':'right'}
df1.loc[df1[filter_v.keys()].isin(filter_v.values()).all(axis=1), :]
Run Code Online (Sandbox Code Playgroud)
给
A B C D
0 1 1 right 1
1 0 1 right 2
3 1 0 right 3
Run Code Online (Sandbox Code Playgroud)
但预期的结果是
A B C D
3 1 0 right …Run Code Online (Sandbox Code Playgroud) 我正在尝试按星期在Spark数据框中进行分组,并为每个组计算一列的唯一值:
test.json
{"name":"Yin", "address":1111111, "date":20151122045510}
{"name":"Yin", "address":1111111, "date":20151122045501}
{"name":"Yln", "address":1111111, "date":20151122045500}
{"name":"Yun", "address":1111112, "date":20151122065832}
{"name":"Yan", "address":1111113, "date":20160101003221}
{"name":"Yin", "address":1111111, "date":20160703045231}
{"name":"Yin", "address":1111114, "date":20150419134543}
{"name":"Yen", "address":1111115, "date":20151123174302}
Run Code Online (Sandbox Code Playgroud)
和代码:
import pyspark.sql.funcions as func
from pyspark.sql.types import TimestampType
from datetime import datetime
df_y = sqlContext.read.json("/user/test.json")
udf_dt = func.udf(lambda x: datetime.strptime(x, '%Y%m%d%H%M%S'), TimestampType())
df = df_y.withColumn('datetime', udf_dt(df_y.date))
df_g = df_y.groupby(func.hour(df_y.date))
df_g.count().distinct().show()
Run Code Online (Sandbox Code Playgroud)
pyspark的结果是
df_y.groupby(df_y.name).count().distinct().show()
+----+-----+
|name|count|
+----+-----+
| Yan| 1|
| Yun| 1|
| Yin| 4|
| Yen| 1|
| Yln| 1|
+----+-----+
Run Code Online (Sandbox Code Playgroud)
而我对大熊猫的期待是这样的:
df …Run Code Online (Sandbox Code Playgroud) python ×7
apache-spark ×4
pyspark ×4
pandas ×2
c++ ×1
dataframe ×1
git ×1
git-workflow ×1
latex ×1
numpy ×1
scipy ×1
stl ×1
sublimetext ×1
sublimetext3 ×1
vector ×1