小编Tok*_*kyo的帖子

计算3个字典的乘积并连接键和值

假设我有3种不同的字典:

dict1 = {
  "A": "a"
}

dict2 = {
  "B": "b", 
  "C": "c",
  "D": "d", 
  "E": "e"
}

dict3 = {
  "F": "f", 
  "G": "g"
}
Run Code Online (Sandbox Code Playgroud)

我想计算这些字典(不含之间的产品的产品dict2dict3),并结合了其中的键被连接与键和值_与值' and '

所需的输出将是一个字典:

{
  # dict1 x dict2 
  "A_B": "a and b", 
  "A_C": "a and c",
  "A_D": "a and d",
  "A_E": "a and e",

  # dict1 x dict3  
  "A_F": "a and f",
  "A_G": "a and g",

  # dict1 x dict2 x dict3 
  "A_B_F": "a and …
Run Code Online (Sandbox Code Playgroud)

python

9
推荐指数
1
解决办法
330
查看次数

在 PySpark 上描述数据帧

我有一个相当大的 Parquet 文件,我正在使用它加载

file = spark.read.parquet('hdfs/directory/test.parquet')
Run Code Online (Sandbox Code Playgroud)

现在我想得到一些统计数据(类似于 pandasdescribe()函数)。我试图做的是:

file_pd = file.toPandas()
file_pd.describe()
Run Code Online (Sandbox Code Playgroud)

但显然这需要将所有数据加载到内存中,并且会失败。任何人都可以提出解决方法吗?

python pandas apache-spark pyspark

4
推荐指数
1
解决办法
8165
查看次数

根据另一个数据框中的值更新数据框中的列

我有两个数据框,df1并且df2

df1.show()
+---+--------+-----+----+--------+
|cA |   cB   |  cC | cD |   cE   |
+---+--------+-----+----+--------+
|  A|   abc  | 0.1 | 0.0|   0    |
|  B|   def  | 0.15| 0.5|   0    |
|  C|   ghi  | 0.2 | 0.2|   1    |
|  D|   jkl  | 1.1 | 0.1|   0    |
|  E|   mno  | 0.1 | 0.1|   0    |
+---+--------+-----+----+--------+


df2.show()
+---+--------+-----+----+--------+
|cA |   cB   |  cH | cI |   cJ   |
+---+--------+-----+----+--------+
|  A|   abc  | …
Run Code Online (Sandbox Code Playgroud)

python dataframe apache-spark apache-spark-sql pyspark

4
推荐指数
1
解决办法
8839
查看次数

在 Spark Dataframe 中选择一系列列

假设我有一个 Spark Dataframe df,我如何选择一系列列,例如从第 100 列到第 200 列?

python apache-spark pyspark

3
推荐指数
1
解决办法
1855
查看次数

如何向 .loc pandas 动态添加条件

假设我有一个熊猫数据框,df我可以使用.loc()如下:

c1 = df['count'] > 10
c2 = df['min'] > 3
c2 = df['max']> 4

filtered = df.loc[c1 & c2 & c3].T.reset_index()
Run Code Online (Sandbox Code Playgroud)

没有说条件存储在列表中:

conditions = [df['count'] > 10, df['min'] > 3, df['max']> 4]
Run Code Online (Sandbox Code Playgroud)

如何将此列表传递给.loc()并指示所有条件都必须成立 ( &)?

python dataframe pandas

3
推荐指数
1
解决办法
356
查看次数

Apache Spark 中describe() 和summary() 的区别

summary()和 和有describe()什么区别?似乎它们都具有相同的目的,但没有设法找到任何差异(如果有的话)。

apache-spark

1
推荐指数
1
解决办法
2245
查看次数