小编Tok*_*kyo的帖子

计算3个字典的乘积并连接键和值

假设我有3种不同的字典：

dict1 = {
  "A": "a"
}

dict2 = {
  "B": "b", 
  "C": "c",
  "D": "d", 
  "E": "e"
}

dict3 = {
  "F": "f", 
  "G": "g"
}

Run Code Online (Sandbox Code Playgroud)

我想计算这些字典（不含之间的产品的产品dict2和dict3），并结合了其中的键被连接与键和值_与值' and '

所需的输出将是一个字典：

{
  # dict1 x dict2 
  "A_B": "a and b", 
  "A_C": "a and c",
  "A_D": "a and d",
  "A_E": "a and e",

  # dict1 x dict3  
  "A_F": "a and f",
  "A_G": "a and g",

  # dict1 x dict2 x dict3 
  "A_B_F": "a and …

Run Code Online (Sandbox Code Playgroud)

python

Tok*_*kyo

lucky-day

9
推荐指数

1
解决办法

330
查看次数

在 PySpark 上描述数据帧

我有一个相当大的 Parquet 文件，我正在使用它加载

file = spark.read.parquet('hdfs/directory/test.parquet')

Run Code Online (Sandbox Code Playgroud)

现在我想得到一些统计数据（类似于 pandasdescribe()函数）。我试图做的是：

file_pd = file.toPandas()
file_pd.describe()

Run Code Online (Sandbox Code Playgroud)

但显然这需要将所有数据加载到内存中，并且会失败。任何人都可以提出解决方法吗？

python pandas apache-spark pyspark

Tok*_*kyo

lucky-day

4
推荐指数

1
解决办法

8165
查看次数

根据另一个数据框中的值更新数据框中的列

我有两个数据框，df1并且df2：

df1.show()
+---+--------+-----+----+--------+
|cA |   cB   |  cC | cD |   cE   |
+---+--------+-----+----+--------+
|  A|   abc  | 0.1 | 0.0|   0    |
|  B|   def  | 0.15| 0.5|   0    |
|  C|   ghi  | 0.2 | 0.2|   1    |
|  D|   jkl  | 1.1 | 0.1|   0    |
|  E|   mno  | 0.1 | 0.1|   0    |
+---+--------+-----+----+--------+


df2.show()
+---+--------+-----+----+--------+
|cA |   cB   |  cH | cI |   cJ   |
+---+--------+-----+----+--------+
|  A|   abc  | …

Run Code Online (Sandbox Code Playgroud)

python dataframe apache-spark apache-spark-sql pyspark

Tok*_*kyo

lucky-day

4
推荐指数

1
解决办法

8839
查看次数

在 Spark Dataframe 中选择一系列列

假设我有一个 Spark Dataframe df，我如何选择一系列列，例如从第 100 列到第 200 列？

python apache-spark pyspark

Tok*_*kyo

lucky-day

3
推荐指数

1
解决办法

1855
查看次数

如何向 .loc pandas 动态添加条件

假设我有一个熊猫数据框，df我可以使用.loc()如下：

c1 = df['count'] > 10
c2 = df['min'] > 3
c2 = df['max']> 4

filtered = df.loc[c1 & c2 & c3].T.reset_index()

Run Code Online (Sandbox Code Playgroud)

没有说条件存储在列表中：

conditions = [df['count'] > 10, df['min'] > 3, df['max']> 4]

Run Code Online (Sandbox Code Playgroud)

如何将此列表传递给.loc()并指示所有条件都必须成立 ( &)？

python dataframe pandas

Tok*_*kyo

lucky-day

3
推荐指数

1
解决办法

356
查看次数

Apache Spark 中describe() 和summary() 的区别

summary()和和有describe()什么区别？似乎它们都具有相同的目的，但没有设法找到任何差异（如果有的话）。

apache-spark

Tok*_*kyo

2019 06-03

1
推荐指数

1
解决办法

2245
查看次数

标签统计

python ×5

apache-spark ×4

pyspark ×3

dataframe ×2

pandas ×2

apache-spark-sql ×1

计算3个字典的乘积并连接键和值

在 PySpark 上描述数据帧

根据另一个数据框中的值更新数据框中的列

在 Spark Dataframe 中选择一系列列

如何向 .loc pandas 动态添加条件

Apache Spark 中describe() 和summary() 的区别

标签 统计

小编Tok_kyo的帖子

标签统计