小编Phi*_*hil的帖子

我无法理解Scala Spark中的'RDD.map {case(A,B)=> A}'

我对Scala Spark比较陌生.我有一个map方法的问题.

我的理解:map是一个RDD方法,它接受一个函数作为其参数,如:map(line => line.split(","))

我发现很难理解这种表达方式.

val uniqueUsers = data.map { case (user, product, price) => user }.distinct().count()
Run Code Online (Sandbox Code Playgroud)

有人可以为我解释两件事:

  1. 为什么{}不使用()
  2. 我可以case (user, product, price) => user视为一种功能吗?如果没有,那是什么?

先感谢您.

scala apache-spark

3
推荐指数
1
解决办法
4240
查看次数

在函数python中定义函数是否合适?

这是我在项目中编写的代码.

编写python哪一个更好?

def get_list_of_university_towns():
    ....
    def parse_state(item):
        return re.sub('\[edit\]', '', item)
    uni_towns['State'] = uni_towns['State'].apply(parse_state)
    return uni_towns
Run Code Online (Sandbox Code Playgroud)

要么:

def parse_state(item):
    return re.sub('\[edit\]', '', item)
def get_list_of_university_towns():
    ....
    uni_towns['State'] = uni_towns['State'].apply(parse_state)
    return uni_towns
Run Code Online (Sandbox Code Playgroud)

此"parse_state(item)"函数仅在"get_list_of_university_towns()"中调用一次,并且将永远不会再次使用.我个人认为在函数内部定义它会更容易理解.但是,我几乎没有在其他人的项目中看到这种代码.

那么,我该如何编写这段代码呢?

python

2
推荐指数
1
解决办法
120
查看次数

如何在matplotlib散点图中隐藏一些点?

import matplotlib.pyplot as plt
import numpy as np
y = np.random.rand(100)
plt.scatter(list(range(100)), y)
Run Code Online (Sandbox Code Playgroud)

上面的推荐将使用matplotlib进行散布。

假设我要隐藏其值小于0.5的点。同时,我应该保持x轴不变。我该怎么办?

python matplotlib

-2
推荐指数
1
解决办法
1696
查看次数

标签 统计

python ×2

apache-spark ×1

matplotlib ×1

scala ×1