小编Ale*_*rov的帖子

使用模拟获取应用的函数输入数据框

我有以下功能

def main():
    (
        pd.DataFrame({'a': [1, 2, float('NaN')], 'b': [1.0, 2, 3]})
        .dropna(subset=['a'])
        .assign(
            b=lambda x: x['b'] * 2
        )
        .apply(do_something_with_each_row, axis='columns')
    )

def do_something_with_each_row(one_row):
    # do_something_with_row
    print(one_row)

Run Code Online (Sandbox Code Playgroud)

在我的测试中，我想查看在所有链接操作之后构建的数据框，并在调用do_something_with_each_row. 最后一个函数不返回数据帧（它只是迭代所有行，类似于iterrow）。

我试图apply像这样模拟这个函数：

# need pytest-mock and pytest
import pandas as pd


def test_not_working(mocker):
    mocked_apply = mocker.patch.object(pd.Dataframe, 'apply')
    main()

Run Code Online (Sandbox Code Playgroud)

但在这种情况下，我无法访问输入到的数据帧apply以测试其内容。

我还试图嘲笑do_something_with_each_row：

# need pytest-mock and pytest
import pandas as pd


def test_not_working_again(mocker):
    mocked_to_something = mocker.patch('path.to.file.do_something_with_each_row')
    main()

Run Code Online (Sandbox Code Playgroud)

但这次我有所有带有行参数的调用，但它们都有None值。

我如何获取apply调用函数的数据帧并检查它是否确实与以下内容相同： …

pytest python-3.x pandas pytest-mock

ndc*_*clt

2020 06-29

8
推荐指数

1
解决办法

325
查看次数

在pyspark中高效地以分布式方式生成大型DataFrame（无需pyspark.sql.Row）

问题归结为以下几点：我想使用现有的并行输入集合和一个函数在 pyspark 中生成一个 DataFrame，该函数给定一个输入可以生成一批相对较大的行。在下面的示例中，我想使用 1000 个执行器生成 10^12 行数据帧：

def generate_data(one_integer):
  import numpy as np
  from pyspark.sql import Row
  M = 10000000 # number of values to generate per seed, e.g. 10M
  np.random.seed(one_integer)
  np_array = np.random.random_sample(M) # generates an array of M random values
  row_type = Row("seed", "n", "x")
  return [row_type(one_integer, i, float(np_array[i])) for i in range(M)]

N = 100000 # number of seeds to try, e.g. 100K
list_of_integers = [i for i in range(N)]
list_of_integers_rdd = spark.sparkContext.parallelize(list_of_integers)
row_rdd = list_of_integers_rdd.flatMap(list_of_integers_rdd) …

Run Code Online (Sandbox Code Playgroud)

apache-spark pyspark apache-arrow pyarrow

Ale*_*rov

2020 05-28

5
推荐指数

1
解决办法

5417
查看次数