标签: foundry-code-repositories

Palantir Foundry 中的transform 和transform_df 有什么区别？

有人可以解释一下为什么我们需要分别使用transform&transform_df方法吗？

palantir-foundry foundry-code-repositories

sum*_*oje

2021 08-12

9
推荐指数

1
解决办法

1275
查看次数

为什么我的构建挂起/需要很长时间才能生成具有许多联合的查询计划？

我注意到当我在这里运行与我的示例相同的代码但使用unionorunionByName或unionAll代替时join，我的查询计划花费的时间要长得多，并且可能导致驱动程序 OOM。

此处包含的代码仅供参考，与for()循环内部发生的情况略有不同。

from pyspark.sql import types as T, functions as F, SparkSession
spark = SparkSession.builder.getOrCreate()

schema = T.StructType([
  T.StructField("col_1", T.IntegerType(), False),
  T.StructField("col_2", T.IntegerType(), False),
  T.StructField("measure_1", T.FloatType(), False),
  T.StructField("measure_2", T.FloatType(), False),
])
data = [
  {"col_1": 1, "col_2": 2, "measure_1": 0.5, "measure_2": 1.5},
  {"col_1": 2, "col_2": 3, "measure_1": 2.5, "measure_2": 3.5}
]

df = spark.createDataFrame(data, schema)

right_schema = T.StructType([
  T.StructField("col_1", T.IntegerType(), False)
])
right_data = …

Run Code Online (Sandbox Code Playgroud)

pyspark palantir-foundry foundry-code-repositories foundry-python-transform

van*_*ser

lucky-day

7
推荐指数

1
解决办法

210
查看次数

代码存储库 - pyspark 中代码存储库的 CTX 到底是什么？

我在代码仓库中看到了 ctx 的使用，这到底是什么？它是内置库吗？我什么时候会使用它？

我在以下示例中看到过它：

df = ctx.spark.createdataframe(...

Run Code Online (Sandbox Code Playgroud)

palantir-foundry foundry-code-repositories

Rob*_*t F

2020 10-14

6
推荐指数

1
解决办法

2934
查看次数

如何从代码存储库找到 Foundry API？

使用 Python 转换等方式从代码存储库访问内部 Foundry API 的正确方法是什么？

palantir-foundry foundry-code-repositories

Adi*_*l B

lucky-day

5
推荐指数

1
解决办法

931
查看次数

如何创建python库以及如何在palantir代工厂中导入它

为了概括 python 函数，我想向 python 库添加函数，以便我可以在多个存储库中使用这些函数。任何人请回答以下问题。

1) 如何创建我们自己的 python 库 2) 如何跨多个存储库导入这些库

conda pyspark palantir-foundry foundry-code-repositories foundry-python-transform

Gav*_* BN

2020 10-13

5
推荐指数

1
解决办法

405
查看次数

如何处理代码存储库中的大文件？

我有一个数据源，每天都会提供一个大的 .txt 文件（50-75GB）。该文件包含多个不同的模式，其中每一行对应一个模式。我想将其拆分为每个模式的分区数据集，如何有效地做到这一点？

palantir-foundry foundry-code-repositories

Geo*_*per

2021 01-28

5
推荐指数

1
解决办法

1236
查看次数

我如何迭代代码存储库中的 json 文件并增量附加到数据集

我已经通过数据连接将一个包含 100,000 个大约 100GB 的原始 json 文件的数据集导入到代工厂中。我想使用Python Transforms raw file access转换来读取文件，将结构和结构的数组展平到数据帧中，作为对 df 的增量更新。我想使用来自 *.json 文件的文档中的以下示例中的内容，并将其转换为使用@incremental()装饰器更新的增量。

>>> import csv
>>> from pyspark.sql import Row
>>> from transforms.api import transform, Input, Output
>>>
>>> @transform(
...     processed=Output('/examples/hair_eye_color_processed'),
...     hair_eye_color=Input('/examples/students_hair_eye_color_csv'),
... )
... def example_computation(hair_eye_color, processed):
...
...    def process_file(file_status):
...        with hair_eye_color.filesystem().open(file_status.path) as f:
...            r = csv.reader(f)
...
...            # Construct a pyspark.Row from our header row
...            header = next(r)
...            MyRow = Row(*header)
...
... …

Run Code Online (Sandbox Code Playgroud)

pyspark palantir-foundry foundry-code-repositories foundry-code-workbooks

Ash*_*her

2021 03-30

5
推荐指数

0
解决办法

285
查看次数

如何在 Palantir Foundry 中联合多个动态输入？

我想在 Palantir Foundry 中合并多个数据集，数据集的名称是动态的，因此我无法静态给出数据集名称transform_df()。有没有一种方法可以动态地将多个输入放入transform_df并合并所有这些数据帧？

我尝试循环数据集，例如：

li = ['dataset1_path', 'dataset2_path']

union_df = None
for p in li:
  @transforms_df(
    my_input = Input(p), 
    Output(p+"_output")
  )
  def my_compute_function(my_input):
    return my_input

  if union_df is None:
    union_df = my_compute_function
  else:
    union_df = union_df.union(my_compute_function)

Run Code Online (Sandbox Code Playgroud)

但是，这不会生成联合输出。

union dynamic pyspark palantir-foundry foundry-code-repositories

Abi*_*ant

2021 08-05

5
推荐指数

1
解决办法

1671
查看次数