手动创建一个 pyspark 数据框

我正在尝试根据某些数据手动创建一个 pyspark 数据框：

row_in=[(1566429545575348),(40.353977),(-111.701859)]
rdd=sc.parallelize(row_in)
schema = StructType([StructField("time_epocs", DecimalType(),    True),StructField("lat", DecimalType(),True),StructField("long", DecimalType(),True)])
df_in_test=spark.createDataFrame(rdd,schema)

Run Code Online (Sandbox Code Playgroud)

当我尝试显示数据框时，这会出错，因此我不确定如何执行此操作。

但是，Spark 文档在这里对我来说似乎有点复杂，当我尝试按照这些说明进行操作时，我遇到了类似的错误。

有谁知道如何做到这一点？

pyspark pyspark-dataframes

Jos*_*osh

2020 07-26

21
推荐指数

3
解决办法

7万
查看次数

我正在使用 SentenceTransformers 库（此处： https: //pypi.org/project/sentence-transformers/#pretrained-models）使用预训练模型创建句子的嵌入bert-base-nli-mean-tokens。我有一个应用程序将部署到无法访问互联网的设备。如何在本地保存此模型，以便当我调用它时，它会在本地加载模型，而不是尝试从互联网下载？正如库维护人员明确指出的那样，该方法SentenceTransformer从互联网下载模型（请参见此处：https: //pypi.org/project/sentence-transformers/#pretrained-models），并且我找不到在本地保存模型的方法。

python-3.x word-embedding

Jos*_*osh

lucky-day

9
推荐指数

2
解决办法

2万
查看次数

R 中的函数别名

我正在尝试为 R 中的函数创建别名。

例如，要获取 R 中向量的长度：

length(the_vector)
#returns the length of the vector

Run Code Online (Sandbox Code Playgroud)

我想创建一个名为“len”的函数的别名：

len(the_vector)
#will also return the length of the vector

Run Code Online (Sandbox Code Playgroud)

有没有办法做到这一点？我想要的关键点是我希望别名能够采用原始函数可以采用的所有参数，并且别名不会替换原始函数。（即在上面的示例中，调用length(the_vector)或len(the_vector)会提供相同的结果？

alias r

Jos*_*osh

lucky-day

6
推荐指数

1
解决办法

1505
查看次数

使用棉花糖序列化应用 JSON 模式

我正在使用 Marshmallow 对 JSON 字符串进行序列化和反序列化。从 Marshmallow API Docs ( https://marshmallow.readthedocs.io/en/3.0/api_reference.html ) 看来，您已经指定了一个字段列表（并且，除非使用Meta）它们的数据类型。例如：

Marital_Status=Fields.Str()
Employer=Fields.Str()
ContactInfo(data) #where ContactInfo is a class not shown here

Run Code Online (Sandbox Code Playgroud)

但是，我已经有一个 JSON 模式来指定字段和数据类型。例如：

the_template_schema={

"definitions": {},
"$schema": "http://json-schema.org/draft-07/schema#",
"$id": "http://example.com/root.json",
"type": "object",
"title": "The Root Schema",
"properties": {
 "Marital_Status": {
  "$id": "#/properties/Marital_Status",
  "type": "string",
  "title": "The Marital_status Schema",
  "default": "",
  "examples": [
    "Married"
  ],
  "pattern": "^(.*)$"
}
"Employer": {
  "$id": "#/properties/Employer",
  "type": "string",
  "title": "The Employer Schema",
  "default": "",
  "examples": [
    "Roivant"
  ],
  "pattern": "^(.*)$" …

Run Code Online (Sandbox Code Playgroud)

json marshmallow

Jos*_*osh

2019 01-18

6
推荐指数

1
解决办法

6509
查看次数

Pyspark Dataframes 作为视图

对于我正在运行的脚本，我有一堆链式视图，用于查看 sql 中的一组特定数据（我正在使用 Apache Spark SQL）：

%sql
create view view_1 as
select column_1,column_2 from original_data_table

Run Code Online (Sandbox Code Playgroud)

这个逻辑最终达到了view_n。然而，我随后需要执行在 sql 中难以（或不可能）实现的逻辑，具体来说，命令explode：

%python
df_1 = sqlContext.sql("SELECT * from view_n")
df1_exploded=df_1.withColumn("exploded_column", explode(split(df_1f.col_to_explode,',')))

Run Code Online (Sandbox Code Playgroud)

我的问题：

在 sql 表和 pyspark 数据帧之间切换是否存在速度成本？或者，由于 pyspark 数据帧是延迟评估的，它与视图非常相似吗？
有没有更好的方法从 sql 表切换到 pyspark 数据帧？

sql view apache-spark-sql pyspark

Jos*_*osh

lucky-day

3
推荐指数

1
解决办法

2万
查看次数

标签统计

pyspark ×2

alias ×1

apache-spark-sql ×1

json ×1

marshmallow ×1

pyspark-dataframes ×1

python-3.x ×1

r ×1

sql ×1

view ×1

word-embedding ×1

小编Jos_osh的帖子

手动创建一个 pyspark 数据框

在本地下载预训练的 BERT 模型

R 中的函数别名

使用棉花糖序列化应用 JSON 模式

Pyspark Dataframes 作为视图

我的问题：

标签统计

小编Jos*_*osh的帖子

手动创建一个 pyspark 数据框

在本地下载预训练的 BERT 模型

R 中的函数别名

使用棉花糖序列化应用 JSON 模式

Pyspark Dataframes 作为视图

我的问题：

标签 统计

小编Jos_osh的帖子

标签统计