标签: databricks

将常量值列添加到spark数据帧

我在Databricks中使用Spark 2.1版.我有一个数据框wamp,我想要添加一个名为的列region,该列应该采用常量值NE.但是,NameError: name 'lit' is not defined当我运行以下命令时出现错误:

wamp = wamp.withColumn('region', lit('NE'))

Run Code Online (Sandbox Code Playgroud)

我究竟做错了什么？

apache-spark pyspark databricks

Gau*_*sal

lucky-day

6
推荐指数

1
解决办法

1万
查看次数

使用标头和特定文件名将spark数据帧导出到.csv

我正在尝试将数据从spark数据帧导出到.csv文件:

df.coalesce(1)\
  .write\
  .format("com.databricks.spark.csv")\
  .option("header", "true")\
  .save(output_path)

Run Code Online (Sandbox Code Playgroud)

它正在创建一个文件名"part-r-00001-512872f2-9b51-46c5-b0ee-31d626063571.csv"

我希望文件名为"part-r-00000.csv"或"part-00000.csv"

在AWS S3上创建文件时,我对如何使用os.system命令的限制.

如何在保留文件中的标题的同时设置文件名？

谢谢!

python export-to-csv apache-spark pyspark databricks

Nar*_*h Y

2018 12-28

6
推荐指数

1
解决办法

7291
查看次数

使用Databricks Connect时如何在Scala中正确访问dbutils

我正在使用Databricks Connect从IntelliJ IDEA（Scala）在本地Azure Databricks群集中运行代码。

一切正常。我可以在IDE中本地连接，调试和检查。

我创建了一个Databricks作业来运行我的自定义应用程序JAR，但由于以下异常而失败：

19/08/17 19:20:26 ERROR Uncaught throwable from user code: java.lang.NoClassDefFoundError: com/databricks/service/DBUtils$
at Main$.<init>(Main.scala:30)
at Main$.<clinit>(Main.scala)

Run Code Online (Sandbox Code Playgroud)

我的Main.scala类的第30行是

val dbutils: DBUtils.type = com.databricks.service.DBUtils

Run Code Online (Sandbox Code Playgroud)

就像本文档页面上的描述一样

该页面显示了一种访问在本地和群集中均可使用的DBUtil的方法。但是该示例仅显示了Python，而我正在使用Scala。

以既可以使用databricks-connect在本地工作又可以在运行JAR的Databricks作业中工作的方式访问它的正确方法是什么？

更新

似乎有两种使用DBUtils的方法。

1）这里描述的DbUtils类。引用文档，此库允许您构建和编译项目，但不能运行它。这不允许您在集群上运行本地代码。

2）此处描述了 Databricks Connect 。这使您可以在Databricks集群中运行本地Spark代码。

问题在于这两种方法具有不同的设置和程序包名称。似乎没有一种在本地使用Databricks Connect的方法（在群集中不可用），但是随后通过sbt / maven添加了使用DbUtils类的jar应用程序，以便群集可以访问它。

scala databricks azure-databricks databricks-connect dbutils

emz*_*ero

2019 11-25

6
推荐指数

2
解决办法

125
查看次数

将 DataFrame 从 Azure Databricks 笔记本写入 Azure DataLake Gen2 表

我创建了一个 DataFrame，我想将其写入/导出到表中的 Azure DataLake Gen2 旁边（需要为此创建新表）。

将来我还需要使用新的 DataFrame 更新此 Azure DL Gen2 表。

在 Azure Databricks 中，我创建了一个连接 Azure Databricks -> Azure DataLake 来查看我的文件：

感谢如何在 Spark / pyspark 中编写它的帮助。

谢谢你！

azure apache-spark pyspark databricks

cin*_*n21

lucky-day

5
推荐指数

1
解决办法

9242
查看次数

Hyperopt Spark 3.0 问题

我正在运行运行时 8.1（包括 Apache Spark 3.1.1、Scala 2.12），试图让 hyperopt 按定义工作

https://docs.databricks.com/applications/machine-learning/automl-hyperparam-tuning/hyperopt-spark-mlflow-integration.html

py4j.Py4JException: Method maxNumConcurrentTasks([]) does not exist

Run Code Online (Sandbox Code Playgroud)

当我尝试

spark_trials = SparkTrials()

Run Code Online (Sandbox Code Playgroud)

我需要做什么特别的事情才能使其正常工作吗？

这是我正在使用的集群

{
    "autoscale": {
        "min_workers": 1,
        "max_workers": 2
    },
    "cluster_name": "mlops_tiny_ml",
    "spark_version": "8.2.x-cpu-ml-scala2.12",
    "spark_conf": {},
    "aws_attributes": {
        "first_on_demand": 1,
        "availability": "SPOT_WITH_FALLBACK",
        "zone_id": "us-west-2b",
        "instance_profile_arn": "arn:aws:iam::112437402463:instance-profile/databricks_instance_role_s3",
        "spot_bid_price_percent": 100,
        "ebs_volume_type": "GENERAL_PURPOSE_SSD",
        "ebs_volume_count": 3,
        "ebs_volume_size": 100
    },
    "node_type_id": "m4.large",
    "driver_node_type_id": "m4.large",
    "ssh_public_keys": [],
    "custom_tags": {},
    "spark_env_vars": {},
    "autotermination_minutes": 120,
    "enable_elastic_disk": false,
    "cluster_source": "UI",
    "init_scripts": [],
    "cluster_id": "0xxxxxt404"
}

Run Code Online (Sandbox Code Playgroud)

这是我正在使用的代码 https://docs.databricks.com/applications/machine-learning/automl-hyperparam-tuning/hyperopt-model-selection.html

apache-spark databricks hyperopt

Bri*_*ian

2021 05-06

5
推荐指数

1
解决办法

1219
查看次数

Databricks Job API 使用单节点集群创建作业

我试图找出为什么在使用 Databricks Job API 时出现以下错误。

{ "error_code": "INVALID_PARAMETER_VALUE", "message": "集群验证错误：缺少必填字段：settings.cluster_spec.new_cluster.size" }

我做了什么：

我使用 Databricks UI 创建了一个在单节点集群上运行的作业。
我从 UI 复制并粘贴了作业配置 json。
我删除了我的作业，并尝试通过使用作业 API 发送 POST 以及复制的 json 来重新创建它，如下所示：

{
    "new_cluster": {
        "spark_version": "7.5.x-scala2.12",
        "spark_conf": {
            "spark.master": "local[*]",
            "spark.databricks.cluster.profile": "singleNode"
        },
        "azure_attributes": {
            "availability": "ON_DEMAND_AZURE",
            "first_on_demand": 1,
            "spot_bid_max_price": -1
        },
        "node_type_id": "Standard_DS3_v2",
        "driver_node_type_id": "Standard_DS3_v2",
        "custom_tags": {
            "ResourceClass": "SingleNode"
        },
        "enable_elastic_disk": true
    },
    "libraries": [
        {
            "pypi": {
                "package": "koalas==1.5.0"
            }
        }
    ],
    "notebook_task": {
        "notebook_path": "/pathtoNotebook/TheNotebook",
        "base_parameters": {
            "param1": "test"
           
        }
    }, …

Run Code Online (Sandbox Code Playgroud)

api jobs cluster-computing apache-spark databricks

use*_*972

lucky-day

5
推荐指数

1
解决办法

4012
查看次数

Databricks (Spark SQL) 表的索引

对 Databricks 中的索引如何工作感到好奇。您能否将分区视为索引，因为它有效地将数据组织在分组的子类别中？

indexing apache-spark-sql databricks delta-lake

bey*_*tdr

2021 05-05

5
推荐指数

1
解决办法

9968
查看次数

Pandas：写入 Excel 在 Databricks 中不起作用

我试图将 parquet 文件转换为 Excel 文件。但是，当我尝试使用 pandas 或openpyxl引擎这样做时，它显示“ Operation not supported”错误。但是，我可以使用databricks 中的openpyxl引擎读取 excel 文件。

在阅读以下代码时，它正在工作：

xlfile = '/dbfs/mnt/raw/BOMFILE.xlsx'
tmp_csv = '/dbfs/mnt/trusted/BOMFILE.csv'
pdf = pd.DataFrame(pd.read_excel(xlfile, engine='openpyxl'))
pdf.to_csv (tmp_csv, index = None, header=True)

Run Code Online (Sandbox Code Playgroud)

但是，当我尝试使用 openpyxl 和 xlswriter 编写相同的内容时，它不起作用：

parq = '/mnt/raw/PRODUCT.parquet'
final = '/dbfs/mnt/trusted/PRODUCT.xlsx'
df = spark.read.format("parquet").option("header", "true").load(parq)
pandas_df = df.toPandas()
pandas_df.to_excel(final, engine='openpyxl')
#pandas_df.to_excel(outfile, engine='xlsxwriter')#, sheet_name=tbl)

Run Code Online (Sandbox Code Playgroud)

我得到的错误：

FileCreateError: [Errno 95] Operation not supported

OSError: [Errno 95] Operation not supported
During handling of the above exception, another exception occurred: …

Run Code Online (Sandbox Code Playgroud)

python pandas xlsxwriter databricks azure-databricks

Ari*_*dal

2021 07-13

5
推荐指数

1
解决办法

1万
查看次数

如何将 Delta Lake 元数据引入 Amundsen 数据发现引擎？

我已经设置了 Amundsen，并且 UI 工作正常。我正在尝试运行其存储库中的示例中给出的示例 Delta Lake 加载程序。

"""
This is a example script for extracting Delta Lake Metadata Results
"""

from pyhocon import ConfigFactory
from pyspark.sql import SparkSession

from databuilder.extractor.delta_lake_metadata_extractor import DeltaLakeMetadataExtractor
from databuilder.job.job import DefaultJob
from databuilder.loader.file_system_neo4j_csv_loader import FsNeo4jCSVLoader
from databuilder.models.table_metadata import DESCRIPTION_NODE_LABEL
from databuilder.publisher import neo4j_csv_publisher
from databuilder.publisher.neo4j_csv_publisher import Neo4jCsvPublisher
from databuilder.task.task import DefaultTask

# NEO4J cluster endpoints
NEO4J_ENDPOINT = 'bolt://localhost:7687/'

neo4j_endpoint = NEO4J_ENDPOINT

neo4j_user = 'neo4j'
neo4j_password = 'test'
cluster_key = 'my_delta_environment'
database = 'delta'
# Or …

Run Code Online (Sandbox Code Playgroud)

python apache-spark databricks delta-lake

Pra*_*ria

2021 10-28

5
推荐指数

1
解决办法

722
查看次数