我在Mac OS上运行,cassandra -f并且立即发生这种情况:
[0.002s][warning][gc] -Xloggc is deprecated. Will use -Xlog:gc:/usr/local/apache-cassandra-3.0.10/logs/gc.log instead.
Unrecognized VM option 'UseParNewGC'
Error: Could not create the Java Virtual Machine.
Error: A fatal exception has occurred. Program will exit.```
Run Code Online (Sandbox Code Playgroud)
我不知道为什么会这样。我做了适当的
export CASSANDRA_HOME=/usr/local/apache-cassandra-3.0.10
export PATH=$PATH:$CASSANDRA_HOME/bin
Run Code Online (Sandbox Code Playgroud)
但仍然无法正常工作。
我的Java版本有问题吗?如何进行Cassandra的全新安装/使它正常工作?
我目前有一个查询,可以提供每个标签的计数:
g.V().group().by(label).by(count())
然而,这会导致每个标签都有一列。我想投影两列“实体类型”和“计数”并计算每个标签的数量。到目前为止,这就是我所拥有的一切,但它是不正确的:
g.V().project('Entity Type','Count')
.by(label)
.by(groupCount())
Run Code Online (Sandbox Code Playgroud) 我正在尝试使用文档提供的示例代码将 Spark 数据帧转换为增量格式,但总是收到这个奇怪的错误。您能帮忙或指导一下吗?
df_sdf.write.format("delta").save("/mnt/.../delta/")
Run Code Online (Sandbox Code Playgroud)
错误看起来像:
org.apache.spark.SparkException: Job aborted.
--------------------------------------------------------------------------- Py4JJavaError Traceback (most recent call last) <command-3011941952225495> in <module> ----> 1 df_sdf.write.format("delta").save("/mnt/.../delta/") /databricks/spark/python/pyspark/sql/readwriter.py in save(self, path, format, mode, partitionBy, **options) 737 self._jwrite.save() 738 else: --> 739 self._jwrite.save(path) 740 741 @since(1.4)
/databricks/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py in call(self, *args) 1255 answer = self.gateway_client.send_command(command) 1256 return_value = get_return_value( -> 1257 answer, self.gateway_client, self.target_id, self.name) 1258 1259 for temp_arg in temp_args:
/databricks/spark/python/pyspark/sql/utils.py in deco(a, *kw)
Run Code Online (Sandbox Code Playgroud) 我正在使用 AWS keyspaces 并尝试从 C# 插入数据,但收到此错误。“此操作不支持一致性级别 LOCAL_ONE。支持的一致性级别为:LOCAL_QUORUM”。有人可以帮忙吗?
AWS密钥空间
CREATE KEYSPACE IF NOT EXISTS "DevOps"
WITH REPLICATION={'class': 'SingleRegionStrategy'} ;
Run Code Online (Sandbox Code Playgroud)
桌子
CREATE TABLE IF NOT EXISTS "DevOps"."projectdetails" (
"id" UUID PRIMARY KEY,
"name" text,
"lastupdatedtime" timestamp,
"baname" text,
"customerid" UUID)
Run Code Online (Sandbox Code Playgroud)
C# 代码
public async Task AddRecord(List<projectdetails> projectDetails)
{
try
{
if (projectDetails.Count > 0)
{
foreach (var item in projectDetails)
{
projectdetails projectData = new projectdetails();
projectData.id = item.id;
projectData.name = item.name;
projectData.baname = "Vishal";
projectData.lastupdatedtime = item.lastupdatedtime;
projectData.customerid = 1;
await …Run Code Online (Sandbox Code Playgroud) 我在注册 java 文件中的一些 udf 时遇到问题。我有几种方法,但它们都会返回:
无法执行用户定义的函数(UDFRegistration$$Lambda$6068/1550981127: (double, double) => double)
首先我尝试了这种方法:
from pyspark.context import SparkContext, SparkConf
from pyspark.sql import SparkSession
from pyspark.sql.types import *
conf=SparkConf()
conf.set('spark.driver.extraClassPath', 'dbfs:/FileStore/jars/4b129434_12cd_4f2a_ab27_baaefe904857-scala_udf_similarity_0_0_7-35e3b.jar')
conf.set('spark.jars', 'dbfs:/FileStore/jars/4b129434_12cd_4f2a_ab27_baaefe904857-scala_udf_similarity_0_0_7-35e3b.jar')
spark = SparkSession(sc)
sc = SparkContext.getOrCreate(conf=conf)
#spark.sparkContext.addPyFile("dbfs:/FileStore/jars/4b129434_12cd_4f2a_ab27_baaefe904857-scala_udf_similarity_0_0_7-35e3b.jar")
udfs = [
('jaro_winkler_sim', 'JaroWinklerSimilarity',DoubleType()),
('jaccard_sim', 'JaccardSimilarity',DoubleType()),
('cosine_distance', 'CosineDistance',DoubleType()),
('Dmetaphone', 'DoubleMetaphone',StringType()),
('QgramTokeniser', 'QgramTokeniser',StringType())
]
for a,b,c in udfs:
spark.udf.registerJavaFunction(a, 'uk.gov.moj.dash.linkage.'+ b, c)
linker = Splink(settings, spark, df_l=df_l, df_r=df_r)
df_e = linker.get_scored_comparisons()
Run Code Online (Sandbox Code Playgroud)
接下来我尝试将 jar 和 extraClassPath 移动到集群配置。
spark.jars dbfs:/FileStore/jars/4b129434_12cd_4f2a_ab27_baaefe904857-scala_udf_similarity_0_0_7-35e3b.jar
spark.driver.extraClassPath dbfs:/FileStore/jars/4b129434_12cd_4f2a_ab27_baaefe904857-scala_udf_similarity_0_0_7-35e3b.jar
Run Code Online (Sandbox Code Playgroud)
我将它们注册到我的脚本中,如下所示:
from pyspark.context import …Run Code Online (Sandbox Code Playgroud) 我有一个笔记本,它将处理该文件并以结构化格式创建数据框。现在我需要导入在另一个笔记本中创建的数据框,但问题是在运行笔记本之前我需要验证仅适用于我需要运行的某些场景。
通常要导入所有数据结构,我们使用%run。但就我而言,它应该是 if 子句和 then notebook run 的组合
if "dataset" in path": %run ntbk_path
它给出错误“路径不存在”
if "dataset" in path": dbutils.notebook.run(ntbk_path)
这个我无法获得所有的数据结构。
有人可以帮我解决这个错误吗?
我意识到 Databricks 集群有超时,这意味着 N 分钟后它将关闭集群。这是一个示例。
尽管这个功能很好,但它并不是我们所需要的。我们的团队工作日从上午 8 点工作到下午 6 点。我们希望集群能够在上午 8 点自动启动,在工作时间内保持“始终开启”状态,然后在下午 6 点之后超时。合理?
问:这可能吗?
假设我有一个流数据帧,并且我正在将其写入 Databricks Delta Lake:
someStreamingDf.writeStream
.format("delta")
.outputMode("append")
.start("targetPath")
Run Code Online (Sandbox Code Playgroud)
然后从中创建一个增量表:
spark.sql("CREATE TABLE <TBL_NAME> USING DELTA LOCATION '<targetPath>'
TBLPROPERTIES ('delta.autoOptimize.optimizeWrite'=true)")
Run Code Online (Sandbox Code Playgroud)
失败了AnalysisException: The specified properties do not match the existing properties at <targetPath>。
我知道我可以预先创建一个表:
CREATE TABLE <TBL_NAME> (
//columns
)
USING DELTA LOCATION "< targetPath >"
TBLPROPERTIES (
"delta.autoOptimize.optimizeWrite" = true,
....
)
Run Code Online (Sandbox Code Playgroud)
然后就写入它,但是使用所有列及其类型编写此 SQL 看起来像是一些额外/不必要的工作。那么有没有办法在写入增量表(第一次)时而不是事先指定这些 TBLPROPERTIES?
apache-spark databricks spark-structured-streaming delta-lake
正如标题所述,是否能够object definition使用 Databricks 查询视图SQL,特别是对于 Azure Databricks?
就像使用 SQL Server 时一样,我可以使用函数OBJECT_DEFINITION或存储过程查询视图定义以sp_helptext显示.SELECT statementViews
我查遍了互联网,没有找到对此进行解释的人。也许没有选择?
谢谢。
我正在使用 Azure DevOps 存储库将 Azure databricks 连接到我在 DevOps 中的存储库。我需要从 Azure DevOps 管道自动拉取。为此,我尝试使用 databricks API 进行拉取,但参考此链接,没有拉取方法。
按照说明并查看 swagger ,唯一可用的方法是:
有没有办法通过 API 或 CLI 或任何其他方式以编程方式拉取?如果是,怎么办?
databricks ×6
apache-spark ×3
pyspark ×3
cassandra ×2
delta-lake ×2
azure ×1
gremlin ×1
java ×1
orientdb ×1