我正在看Oracle中的脚本,我看到了一些我不认识的东西
REM INSERTING into database1."Users"
SET DEFINE OFF;
Insert into database1."Users" ("id","right") values ('1','R');
Run Code Online (Sandbox Code Playgroud)
我正在寻找关于"set define off"的文档,它实际上是在写"禁用解释命令以用它们的值替换替换变量"
我真的不明白他们想说什么.
谁能帮我?
我正在尝试使用 Databricks 中的 Pyspark 实现异常处理,其中我需要检查文件是否存在于源位置中。
df = spark.read.csv.option("inferschema", "true").load("mnt/pnt/abc.csv")
try:
df = open("abc.csv", "rt")
print("File opened")
except FileNotFoundError:
print("File does not exist")
except:
print("Other error")**
Run Code Online (Sandbox Code Playgroud)
我希望有类似上面的代码片段的东西,但是我无法采取这种方法。我想请求一些帮助,我将非常感激
apache-spark apache-spark-sql pyspark databricks azure-databricks
我们正在尝试访问共享点,我们是否成功取决于特定共享点部分是否受“SecureAuth”保护。
如果 url 不受“SecureAuth”保护,程序可以正常工作,但如果此 URL 受“SecureAuth”保护,它会返回此错误。有什么办法可以解决吗?
我们正在使用:
from shareplum import Site
from shareplum import Office365
from shareplum.site import Version
authcookie = Office365(sharepoint_address, username=sharepoint_user,\
password=sharepoint_user_pw).GetCookies()
site = Site(f"https://myWeb.com/sites/{sharepoint_site}/", version=Version.v365, authcookie=authcookie)
folder = site.Folder(sharepoint_folder) # here come the error
Run Code Online (Sandbox Code Playgroud)
取决于 {sharepoint_site} 它的工作与否。
它是相同的错误,但与该主题无关
在将数据帧存储在增量表中时,为我的数据帧寻找有效的分区策略。
我当前的数据帧 1.5000.000 rowa 将数据从数据帧移动到增量表需要 3.5 小时。
为了寻找更有效的方法来完成此写作,我决定尝试表中的不同列作为分区列。我搜索了列的基数并选择了以下列。
column1 = 有 3 个不同值
column2 = 有 7 个不同值
column3 = 有 26 个不同值
column4 = 有 73 个不同值
column5 = 有 143 个不同值
column6 = 有 246 个不同值
column7 = 有 543 个不同值
集群:64GB,8核
在我的笔记本中使用以下代码
df.write.partitionBy("column_1").format("delta").mode("overwrite").save(partition_1)
..
df.write.partitionBy("column_7").format("delta").mode("overwrite").save(partition7)
Run Code Online (Sandbox Code Playgroud)
因此,我想看看哪种分区策略会带来更好的结果:基数高的列、基数低的列或介于两者之间的列。令我惊讶的是,这并没有产生任何影响,因为所有这些都花费了几乎相同的时间,虽然有几分钟的差异,但都+3小时。
为什么我失败了?分区没有优点吗?
Spark内部使用MapReduce吗?(自己的地图缩小)
当我第一次听到有人告诉我“Spark 使用 Map-Reduce”时,我很困惑,我总是知道 Spark 是 Hadoop Map-Reduce 的替代品。
在我检查谷歌后,我发现一个网站对此做了一些太简短的解释: https: //dzone.com/articles/how-does-spark-use-mapreduce
但互联网的其余部分仅比较 Spark 和 Map-Reduce。
然后有人向我解释说,当 Spark 创建 RDD 时,数据会分割到不同的数据集中,如果您使用例如 SPAR.SQL 的查询,则不应是映射缩减,例如:
select student
from Table_students
where name = "Enrique"
Run Code Online (Sandbox Code Playgroud)
Spark 内部正在执行映射缩减来检索数据(来自不同的数据集)。
这是真的 ?
如果我使用 Spark Mlib 来使用机器学习,我总是听说机器学习与 MapReduce 不兼容,因为它需要很多交互,而 MapReduce 使用批处理。
在Spark Mlib中,Spark内部也使用Map reduce吗?
我有以下简单的代码:
declare
var number;
Begin
var := 1;
select * from Table where Table_ID = :var;
end;
Run Code Online (Sandbox Code Playgroud)
执行它,我收到错误
在SELECT语句中需要一个INTO子句
如果我只是输入它...
select * from Table where Table_ID = 1;
Run Code Online (Sandbox Code Playgroud)
...有用!
这个错误来自哪里?为什么我需要一个Into条款?
apache-spark ×2
oracle ×2
databricks ×1
delta-lake ×1
mapreduce ×1
office365 ×1
plsql ×1
pyspark ×1
python ×1
rdd ×1
shareplum ×1
sharepoint ×1
sqlplus ×1