小编Hor*_*aje的帖子

PySpark:从另一个笔记本导入变量时如何抑制 PySpark 单元中的 %run 输出?

我在 PySpark 中使用多个笔记本,并使用%run path. 每次运行该命令时,我在原始笔记本中显示的所有变量都会在当前笔记本(我运行的笔记本)中再次显示。但我不希望它们显示在当前笔记本中。我只想能够使用导入的变量。如何抑制每次显示的输出?请注意,我不确定这是否重要,但我在 DataBricks 工作。谢谢你!

命令示例:

%run /Users/myemail/Nodebook
Run Code Online (Sandbox Code Playgroud)

python import pyspark jupyter-notebook databricks

11
推荐指数
1
解决办法
6818
查看次数

无法加载类型 Microsoft.Azure.WebJobs.ParameterBindingData

我目前正在 VS Code 中开发 Azure 函数。我遇到了一个错误,该错误已在此 GitHub问题中报告。错误全文如下:Microsoft.Azure.WebJobs.Extensions.ServiceBus: Could not load type 'Microsoft.Azure.WebJobs.ParameterBindingData' from assembly 'Microsoft.Azure.WebJobs, Version=3.0.34.0, Culture=neutral, PublicKeyToken=****'. Value cannot be null. (Parameter 'provider')

建议的解决方案之一是降级Microsoft.Azure.WebJobs.Extensions.Storage. 但是,我不知道如何从扩展包降级包。在我的本地开发环境中,我使用以下默认host.json配置:

{
  "version": "2.0",
  "logging": {
    "applicationInsights": {
      "samplingSettings": {
        "isEnabled": true,
        "excludedTypes": "Request"
      }
    }
  },
  "extensionBundle": {
    "id": "Microsoft.Azure.Functions.ExtensionBundle",
    "version": "[3.15.0, 4.0.0)"
  }
}
Run Code Online (Sandbox Code Playgroud)

我已经尝试了多个版本范围,每个版本范围都会导致相同的错误。由于我不熟悉.NET,因此我希望获得有关如何降级软件包以解决此问题的任何帮助或建议。谢谢。

附加信息: 我正在使用测试触发器在本地开发 EventHub 触发函数:

@app.function_name(name="EventHubTrigger1")
@app.event_hub_message_trigger(arg_name="myhub", event_hub_name="samples-workitems",
                               connection="") 

def test_function(myhub: func.EventHubEvent):
    logging.info('Python EventHub trigger processed an event: %s',
                myhub.get_body().decode('utf-8')) …
Run Code Online (Sandbox Code Playgroud)

azure azure-functions azure-functions-core-tools

8
推荐指数
2
解决办法
1万
查看次数

PySpark:如何将 GitHub 库导入到 Databricks 中?

我想在 Databricks: iForest中使用这个库进行异常检测。这个库无法通过 PyPi 安装。

如何在 Databricks 中安装来自 GitHub 的库?我读到有关使用称为“鸡蛋”的东西,但我不太明白应该如何使用它。

import installation github pyspark databricks

4
推荐指数
1
解决办法
7726
查看次数

如何计算 Pyspark 中 None 或 NaN 值的百分比?

我在 PySpark 中有一个更大的数据集,想要计算每列 None/NaN 值的百分比并将其存储在另一个名为 Percentage_missing 的数据框中。例如,如果以下是输入数据帧:

df = sc.parallelize([
    (0.4, 0.3),
    (None, None),
    (9.7, None), 
    (None, None)
]).toDF(["A", "B"])
Run Code Online (Sandbox Code Playgroud)

我希望输出是一个数据框,其中“A”列包含值 0.5,“B”列包含值 0.75。

我正在寻找这样的东西:

for column_ in my_columns:
  amount_missing = df[df[column_] == None].count().div(len(df)) * 100
Run Code Online (Sandbox Code Playgroud)

如果有一个库具有执行此操作的功能,我也很乐意使用它。

python data-processing apache-spark data-cleaning pyspark

3
推荐指数
1
解决办法
1万
查看次数

如何旋转带注释的 Seaborn 热图数据和图例?

我创建了一个seaborn 热图来总结Teils_U 系数。数据在热图中水平显示。现在,我想旋转数据和图例。我知道您可以在图中旋转 x 轴和 y 轴标签,但如何旋转数据和图例?

这是我的代码:

#creates padnas dataframe to hold the values
theilu = pd.DataFrame(index=['Y'],columns=matrix.columns)
#store column names in variable columns
columns = matrix.columns

#iterate through each variable
for j in range(0,len(columns)):
    #call teil_u function on "ziped" independant and dependant variable -> respectivley x & y in the functions section
    u = theil_u(matrix['Y'].tolist(),matrix[columns[j]].tolist())
    #select respecive columns needed for output
    theilu.loc[:,columns[j]] = u
    #handle nans if any  
    theilu.fillna(value=np.nan,inplace=True)

 #plot correlation between fraud reported (y) and all other variables …
Run Code Online (Sandbox Code Playgroud)

python plot matplotlib heatmap seaborn

3
推荐指数
1
解决办法
8174
查看次数

如何根据条件在 pandas 数据帧上应用字符串拆分方法?

我想替换数据框中以错误格式输入的一些值。例如,850/07-498745 应为 07-498745。现在,我成功地使用了字符串分割来做到这一点。但是,它将所有先前格式正确的字符串转换为 NaN。我尝试根据条件进行判断,但仍然遇到同样的问题。我该如何解决它?

输入示例:

mylist = ['850/07-498745', '850/07-148465', '07-499015']
df = pd.DataFrame(mylist)
df.rename(columns={ df.columns[0]: "mycolumn" }, inplace = True)
Run Code Online (Sandbox Code Playgroud)

我的尝试:

df['mycolumn'] = df[df.mycolumn.str.contains('/') == True].mycolumn.str.split('/', 1).str[1]
df
Run Code Online (Sandbox Code Playgroud)

输出:

在此输入图像描述

我想要什么:

在此输入图像描述

python string split pandas data-cleaning

2
推荐指数
1
解决办法
3111
查看次数