小编Has*_*han的帖子

无事实事实和事实表有什么区别?

无事实事实和事实表之间的确切区别是什么?我已经阅读了几篇文章,但它们并不令人信服

data-modeling data-warehouse star-schema datamart dimensional-modeling

3
推荐指数
1
解决办法
2783
查看次数

如何在 Spark SQL 中访问 python 变量?

我在 Azure Databricks 中的 jupyter 笔记本文件中的 %python 下创建了 python 变量。如何访问相同的变量以在 %sql 下进行比较。下面是示例:

%python

RunID_Goal = sqlContext.sql("SELECT CONCAT(SUBSTRING(RunID,1,6),SUBSTRING(RunID,1,6),'01_') 
FROM RunID_Pace").first()[0] 
AS RunID_Goal
Run Code Online (Sandbox Code Playgroud)
%sql
SELECT Type , KPIDate, Value
FROM table
WHERE
RunID = RunID_Goal (This is the variable created under %python and want to compare over here)
Run Code Online (Sandbox Code Playgroud)

当我运行此命令时,它会抛出错误: SQL 语句中的错误: AnalysisException:无法解析RunID_Goal给定输入列的“ ”:我是新的 azure databricks 和 Spark sql 任何形式的帮助将不胜感激。

apache-spark apache-spark-sql pyspark databricks azure-databricks

2
推荐指数
1
解决办法
8743
查看次数

尽管对目标变量和特征变量进行了标签编码,但创建混淆矩阵时出错

创建混淆矩阵时,我反复遇到此错误。我的特征变量以及目标变量都被labelEncoded编码,但是仍然不知道为什么它会产生此错误。

错误: C:\ Users \ Strat Com \ PycharmProjects \ IGN Review \ venv \ lib \ site-packages \ sklearn \ metrics \ classification.py:261:FutureWarning:逐元素比较失败;而是返回标量,但将来将执行元素比较

ValueError:至少一个指定的标签必须在y_true中

注意:随附说明代码和数据集。使用Windows 10并在Jupyter Notebook上运行所有这些代码

数据集链接

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

DataFrame=pd.read_csv("DataSet.txt",sep='\t',low_memory=False,skip_blank_lines=True)        # Loading the data into the Data Frame
DataFrame=DataFrame.dropna(how='all')
half_count=len(DataFrame)/2
DataFrame=DataFrame.dropna(thresh=half_count,axis=1)                                        # Dropping any column with more than 50% missing …
Run Code Online (Sandbox Code Playgroud)

machine-learning python-3.x confusion-matrix scikit-learn

1
推荐指数
1
解决办法
690
查看次数

matplotlib 中绘图的 z 顺序

我使用 matplotlib.axes.Axes.twinx 在 matplotlib 中为两者共享一个 x 轴。我无法使用 zorder 对图进行排序。我想要的是绘制线图,其中 ax1 位于前面,条形 grpah 与 ax2 位于后面。

我知道有一个相关的问题,但实际上没有多大帮助。相关问题

数据集链接 在此输入图像描述

%matplotlib inline
import matplotlib.pyplot  as plt
import pandas as pd
import numpy as np
dataFrame=pd.read_csv("NEM.csv",sep=',')
dataFrame['ratio']=dataFrame['Expert']/dataFrame['Novice']


fig, ax1 = plt.subplots(figsize=(9, 6))
ax1.set_title('N-E Analysis')
xticklabels=dataFrame['Task'].tolist()

ax1.plot('Novice', data=dataFrame, marker='', color='dodgerblue', linewidth=2,label='Novice',zorder=3)
ax1.plot('Expert', data=dataFrame, marker='', color='darkorange', linewidth=2,label='Expert',zorder=2)

plt.ylim(0,120)

ax2 = ax1.twinx()

ax2.bar('Task','ratio', data=dataFrame, color='gray',width=0.35,label='NE',zorder=0)


ax1.spines['top'].set_visible(False)
ax1.spines['right'].set_visible(False)
ax1.spines['left'].set_visible(False)

ax2.spines['top'].set_visible(False)
ax2.spines['right'].set_visible(False)
ax2.spines['left'].set_visible(False)


ax1.set_xticklabels(xticklabels, rotation = 45, ha="right")
ax1.yaxis.grid()
ax1.tick_params(left='off',bottom='off')
ax2.tick_params(right='off')
plt.ylim(0,12)

h1, l1 = ax1.get_legend_handles_labels()
h2, l2 …
Run Code Online (Sandbox Code Playgroud)

numpy matplotlib python-3.x pandas

0
推荐指数
1
解决办法
3143
查看次数