小编Mar*_*zas的帖子

如何在 Seaborn 图中设置色调顺序

我有一个 Pandas 数据集,名为titanic我正在绘制条形图,如 Seaborn 官方文档中所述,使用以下代码:

import seaborn as sns

titanic = sns.load_dataset("titanic")
sns.catplot(x="sex", y="survived", hue="class", kind="bar", data=titanic)
Run Code Online (Sandbox Code Playgroud)

这会产生以下图:

按类别划分的条形图

如您所见,色调由 表示class。如何手动选择色调顺序以便反转当前色调顺序?

python bar-chart pandas hue seaborn

24
推荐指数
1
解决办法
5万
查看次数

如何使用 Google Colab 处理本地文件?

我有一个 Jupyter 笔记本,并且编写了处理数据的代码。现在我想使用 Google Colab,因为它的 GPU 计算能力,所以我需要从 Colab 读取和写入计算机中的本地文件。我不想使用以下命令手动选择文件:

from google.colab import files
uploaded = files.upload()
Run Code Online (Sandbox Code Playgroud)

在此链接中提到,将出现“选择文件”弹出窗口,我希望自动执行此操作。让我澄清一下:
我在下面的代码中从本地文件读取数据:

# Reading the csv file and convert it to a dataframe using pandas library
train_set = pd.read_csv('Datasets/train.csv')
Run Code Online (Sandbox Code Playgroud)

然后我对每个处理数据并将结果输出到另一个文件中。为此,我需要打开一个文件,读取其中的内容(即我创建的输出文件的版本),然后保存输出文件:

output_version = open('OutputVersion','r+')
version = output_version.read()

training_set.to_csv('Datasets/training_set_processed_{}.csv'.format(version))
Run Code Online (Sandbox Code Playgroud)

因此,我必须自动从 Colab 读取、操作和写入本地存储中的文件。我怎样才能做到这一点?我已阅读本手册,但我无法理解。再说一次,我不想要弹出“选择文件”对话框。

提前致谢

local-storage python-3.x jupyter-notebook google-colaboratory

7
推荐指数
1
解决办法
2万
查看次数

在 Google Colab 上安装 google Drive

我按照 google colab 上的 Medium 教程中给出的步骤进行操作,然后尝试克隆 git 存储库,但我在驱动器中的任何位置都看不到该存储库。

下图是我使用的代码片段,与 Medium 教程中的代码片段完全相同:
我使用的代码片段与 Medium 教程中的代码片段完全相同

如何在 Google Colab 中添加 Google 云端硬盘的路径?

google-colaboratory

5
推荐指数
2
解决办法
2万
查看次数

如何使用 pyspark 计算两个 ArrayType 列之间的按元素乘法

我正在尝试计算 Pyspark 数据框中两个 ArrayType 列之间的按元素乘积。我尝试使用下面的方法来实现这一点,但似乎无法得到正确的结果......

from pyspark.sql import functions as F

data.withColumn("array_product", F.expr("transform(CASUAL_TOPS_SIMILARITY_SCORE, (x, PER_UNA_SIMILARITY_SCORE) -> x * PER_UNA_SIMILARITY_SCORE)"))
Run Code Online (Sandbox Code Playgroud)

有人对我如何在这里获得正确的结果有任何提示吗?我在下面的 DataFrame 中附加了一个测试行...我需要将列CASUAL_TOPS_SIMILARITY_SCOREPER_UNA_SIMILARITY_SCORE

import json 
from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local").appName("test").getOrCreate()

js = '{"PER_UNA_SIMILARITY_SCORE":{"category_list":[0.9736891648,0.9242207186,0.9717901106,0.9763716155,0.9440944231,0.9708032326,0.9599383329,0.9705343027,0.804267581,0.9597317177,0.9316773281,0.8076725314,0.9555369889,0.9753550725,0.9811865431,1.0,0.8231541809,0.9738989392,0.9780283991,0.9644088011,0.9798529418,0.9347357116,0.9727502648,0.9778486916,0.8621780792,0.9735844196,0.9582644436,0.9579092722,0.8890027888,0.9394986243,0.9563411605,0.9811867597,0.9738380108,0.9577698381,0.7912932623,0.9778158279]},"CASUAL_TOPS_SIMILARITY_SCORE":{"category_list":[0.7924168764,0.7511316884,0.7925161719,0.8007234107,0.7953468064,0.7882556409,0.7778519374,0.7881058994,1.0,0.7785517364,0.7733458123,0.7426205538,0.7905195275,0.7925983778,0.7983386701,0.804267581,0.6749185095,0.7924821952,0.8016348085,0.7895650508,0.7985721918,0.772656847,0.7897495222,0.7948759958,0.6996340275,0.8024327668,0.7784598142,0.7942396044,0.7159431296,0.7850145414,0.7768001023,0.7983372946,0.7971616495,0.7927845035,0.6462844274,0.799555357]}}'

a_json = json.loads(js)

data = spark.createDataFrame(pd.DataFrame.from_dict(a_json))
Run Code Online (Sandbox Code Playgroud)

python apache-spark-sql pyspark

0
推荐指数
1
解决办法
1255
查看次数