小编oku*_*oub的帖子

使用git推送和拉我的conda环境

我的项目有一个git repo。我conda经常更改环境,因此我希望我的仓库可以跟踪环境的变化,并能够推送最新的更新并将其拉入另一台计算机。可能吗?我搜索并找到了几种解决方案(例如https://tdhopper.com/blog/my-python-environment-workflow-with-conda/),但是没有一个提供自动的变更跟踪。

意思是,我想将我在环境中所做的任何更改都包含在项目的存储库中。就像添加新软件包等。这样,当我在另一台计算机上git pull它时,新软件包也将被提取并添加到环境中。

git environment version-control github conda

4
推荐指数
2
解决办法
955
查看次数

pandas.to_csv() 带有一些粗体字

我有数据框

df = [["A1" "B2" "C3"] ["D4" "E5" "F6"]]
Run Code Online (Sandbox Code Playgroud)

(所有文本都是字符串)我想将它保存到一个文件中,并使用df.to_csv()彩色/粗体文本“E5”。可以做到吗?

python excel dataframe python-3.x pandas

3
推荐指数
1
解决办法
2947
查看次数

Yellowbrick 更改图例并添加标题

我用黄砖 RadViz 创建了一个图表:

visualizer = RadViz(classes=labels)
visualizer.fit(X, y) 
visualizer.transform(X)  
visualizer.show()
Run Code Online (Sandbox Code Playgroud)

如您所见,图例覆盖了一些功能名称: 在此处输入图片说明 此外,我想编辑标题。我试过:

visualizer.ax.set_title("new title")
visualizer.fig.legend(bbox_to_anchor=(1.02, 1), loc=0, borderaxespad=0., title = "level")
Run Code Online (Sandbox Code Playgroud)

但是set_title 没有效果。使用fig.legend ,确实创建了一个新图例,但我无法删除原始图例。

怎么做到呢?

python data-visualization matplotlib yellowbrick

3
推荐指数
1
解决办法
662
查看次数

Python 迭代布尔变量的所有可能组合

我的字典中有 6 个布尔变量,我想在所有可能的迭代上运行我的代码。所以我有:

params["is_A"] = True/False
params["is_B"] = True/False
...
Run Code Online (Sandbox Code Playgroud)

然后对于所有可能的组合,我想打电话

my_func(params)
Run Code Online (Sandbox Code Playgroud)

最好的方法是什么?

combinations python-itertools python-3.x

3
推荐指数
1
解决办法
1635
查看次数

如果满足条件,pandas 将值从一列复制到另一列

我有一个数据框:

df = 
col1  col2  col3 
1      2     3
1      4     6
3      7     2
Run Code Online (Sandbox Code Playgroud)

我想编辑df,当 col1 的值小于 2 时,从col3.

所以我会得到:

new_df = 
col1  col2  col3 
3      2     3
6      4     6
3      7     2
Run Code Online (Sandbox Code Playgroud)

我尝试使用assigndf.loc但没有用。

这样做的最佳方法是什么?

python pandas data-science data-munging

3
推荐指数
2
解决办法
4903
查看次数

pandas dataframe删除groupby中超过n行的组

我有一个数据框:

df = [type1 , type2 , type3 , val1, val2, val3
       a       b        q       1    2     3
       a       c        w       3    5     2
       b       c        t       2    9     0
       a       b        p       4    6     7
       a       c        m       2    1     8
       a       b        h       8    6     3
       a       b        e       4    2     7]
Run Code Online (Sandbox Code Playgroud)

我想根据列 type1、type2 应用 groupby 并从数据框中删除超过 2 行的组。所以新的数据框将是:

df = [type1 , type2 , type3 , val1, val2, val3
       a       c        w       3    5     2
       b       c …
Run Code Online (Sandbox Code Playgroud)

python dataframe pandas pandas-groupby

3
推荐指数
1
解决办法
1151
查看次数

在pySpark中使用paramGrid从CrossValidator提取结果

我用pySpark训练了一个随机森林。我想在结果中每个网格点都有一个csv。我的代码是:

estimator = RandomForestRegressor()
evaluator = RegressionEvaluator()
paramGrid = ParamGridBuilder().addGrid(estimator.numTrees, [2,3])\
                              .addGrid(estimator.maxDepth, [2,3])\
                              .addGrid(estimator.impurity, ['variance'])\
                              .addGrid(estimator.featureSubsetStrategy, ['sqrt'])\
                              .build()
pipeline = Pipeline(stages=[estimator])

crossval = CrossValidator(estimator=pipeline,
                          estimatorParamMaps=paramGrid,
                          evaluator=evaluator,
                          numFolds=3)

cvModel = crossval.fit(result)
Run Code Online (Sandbox Code Playgroud)

所以我想要一个csv:

numTrees | maxDepth | impurityMeasure 

2            2          0.001 

2            3          0.00023
Run Code Online (Sandbox Code Playgroud)

等等

做这个的最好方式是什么?

python apache-spark pyspark apache-spark-ml

2
推荐指数
1
解决办法
1093
查看次数

检查语言模型的复杂度

我使用 Keras LSTM 创建了一个语言模型,现在我想评估它是否良好,因此我想计算困惑度。

在 Python 中计算模型的复杂度的最佳方法是什么?

nlp language-model lstm keras perplexity

2
推荐指数
1
解决办法
2070
查看次数

url.parse Python2.7 等效

Python2.7相当于什么

from urllib.parse import urlparse, parse_qs
parsed_url = urlparse(url)
params = parse_qs(parsed_url.query)
Run Code Online (Sandbox Code Playgroud)

我得到

>>> from urllib.parse import urlparse
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ImportError: No module named parse
Run Code Online (Sandbox Code Playgroud)

谢谢!

url urllib url-parsing python-2.7 python-3.x

1
推荐指数
1
解决办法
6889
查看次数

在pySpark中读取本地csv文件(2.3)

我正在使用 pySpark 2.3,尝试读取如下所示的 csv 文件:

0,0.000476517230863068,0.0008178378961061477
1,0.0008506156837329876,0.0008467260987257776
Run Code Online (Sandbox Code Playgroud)

但它不起作用:

from pyspark import sql, SparkConf, SparkContext
print (sc.applicationId)
>> <property at 0x7f47583a5548>
data_rdd = spark.textFile(name=tsv_data_path).filter(x.split(",")[0] != 1)
Run Code Online (Sandbox Code Playgroud)

我收到一个错误:

AttributeError: 'SparkSession' object has no attribute 'textFile'
Run Code Online (Sandbox Code Playgroud)

知道我应该如何在 pySpark 2.3 中阅读它吗?

apache-spark apache-spark-sql pyspark apache-spark-mllib

1
推荐指数
1
解决办法
2万
查看次数