小编oku_oub的帖子

使用git推送和拉我的conda环境

我的项目有一个git repo。我conda经常更改环境，因此我希望我的仓库可以跟踪环境的变化，并能够推送最新的更新并将其拉入另一台计算机。可能吗？我搜索并找到了几种解决方案（例如https://tdhopper.com/blog/my-python-environment-workflow-with-conda/），但是没有一个提供自动的变更跟踪。

意思是，我想将我在环境中所做的任何更改都包含在项目的存储库中。就像添加新软件包等。这样，当我在另一台计算机上git pull它时，新软件包也将被提取并添加到环境中。

git environment version-control github conda

4
推荐指数

2
解决办法

955
查看次数

pandas.to_csv() 带有一些粗体字

我有数据框

df = [["A1" "B2" "C3"] ["D4" "E5" "F6"]]

Run Code Online (Sandbox Code Playgroud)

（所有文本都是字符串）我想将它保存到一个文件中，并使用df.to_csv()彩色/粗体文本“E5”。可以做到吗？

python excel dataframe python-3.x pandas

3
推荐指数

1
解决办法

2947
查看次数

Yellowbrick 更改图例并添加标题

我用黄砖 RadViz 创建了一个图表：

visualizer = RadViz(classes=labels)
visualizer.fit(X, y) 
visualizer.transform(X)  
visualizer.show()

Run Code Online (Sandbox Code Playgroud)

如您所见，图例覆盖了一些功能名称：此外，我想编辑标题。我试过：

visualizer.ax.set_title("new title")
visualizer.fig.legend(bbox_to_anchor=(1.02, 1), loc=0, borderaxespad=0., title = "level")

Run Code Online (Sandbox Code Playgroud)

但是set_title 没有效果。使用fig.legend ，确实创建了一个新图例，但我无法删除原始图例。

怎么做到呢？

python data-visualization matplotlib yellowbrick

3
推荐指数

1
解决办法

662
查看次数

Python 迭代布尔变量的所有可能组合

我的字典中有 6 个布尔变量，我想在所有可能的迭代上运行我的代码。所以我有：

params["is_A"] = True/False
params["is_B"] = True/False
...

Run Code Online (Sandbox Code Playgroud)

然后对于所有可能的组合，我想打电话

my_func(params)

Run Code Online (Sandbox Code Playgroud)

最好的方法是什么？

combinations python-itertools python-3.x

3
推荐指数

1
解决办法

1635
查看次数

如果满足条件，pandas 将值从一列复制到另一列

我有一个数据框：

df = 
col1  col2  col3 
1      2     3
1      4     6
3      7     2

Run Code Online (Sandbox Code Playgroud)

我想编辑df，当 col1 的值小于 2 时，从col3.

所以我会得到：

new_df = 
col1  col2  col3 
3      2     3
6      4     6
3      7     2

Run Code Online (Sandbox Code Playgroud)

我尝试使用assign，df.loc但没有用。

这样做的最佳方法是什么？

python pandas data-science data-munging

3
推荐指数

2
解决办法

4903
查看次数

pandas dataframe删除groupby中超过n行的组

我有一个数据框：

df = [type1 , type2 , type3 , val1, val2, val3
       a       b        q       1    2     3
       a       c        w       3    5     2
       b       c        t       2    9     0
       a       b        p       4    6     7
       a       c        m       2    1     8
       a       b        h       8    6     3
       a       b        e       4    2     7]

Run Code Online (Sandbox Code Playgroud)

我想根据列 type1、type2 应用 groupby 并从数据框中删除超过 2 行的组。所以新的数据框将是：

df = [type1 , type2 , type3 , val1, val2, val3
       a       c        w       3    5     2
       b       c …

Run Code Online (Sandbox Code Playgroud)

python dataframe pandas pandas-groupby

3
推荐指数

1
解决办法

1151
查看次数

在pySpark中使用paramGrid从CrossValidator提取结果

我用pySpark训练了一个随机森林。我想在结果中每个网格点都有一个csv。我的代码是：

estimator = RandomForestRegressor()
evaluator = RegressionEvaluator()
paramGrid = ParamGridBuilder().addGrid(estimator.numTrees, [2,3])\
                              .addGrid(estimator.maxDepth, [2,3])\
                              .addGrid(estimator.impurity, ['variance'])\
                              .addGrid(estimator.featureSubsetStrategy, ['sqrt'])\
                              .build()
pipeline = Pipeline(stages=[estimator])

crossval = CrossValidator(estimator=pipeline,
                          estimatorParamMaps=paramGrid,
                          evaluator=evaluator,
                          numFolds=3)

cvModel = crossval.fit(result)

Run Code Online (Sandbox Code Playgroud)

所以我想要一个csv：

numTrees | maxDepth | impurityMeasure 

2            2          0.001 

2            3          0.00023

Run Code Online (Sandbox Code Playgroud)

等等

做这个的最好方式是什么？

python apache-spark pyspark apache-spark-ml

2
推荐指数

1
解决办法

1093
查看次数

检查语言模型的复杂度

我使用 Keras LSTM 创建了一个语言模型，现在我想评估它是否良好，因此我想计算困惑度。

在 Python 中计算模型的复杂度的最佳方法是什么？

nlp language-model lstm keras perplexity

2
推荐指数

1
解决办法

2070
查看次数

url.parse Python2.7 等效

Python2.7相当于什么

from urllib.parse import urlparse, parse_qs
parsed_url = urlparse(url)
params = parse_qs(parsed_url.query)

Run Code Online (Sandbox Code Playgroud)

我得到

>>> from urllib.parse import urlparse
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ImportError: No module named parse

Run Code Online (Sandbox Code Playgroud)

谢谢！

url urllib url-parsing python-2.7 python-3.x

1
推荐指数

1
解决办法

6889
查看次数

在pySpark中读取本地csv文件（2.3）

我正在使用 pySpark 2.3，尝试读取如下所示的 csv 文件：

0,0.000476517230863068,0.0008178378961061477
1,0.0008506156837329876,0.0008467260987257776

Run Code Online (Sandbox Code Playgroud)

但它不起作用：

from pyspark import sql, SparkConf, SparkContext
print (sc.applicationId)
>> <property at 0x7f47583a5548>
data_rdd = spark.textFile(name=tsv_data_path).filter(x.split(",")[0] != 1)

Run Code Online (Sandbox Code Playgroud)

我收到一个错误：

AttributeError: 'SparkSession' object has no attribute 'textFile'

Run Code Online (Sandbox Code Playgroud)

知道我应该如何在 pySpark 2.3 中阅读它吗？

apache-spark apache-spark-sql pyspark apache-spark-mllib

1
推荐指数

1
解决办法

2万
查看次数

标签统计

apache-spark ×2

apache-spark-ml ×1

apache-spark-mllib ×1

apache-spark-sql ×1

combinations ×1

data-munging ×1

data-science ×1

data-visualization ×1

environment ×1

git ×1

language-model ×1

lstm ×1

nlp ×1

pandas-groupby ×1

python-itertools ×1

url ×1

url-parsing ×1

version-control ×1

yellowbrick ×1

«
1
2
»