我的项目有一个git repo。我conda经常更改环境,因此我希望我的仓库可以跟踪环境的变化,并能够推送最新的更新并将其拉入另一台计算机。可能吗?我搜索并找到了几种解决方案(例如https://tdhopper.com/blog/my-python-environment-workflow-with-conda/),但是没有一个提供自动的变更跟踪。
意思是,我想将我在环境中所做的任何更改都包含在项目的存储库中。就像添加新软件包等。这样,当我在另一台计算机上git pull它时,新软件包也将被提取并添加到环境中。
我有数据框
df = [["A1" "B2" "C3"] ["D4" "E5" "F6"]]
Run Code Online (Sandbox Code Playgroud)
(所有文本都是字符串)我想将它保存到一个文件中,并使用df.to_csv()彩色/粗体文本“E5”。可以做到吗?
我用黄砖 RadViz 创建了一个图表:
visualizer = RadViz(classes=labels)
visualizer.fit(X, y)
visualizer.transform(X)
visualizer.show()
Run Code Online (Sandbox Code Playgroud)
如您所见,图例覆盖了一些功能名称:
此外,我想编辑标题。我试过:
visualizer.ax.set_title("new title")
visualizer.fig.legend(bbox_to_anchor=(1.02, 1), loc=0, borderaxespad=0., title = "level")
Run Code Online (Sandbox Code Playgroud)
但是set_title 没有效果。使用fig.legend
,确实创建了一个新图例,但我无法删除原始图例。
怎么做到呢?
我的字典中有 6 个布尔变量,我想在所有可能的迭代上运行我的代码。所以我有:
params["is_A"] = True/False
params["is_B"] = True/False
...
Run Code Online (Sandbox Code Playgroud)
然后对于所有可能的组合,我想打电话
my_func(params)
Run Code Online (Sandbox Code Playgroud)
最好的方法是什么?
我有一个数据框:
df =
col1 col2 col3
1 2 3
1 4 6
3 7 2
Run Code Online (Sandbox Code Playgroud)
我想编辑df,当 col1 的值小于 2 时,从col3.
所以我会得到:
new_df =
col1 col2 col3
3 2 3
6 4 6
3 7 2
Run Code Online (Sandbox Code Playgroud)
我尝试使用assign,df.loc但没有用。
这样做的最佳方法是什么?
我有一个数据框:
df = [type1 , type2 , type3 , val1, val2, val3
a b q 1 2 3
a c w 3 5 2
b c t 2 9 0
a b p 4 6 7
a c m 2 1 8
a b h 8 6 3
a b e 4 2 7]
Run Code Online (Sandbox Code Playgroud)
我想根据列 type1、type2 应用 groupby 并从数据框中删除超过 2 行的组。所以新的数据框将是:
df = [type1 , type2 , type3 , val1, val2, val3
a c w 3 5 2
b c …Run Code Online (Sandbox Code Playgroud) 我用pySpark训练了一个随机森林。我想在结果中每个网格点都有一个csv。我的代码是:
estimator = RandomForestRegressor()
evaluator = RegressionEvaluator()
paramGrid = ParamGridBuilder().addGrid(estimator.numTrees, [2,3])\
.addGrid(estimator.maxDepth, [2,3])\
.addGrid(estimator.impurity, ['variance'])\
.addGrid(estimator.featureSubsetStrategy, ['sqrt'])\
.build()
pipeline = Pipeline(stages=[estimator])
crossval = CrossValidator(estimator=pipeline,
estimatorParamMaps=paramGrid,
evaluator=evaluator,
numFolds=3)
cvModel = crossval.fit(result)
Run Code Online (Sandbox Code Playgroud)
所以我想要一个csv:
numTrees | maxDepth | impurityMeasure
2 2 0.001
2 3 0.00023
Run Code Online (Sandbox Code Playgroud)
等等
做这个的最好方式是什么?
我使用 Keras LSTM 创建了一个语言模型,现在我想评估它是否良好,因此我想计算困惑度。
在 Python 中计算模型的复杂度的最佳方法是什么?
Python2.7相当于什么
from urllib.parse import urlparse, parse_qs
parsed_url = urlparse(url)
params = parse_qs(parsed_url.query)
Run Code Online (Sandbox Code Playgroud)
我得到
>>> from urllib.parse import urlparse
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
ImportError: No module named parse
Run Code Online (Sandbox Code Playgroud)
谢谢!
我正在使用 pySpark 2.3,尝试读取如下所示的 csv 文件:
0,0.000476517230863068,0.0008178378961061477
1,0.0008506156837329876,0.0008467260987257776
Run Code Online (Sandbox Code Playgroud)
但它不起作用:
from pyspark import sql, SparkConf, SparkContext
print (sc.applicationId)
>> <property at 0x7f47583a5548>
data_rdd = spark.textFile(name=tsv_data_path).filter(x.split(",")[0] != 1)
Run Code Online (Sandbox Code Playgroud)
我收到一个错误:
AttributeError: 'SparkSession' object has no attribute 'textFile'
Run Code Online (Sandbox Code Playgroud)
知道我应该如何在 pySpark 2.3 中阅读它吗?
python ×5
pandas ×3
python-3.x ×3
apache-spark ×2
dataframe ×2
pyspark ×2
combinations ×1
conda ×1
data-munging ×1
data-science ×1
environment ×1
excel ×1
git ×1
github ×1
keras ×1
lstm ×1
matplotlib ×1
nlp ×1
perplexity ×1
python-2.7 ×1
url ×1
url-parsing ×1
urllib ×1
yellowbrick ×1