我无法在任何地方找到如何更改seaborn散点图上的标记大小.文档中size列出了一个选项,但它仅适用于需要跨点的可变大小的情况.我希望所有点的大小相同,但大于默认值!
我尝试在我的数据框中创建一个新的整数列,并将其设置为大小,但看起来实际值无关紧要,它会在相对基础上更改标记大小,因此在这种情况下,所有标记仍然是与默认大小相同.
编辑:这是一些代码
ax = sns.scatterplot(x="Data Set Description", y="R Squared", data=mean_df)
plt.show()
Run Code Online (Sandbox Code Playgroud)
我只是尝试了一些它有效,但不确定它是否是最好的方法.我添加了size = [1,1,1,1,1,1]和sizes =(500,500).所以基本上我将所有尺寸设置为相同,尺寸范围仅为500.
是否可以在没有交叉验证的情况下使用GridSearchCV?我试图通过网格搜索优化KMeans集群中的集群数量,因此我不需要或不需要交叉验证.
该文件还困惑我因为根据拟合()方法,它有监督学习的一个选项(说,使用无,无监督学习).但是如果你想进行无监督学习,你需要在没有交叉验证的情况下进行,并且似乎没有选择去除交叉验证.
python optimization cluster-analysis machine-learning scikit-learn
我正在使用sklearn包中的LogisticRegression,并且有一个关于分类的快速问题.我为我的分类器建立了一条ROC曲线,结果证明我的训练数据的最佳阈值大约为0.25.我假设创建预测时的默认阈值是0.5.如何进行10倍交叉验证时,如何更改此默认设置以了解模型的准确度?基本上,我希望我的模型能够为大于0.25但不是0.5的任何人预测"1".我一直在查看所有文档,我似乎无法到达任何地方.
在此先感谢您的帮助.
我正在尝试在两个数字(下限和上限)之间创建一个均匀分布,以便将它提供给sklearn的ParameterSampler.我使用以下格式的scipy.stats.uniform:
from scipy.stats import uniform
params = ParameterSampler({'bandwidth':uniform(5,50)}, 20)
Run Code Online (Sandbox Code Playgroud)
但是当我得到'bandwidth'参数的随机选择时,它们并不都在5到50之间.它们中的一些比50大一些.所以我的问题是scipy.stats.uniform中的参数代表什么?它们不是下限和上限吗?文档没有显示任何参数,所以我无法从中找出答案.
Scikit-Learn 的IsolationForest类有一个方法decision_function可以返回输入样本的异常分数。但是,文档并没有说明这些分数的可能范围是多少,只说明“[分数]越低,越不正常”。
编辑:阅读 jmunsch 的评论后,我再次查看了源代码,这是我更新的猜测:如果分数公式中的指数始终为负,则分数将始终介于 0 和 1 之间,这意味着返回的范围是 [- 0.5, 0.5] 因为0.5 - scores由该方法返回。但我不确定指数是否总是负数。
我心里有一些事情困扰着我。运行时,我会看到Docker 环境中的本地docker images映像列表。拉取图像时,我从注册表中拉取它,更具体地说,拉取存储库管理的指定标签。
但那是什么docker images?它也是一个注册表,不是吗?它保存了我在本地构建或拉取的所有图像。
如果我的主张有效:
它如何符合运行私有注册表(此处提到https://docs.docker.com/registry/deploying/)
运行这个docker run -d -p 5000:5000 --restart=always --name registry registry:2
会将这个新注册表部署到我的docker images...
所以现在我的注册表中有一个注册表... registception?除了可部署自定义注册表之外,还有什么区别?
我正在尝试做的简化示例:
假设我有 3 个数据点 A、B 和 C。我对这些数据运行 KMeans 聚类并得到 2 个集群[(A,B),(C)]。然后我对这些数据运行 MeanShift 聚类并得到 2 个集群[(A),(B,C)]。很明显,这两种聚类方法以不同的方式对数据进行了聚类。我希望能够量化这种差异。换句话说,我可以使用什么指标来确定从两种算法获得的两个集群分组之间的相似度/重叠百分比?以下是可能给出的一系列分数:
[(A,B),(C)]vs. 100% 得分[(A,B),(C)][(A,B),(C)]VS得分约 50%[(A),(B,C)][(A,B),(C)]对比[(A,B,C)]这些分数有点随意,因为我不确定如何衡量两个不同集群分组之间的相似性。请记住,这是一个简化的示例,在实际应用程序中,您可以拥有许多数据点,并且每个集群分组也可以有 2 个以上的集群。在尝试将集群分组与标记的数据分组进行比较时(当您有标记的数据时),拥有这样的指标也很有用。
编辑:我的一个想法是取第一个集群分组中的每个集群,并获得与第二个集群分组中的每个集群的重叠百分比。这将为您提供第一个集群分组中的集群与第二个集群分组中的集群的相似性矩阵。但是我不确定你会用这个矩阵做什么。也许在每一行或每一列中取最高的相似度分数并用它做点什么?
我正在编写一个自定义损失函数,需要计算每组预测值的比率。作为一个简化的例子,这里是我的数据和模型代码的样子:
def main():
df = pd.DataFrame(columns=["feature_1", "feature_2", "condition_1", "condition_2", "label"],
data=[[5, 10, "a", "1", 0],
[30, 20, "a", "1", 1],
[50, 40, "a", "1", 0],
[15, 20, "a", "2", 0],
[25, 30, "b", "2", 1],
[35, 40, "b", "1", 0],
[10, 80, "b", "1", 1]])
features = ["feature_1", "feature_2"]
conds_and_label = ["condition_1", "condition_2", "label"]
X = df[features]
Y = df[conds_and_label]
model = my_model(input_shape=len(features))
model.fit(X, Y, epochs=10, batch_size=128)
model.evaluate(X, Y)
def custom_loss(conditions, y_pred): # this is what I need …Run Code Online (Sandbox Code Playgroud) 我试图使我的git仓库pip可安装。为此,我正在重组仓库以遵循正确的约定。通过查看其他存储库,我的理解是,我应该将所有源代码放在与存储库名称同名的程序包中。例如,如果调用了我的存储库myrepo,则源代码将全部放入一个也称为的包中myrepo。
我的存储库中带有连字符以提高可读性:例如my-repo。因此,如果我想为其包装一个相同的名称,则其中也将带有连字符。在本教程中,它对python软件包名称说“不要使用连字符”。但是,我已经看到了完善的软件包,例如scikit-learn名称中带有连字符的软件包。我注意到的一件事是,在存储scikit-learn库中,程序包名称与存储库名称不同,而是将其称为sklearn。
我认为以上讨论可以归结为以下问题:
scikit-learn是sklearn,那么安装它pip install scikit-learn而不是我怎么办pip install sklearn?我有一个来自导入到我的 Jupyter Notebook 中的包的函数。函数内部是一个打印 Pandas Dataframe 的 print 语句。假设我无法(或不想)更改我正在导入的函数的代码。有没有办法让打印的 Pandas Dataframe 不包裹在 Jupyter 输出单元中?即如何使其打印在一行上,以便我可以从左向右滚动?
我知道使用 Jupyter 的显示函数而不是 print ,但问题是 print 语句位于我正在导入的包中,我无法更改包代码。
我搜索了这个网站,谷歌和pycharm的网站.我无法弄清楚如何在Pycharm中查看分支的本地提交历史记录.
编辑:我使用的是最新版本的Pycharm for Mac和Git for VCS.
python ×9
scikit-learn ×5
commit ×1
docker ×1
k-means ×1
keras ×1
matplotlib ×1
optimization ×1
package ×1
pandas ×1
pip ×1
printing ×1
pycharm ×1
pypi ×1
regression ×1
scipy ×1
seaborn ×1
similarity ×1
tensorflow ×1