小编mak*_*kis的帖子

余弦相似度和余弦距离的区别

它看起来像 scipy.spatial.distance.cdist 余弦相似距离:

链接到 cos 距离 1

1 - u*v/(||u||||v||)
Run Code Online (Sandbox Code Playgroud)

与 sklearn.metrics.pairwise.cosine_similarity 不同,后者是

cos相似度2的链接

 u*v/||u||||v||
Run Code Online (Sandbox Code Playgroud)

有人知道不同定义的原因吗?

python scipy cosine-similarity scikit-learn

12
推荐指数
1
解决办法
9263
查看次数

将numpy int和float数组相乘:无法从dtype转换ufunc multiply输出

我想将一个int16数组乘以一个float数组,并使用自动舍入,但这会失败:

import numpy

A = numpy.array([1, 2, 3, 4], dtype=numpy.int16)
B = numpy.array([0.5, 2.1, 3, 4], dtype=numpy.float64)

A *= B
Run Code Online (Sandbox Code Playgroud)

我明白了:

TypeError:无法使用强制转换规则'same_kind'将dtype('float64')的ufunc乘法输出转换为dtype('int16')

python arrays floating-point int numpy

11
推荐指数
2
解决办法
1万
查看次数

Pandas 和 JSON ValueError:数组的长度必须相同

我正在尝试制作一个简单的应用程序,从歌曲中获取歌词并保存它们,我正在使用lyricgenius创建一个包含我请求的歌曲歌词的 JSON 文件,但是,我不知道如何解析 JSON 文件中的数据。我尝试按照教程进行操作,但是当我开始使用 Pandas 时遇到错误。

创建 JSON 文件的代码

import lyricsgenius as genius
import os

os.getcwd()

geniusCreds = "qlDFcHWqCRpSfq0pVTctt1ZhDc4wHF6lpP5WGODh4iVQB7yTPn7Hw6SjWAFiCdxa"
artist_name = "Steely Dan"

api = genius.Genius(geniusCreds)
artist = api.search_artist(artist_name, max_songs=3)

artist.save_lyrics()
Run Code Online (Sandbox Code Playgroud)

从 JSON 文件读取数据的代码

import pandas as pd
import os


Artist = pd.read_json("Lyrics_SteelyDan.json")

df = pd.DataFrame.from_dict(Artist['songs'])

df.head
Run Code Online (Sandbox Code Playgroud)

每当我运行上面的代码时,我都会收到错误,任何有关如何修复错误或更好的方法来解析数据的帮助将不胜感激,谢谢。

 "c:/Users/Admin/Desktop/Steely Dan/Data.py"
Traceback (most recent call last):
  File "c:/Users/Admin/Desktop/Steely Dan/Data.py", line 5, in <module>
    Artist = pd.read_json("Lyrics_SteelyDan.json")
  File "C:\Users\Admin\AppData\Local\Programs\Python\Python37-32\lib\site-packages\pandas\io\json\_json.py", line 592, in read_json
    result = json_reader.read()
  File …
Run Code Online (Sandbox Code Playgroud)

python json python-3.x pandas

11
推荐指数
1
解决办法
3万
查看次数

绘制PCA载荷并在sklearn中的双标图中加载(如R的自动绘图)

我在Rw /中看到了这个教程autoplot.他们绘制了负载和加载标签:

autoplot(prcomp(df), data = iris, colour = 'Species',
         loadings = TRUE, loadings.colour = 'blue',
         loadings.label = TRUE, loadings.label.size = 3)
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述 https://cran.r-project.org/web/packages/ggfortify/vignettes/plot_pca.html

我更喜欢Python 3w/matplotlib, scikit-learn, and pandas进行数据分析.但是,我不知道如何添加这些?

你怎么能用这些载体绘制matplotlib

我一直在阅读使用sklearn在PCA中恢复explain_variance_ratio_的功能名称,但尚未弄清楚

这是我如何绘制它 Python

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn import decomposition
import seaborn as sns; sns.set_style("whitegrid", {'axes.grid' : False})

%matplotlib inline
np.random.seed(0)

# Iris …
Run Code Online (Sandbox Code Playgroud)

python pca dimensionality-reduction scikit-learn biplot

10
推荐指数
3
解决办法
1万
查看次数

在Python中计算规范化的互相关

在参考Chelton(1983)后,我一直在努力计算两对向量(x和y)的自由度,这是:

根据切尔顿(1983)的自由度

并且我找不到使用np.correlate计算归一化互相关函数的正确方法,我总是得到一个不在-1,1之间的输出.

为了计算两个向量的自由度,有没有简单的方法来对互相关函数进行归一化?

python numpy correlation cross-correlation

10
推荐指数
2
解决办法
7636
查看次数

如何保存 GridSearchCV 对象?

最近,我一直致力于应用网格搜索交叉验证(sklearn GridSearchCV)在带有 Tensorflow 后端的 Keras 中进行超参数调整。调整我的模型后,我试图保存 GridSearchCV 对象以备后用,但没有成功。

超参数调整如下:

x_train, x_val, y_train, y_val = train_test_split(NN_input, NN_target, train_size = 0.85, random_state = 4)

history = History() 
kfold = 10


regressor = KerasRegressor(build_fn = create_keras_model, epochs = 100, batch_size=1000, verbose=1)

neurons = np.arange(10,101,10) 
hidden_layers = [1,2]
optimizer = ['adam','sgd']
activation = ['relu'] 
dropout = [0.1] 

parameters = dict(neurons = neurons,
                  hidden_layers = hidden_layers,
                  optimizer = optimizer,
                  activation = activation,
                  dropout = dropout)

gs = GridSearchCV(estimator = regressor,
                  param_grid = parameters,
                  scoring='mean_squared_error',
                  n_jobs …
Run Code Online (Sandbox Code Playgroud)

python save scikit-learn keras grid-search

9
推荐指数
2
解决办法
9871
查看次数

用python igraph绘制社区

g在python-igraph中有一个图形.我可以通过VertexCluster以下方式获得社区结构:

community = g.community_multilevel()
Run Code Online (Sandbox Code Playgroud)

community.membership 给我一个图表中所有顶点的组成员资格列表.

我的问题非常简单,但我还没有找到特定于python的答案.如何使用其社区结构的可视化绘制图形?最好是PDF,所以像

layout = g.layout("kk")
plot(g, "graph.pdf", layout=layout) # Community detection?
Run Code Online (Sandbox Code Playgroud)

非常感谢.

python modularity graph decomposition igraph

7
推荐指数
3
解决办法
8073
查看次数

使用HOSVD分解sktensor/scikit-tensor中张量的重建

我目前正在分解像[用户,项目,标签] =评级这样的三维张量.我在python中使用sktensor库进行分解.对于前者

T = np.zeros((3, 4, 2))
T[:, :, 0] = [[ 1,  4,  7, 10], [ 2,  5,  8, 11], [3,  6,  9, 12]]
T[:, :, 1] = [[13, 16, 19, 22], [14, 17, 20, 23], [15, 18, 21, 24]]
T = dtensor(T) 
Y = hooi(T, [2, 3, 1], init='nvecs')
Run Code Online (Sandbox Code Playgroud)

现在实际上函数hooi正在返回以及如何从那个重构张量?

python tensor scikit-tensor

7
推荐指数
1
解决办法
881
查看次数

ValueError:标签数为1。使用Silhouette_score时,有效值为2到n_samples-1(包括1)

silhouette score当我找到要创建的最佳群集数时,我正在尝试进行计算,但是出现错误消息:

ValueError: Number of labels is 1. Valid values are 2 to n_samples - 1 (inclusive)
Run Code Online (Sandbox Code Playgroud)

我无法理解其原因。这是我用来聚类和计算的代码silhouette score

我阅读了包含要聚类的文本的csv,并K-Meansn聚类值上运行。我收到此错误的原因可能是什么?

  #Create cluster using K-Means
#Only creates graph
import matplotlib
#matplotlib.use('Agg')
import re
import os
import nltk, math, codecs
import csv
from nltk.corpus import stopwords
from gensim.models import Doc2Vec
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.metrics import silhouette_score

model_name = checkpoint_save_path
loaded_model = Doc2Vec.load(model_name)

#Load the test …
Run Code Online (Sandbox Code Playgroud)

python machine-learning k-means pandas scikit-learn

7
推荐指数
1
解决办法
4280
查看次数

如何在 sklearn Python 中绘制 SVM 决策边界?

将 SVM 与 sklearn 库一起使用,我想用每个标签表示其颜色来绘制数据。我不想给点着色,而是用颜色填充区域。

我现在有了 :

d_pred, d_train_std, d_test_std, l_train, l_test
Run Code Online (Sandbox Code Playgroud)

d_pred 是预测的标签。我会用 d_train_std 绘制 d_pred,形状为:(70000,2),其中 X 轴是第一列,Y 轴是第二列。

谢谢你。

python plot svm svc scikit-learn

7
推荐指数
1
解决办法
1万
查看次数