它看起来像 scipy.spatial.distance.cdist 余弦相似距离:
1 - u*v/(||u||||v||)
Run Code Online (Sandbox Code Playgroud)
与 sklearn.metrics.pairwise.cosine_similarity 不同,后者是
u*v/||u||||v||
Run Code Online (Sandbox Code Playgroud)
有人知道不同定义的原因吗?
我想将一个int16数组乘以一个float数组,并使用自动舍入,但这会失败:
import numpy
A = numpy.array([1, 2, 3, 4], dtype=numpy.int16)
B = numpy.array([0.5, 2.1, 3, 4], dtype=numpy.float64)
A *= B
Run Code Online (Sandbox Code Playgroud)
我明白了:
TypeError:无法使用强制转换规则'same_kind'将dtype('float64')的ufunc乘法输出转换为dtype('int16')
我正在尝试制作一个简单的应用程序,从歌曲中获取歌词并保存它们,我正在使用lyricgenius创建一个包含我请求的歌曲歌词的 JSON 文件,但是,我不知道如何解析 JSON 文件中的数据。我尝试按照本教程进行操作,但是当我开始使用 Pandas 时遇到错误。
创建 JSON 文件的代码
import lyricsgenius as genius
import os
os.getcwd()
geniusCreds = "qlDFcHWqCRpSfq0pVTctt1ZhDc4wHF6lpP5WGODh4iVQB7yTPn7Hw6SjWAFiCdxa"
artist_name = "Steely Dan"
api = genius.Genius(geniusCreds)
artist = api.search_artist(artist_name, max_songs=3)
artist.save_lyrics()
Run Code Online (Sandbox Code Playgroud)
从 JSON 文件读取数据的代码
import pandas as pd
import os
Artist = pd.read_json("Lyrics_SteelyDan.json")
df = pd.DataFrame.from_dict(Artist['songs'])
df.head
Run Code Online (Sandbox Code Playgroud)
每当我运行上面的代码时,我都会收到错误,任何有关如何修复错误或更好的方法来解析数据的帮助将不胜感激,谢谢。
"c:/Users/Admin/Desktop/Steely Dan/Data.py"
Traceback (most recent call last):
File "c:/Users/Admin/Desktop/Steely Dan/Data.py", line 5, in <module>
Artist = pd.read_json("Lyrics_SteelyDan.json")
File "C:\Users\Admin\AppData\Local\Programs\Python\Python37-32\lib\site-packages\pandas\io\json\_json.py", line 592, in read_json
result = json_reader.read()
File …Run Code Online (Sandbox Code Playgroud) 我在Rw /中看到了这个教程autoplot.他们绘制了负载和加载标签:
autoplot(prcomp(df), data = iris, colour = 'Species',
loadings = TRUE, loadings.colour = 'blue',
loadings.label = TRUE, loadings.label.size = 3)
Run Code Online (Sandbox Code Playgroud)
https://cran.r-project.org/web/packages/ggfortify/vignettes/plot_pca.html
我更喜欢Python 3w/matplotlib, scikit-learn, and pandas进行数据分析.但是,我不知道如何添加这些?
你怎么能用这些载体绘制matplotlib?
我一直在阅读使用sklearn在PCA中恢复explain_variance_ratio_的功能名称,但尚未弄清楚
这是我如何绘制它 Python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn import decomposition
import seaborn as sns; sns.set_style("whitegrid", {'axes.grid' : False})
%matplotlib inline
np.random.seed(0)
# Iris …Run Code Online (Sandbox Code Playgroud) 在参考Chelton(1983)后,我一直在努力计算两对向量(x和y)的自由度,这是:
并且我找不到使用np.correlate计算归一化互相关函数的正确方法,我总是得到一个不在-1,1之间的输出.
为了计算两个向量的自由度,有没有简单的方法来对互相关函数进行归一化?
最近,我一直致力于应用网格搜索交叉验证(sklearn GridSearchCV)在带有 Tensorflow 后端的 Keras 中进行超参数调整。调整我的模型后,我试图保存 GridSearchCV 对象以备后用,但没有成功。
超参数调整如下:
x_train, x_val, y_train, y_val = train_test_split(NN_input, NN_target, train_size = 0.85, random_state = 4)
history = History()
kfold = 10
regressor = KerasRegressor(build_fn = create_keras_model, epochs = 100, batch_size=1000, verbose=1)
neurons = np.arange(10,101,10)
hidden_layers = [1,2]
optimizer = ['adam','sgd']
activation = ['relu']
dropout = [0.1]
parameters = dict(neurons = neurons,
hidden_layers = hidden_layers,
optimizer = optimizer,
activation = activation,
dropout = dropout)
gs = GridSearchCV(estimator = regressor,
param_grid = parameters,
scoring='mean_squared_error',
n_jobs …Run Code Online (Sandbox Code Playgroud) 我g在python-igraph中有一个图形.我可以通过VertexCluster以下方式获得社区结构:
community = g.community_multilevel()
Run Code Online (Sandbox Code Playgroud)
community.membership 给我一个图表中所有顶点的组成员资格列表.
我的问题非常简单,但我还没有找到特定于python的答案.如何使用其社区结构的可视化绘制图形?最好是PDF,所以像
layout = g.layout("kk")
plot(g, "graph.pdf", layout=layout) # Community detection?
Run Code Online (Sandbox Code Playgroud)
非常感谢.
我目前正在分解像[用户,项目,标签] =评级这样的三维张量.我在python中使用sktensor库进行分解.对于前者
T = np.zeros((3, 4, 2))
T[:, :, 0] = [[ 1, 4, 7, 10], [ 2, 5, 8, 11], [3, 6, 9, 12]]
T[:, :, 1] = [[13, 16, 19, 22], [14, 17, 20, 23], [15, 18, 21, 24]]
T = dtensor(T)
Y = hooi(T, [2, 3, 1], init='nvecs')
Run Code Online (Sandbox Code Playgroud)
现在实际上函数hooi正在返回以及如何从那个重构张量?
silhouette score当我找到要创建的最佳群集数时,我正在尝试进行计算,但是出现错误消息:
ValueError: Number of labels is 1. Valid values are 2 to n_samples - 1 (inclusive)
Run Code Online (Sandbox Code Playgroud)
我无法理解其原因。这是我用来聚类和计算的代码silhouette score。
我阅读了包含要聚类的文本的csv,并K-Means在n聚类值上运行。我收到此错误的原因可能是什么?
#Create cluster using K-Means
#Only creates graph
import matplotlib
#matplotlib.use('Agg')
import re
import os
import nltk, math, codecs
import csv
from nltk.corpus import stopwords
from gensim.models import Doc2Vec
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.metrics import silhouette_score
model_name = checkpoint_save_path
loaded_model = Doc2Vec.load(model_name)
#Load the test …Run Code Online (Sandbox Code Playgroud) 将 SVM 与 sklearn 库一起使用,我想用每个标签表示其颜色来绘制数据。我不想给点着色,而是用颜色填充区域。
我现在有了 :
d_pred, d_train_std, d_test_std, l_train, l_test
Run Code Online (Sandbox Code Playgroud)
d_pred 是预测的标签。我会用 d_train_std 绘制 d_pred,形状为:(70000,2),其中 X 轴是第一列,Y 轴是第二列。
谢谢你。
python ×10
scikit-learn ×5
numpy ×2
pandas ×2
arrays ×1
biplot ×1
correlation ×1
graph ×1
grid-search ×1
igraph ×1
int ×1
json ×1
k-means ×1
keras ×1
modularity ×1
pca ×1
plot ×1
python-3.x ×1
save ×1
scipy ×1
svc ×1
svm ×1
tensor ×1