我正在尝试从使用scikit-learn完成的PCA中恢复,这些功能被选为相关的.
IRIS数据集的典型示例.
import pandas as pd
import pylab as pl
from sklearn import datasets
from sklearn.decomposition import PCA
# load dataset
iris = datasets.load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
# normalize data
df_norm = (df - df.mean()) / df.std()
# PCA
pca = PCA(n_components=2)
pca.fit_transform(df_norm.values)
print pca.explained_variance_ratio_
Run Code Online (Sandbox Code Playgroud)
这回来了
In [42]: pca.explained_variance_ratio_
Out[42]: array([ 0.72770452, 0.23030523])
Run Code Online (Sandbox Code Playgroud)
如何恢复哪两个特征允许数据集中这两个解释的方差? 不同地说,如何在iris.feature_names中获取此功能的索引?
In [47]: print iris.feature_names
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
Run Code Online (Sandbox Code Playgroud)
在此先感谢您的帮助.
我正在尝试为大量文件构建一个解析器,我找不到关于我称之为"嵌套goroutines"的资源(也许这不是正确的名字?).
给定了很多文件,每个文件都有很多行.我应该这样做:
for file in folder:
go do1
def do1:
for line in file:
go do2
def do2:
do_something
Run Code Online (Sandbox Code Playgroud)
或者我应该只使用"一级"goroutines,并执行以下操作:
for file in folder:
for line in file:
go do_something
Run Code Online (Sandbox Code Playgroud)
我的问题主要针对性能问题.
谢谢你达到那句话!
在iPython笔记本中,我如何编写一个数学公式,如r^2一行(乳胶词汇表中的内联数学模式).即.打印公式时是否可以不换行.
如果喜欢在LaTeX中,它应该是\(r^2\)但它不起作用......
谢谢你的帮助 !
我正在尝试将一系列日期格式化为:
2013-03-12-15.txt2013-03-12-4.txt使用golang和Time包
package main
import (
"time"
"fmt"
)
const layout = "2006-01-02-15.txt"
func main() {
t := time.Date(2013, time.March, 12, 4, 0, 0, 0, time.UTC)
fmt.Println(t.Format(layout))
}
Run Code Online (Sandbox Code Playgroud)
不幸的是,在一位数小时前加零: 2013-03-12-04.txt
是否有一种惯用的方法来达到所需的输出,或者我必须使用String包调整自己的东西?
在此先感谢您的帮助 !
我想解决的问题可以这样表达:我想在整数范围的hashmap中查找Integer.
0-4: dog,
5-8: cat,
9-18: bird,
19-21: dog,
22-22: bird,
...
Run Code Online (Sandbox Code Playgroud)
哪里:
lookup(3) -> dog
lookup(10) -> bird
Run Code Online (Sandbox Code Playgroud)
但是,将此问题视为散列图可能不是正确的方法.我正在使用~140,000个范围,属于~200个可能类别中的一个.
知道如何在Golang中做到这一点?或者通过哪条跟踪来达到合理的解决方案(~O(log(n)?)?更一般地描述这个问题的方法是什么?
谢谢你的帮助 !
我正在寻找一种方法,根据to_tree返回的ClusterNode来获取树状图中集群点的坐标。
使用 scipy 根据以下数据构建树状图:
X = data
Y = pdist(X)
Z = linkage(Y)
dend = dendrogram(Z)
rootnode, nodesList = to_tree(Z, rd=True)
Run Code Online (Sandbox Code Playgroud)
我想做的是构建一个函数,get_coords(somClusterNode)该函数将返回(x, y)指定图中节点位置的元组。
感谢这个答案,我设法弄清楚如何从树状图返回值中获取位置,例如:
i, d = list(zip(dend['icoord'], dend['dcoord']))[-1]
x = 0.5 * sum(i[1:3])
y = d[1]
plt.plot(x, y, 'ro')
Run Code Online (Sandbox Code Playgroud)
但我可以找出nodesList 排序和icoord/dcoord排序之间的关系,以便将一个映射到另一个。
你知道我可以在哪里寻找吗?
感谢您的帮助 !
我正在尝试修改Pandas上可用的scatter_matrix图.
简单的用法是
获得了:
iris = datasets.load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
pd.tools.plotting.scatter_matrix(df, diagonal='kde', grid=False)
plt.show()
Run Code Online (Sandbox Code Playgroud)
我想做几处修改,其中包括:
有没有办法让我修改pandas的输出而不必重写我自己的散点图函数?从哪里开始添加不存在的选项,微调等?
谢谢 !
我失去了在熊猫doc和功能尝试的方式计算出到 groupby一个DataFrame由列的和值.
例如,假设我有以下数据:
In [2]: dat = {'a':[1,0,0], 'b':[0,1,0], 'c':[1,0,0], 'd':[2,3,4]}
In [3]: df = pd.DataFrame(dat)
In [4]: df
Out[4]:
a b c d
0 1 0 1 2
1 0 1 0 3
2 0 0 0 4
Run Code Online (Sandbox Code Playgroud)
我想要列a,b并c进行分组,因为它们的总和等于1.结果DataFrame的列标签等于它总和的列的总和.像这样 :
1 9
0 2 2
1 1 3
2 0 4
Run Code Online (Sandbox Code Playgroud)
有什么想法让我朝着好的方向前进吗?提前致谢 !
尽管看到了使用Flask构建howtos的URL,但我无法找到一种方法来将表单数据保存在url中.
这段代码工作正常:
@app.route('/', methods=['GET'])
def index():
res = '''<form action="/search" method=post>
<p><input type="text" name="query" value="test"></p>
<p><input type="submit" value="Search"></p>
<br />
</form>'''
return res
@app.route('/search', methods=['POST'])
def search():
return request.form['query']
Run Code Online (Sandbox Code Playgroud)
但结果显示在myapp.com/search同时,我想是这样myapp.com/search?query=toto
我一定错过了一些非常基本的东西......我猜...有什么提示吗?
提前致谢