小编jax_jax的帖子

如何计算所有列之间的相关性,并使用python或pandas删除高度相关的列

我有一个庞大的数据集,在机器学习建模之前总是建议首先你应该删除高度相关的描述符(列)如何计算列wice相关性并删除具有阈值的列说删除所有列或描述符具有> 0.8的相关性.它也应该保留减少数据中的标题..

示例数据集

 GA      PN       PC     MBP      GR     AP   
0.033   6.652   6.681   0.194   0.874   3.177    
0.034   9.039   6.224   0.194   1.137   3.4      
0.035   10.936  10.304  1.015   0.911   4.9      
0.022   10.11   9.603   1.374   0.848   4.566    
0.035   2.963   17.156  0.599   0.823   9.406    
0.033   10.872  10.244  1.015   0.574   4.871     
0.035   21.694  22.389  1.015   0.859   9.259     
0.035   10.936  10.304  1.015   0.911   4.5

Run Code Online (Sandbox Code Playgroud)

请帮忙....

python numpy scipy pandas

23
推荐指数

8
解决办法

4万
查看次数

如何使用pandas和python从列中减去单个值

我有一个数据框假设:

name age hb
ali  34  14
jex  16  13
aja  24  16
joy  23  12

Run Code Online (Sandbox Code Playgroud)

我有一个值"5",我想从列"hb"的每个成员减去

新专栏可能是:

Run Code Online (Sandbox Code Playgroud)

这样做的最佳方法是什么......

感谢致敬.

15
推荐指数

3
解决办法

3万
查看次数

`repr`函数对正常函数的意义是什么？

我正在尝试用我自己学习python而且我坚持使用__repr__函数.虽然我已经阅读了很多帖子__repr__以及python文档.所以我决定在这里提出这个问题.下面的代码解释了我的困惑.

class Point:

    def __init__(self,x,y):
            self.x, self.y = x,y

    def __repr__(self):
        return 'Point(x=%s, y=%s)'%(self.x, self.y)

    def print_class(self):
        return 'Point(x=%s, y=%s)'%(self.x, self.y)



p = Point(1,2)

print p
print p.print_class()


Point(x=1, y=2)
Point(x=1, y=2)

Run Code Online (Sandbox Code Playgroud)

如果正常函数也可以执行类似的任务,那么__repr__结束print_class()(在我的情况下是正常函数)函数的额外优势是什么.

python python-2.7

6
推荐指数

1
解决办法

852
查看次数

mkvirtualenv和virtualenv在创建虚拟环境方面的区别

我是Python虚拟环境的新手。以前，我使用该virtualenv命令创建虚拟环境，但是遇到了一个教程，mkvirtualenv用于创建虚拟环境。

mkvirtualenvover有什么好处virtualenv，又有什么不同？

python virtualenv

6
推荐指数

1
解决办法

4514
查看次数

删除低方差scikit-learn的特征

scikit-learn提供了各种方法来删除描述符,给定的教程提供了初始方法

http://scikit-learn.org/stable/modules/feature_selection.html#

Run Code Online (Sandbox Code Playgroud)

但是给定的教程没有提供任何方法或方法来告诉您保留已删除或保留的功能列表的方法.在下面给出的教程页面上提供了代码:

    from sklearn.feature_selection import VarianceThreshold
    X = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]
    sel = VarianceThreshold(threshold=(.8 * (1 - .8)))
    sel.fit_transform(X)
array([[0, 1],
       [1, 0],
       [0, 0],
       [1, 1],
       [1, 0],
       [1, 1]])

Run Code Online (Sandbox Code Playgroud)

这个例子只包含两个描述符"shape(6,2)",但在我的例子中我有一个巨大的数据形状(51,9000).在获得合适的模型之后,我希望保留可用功能的跟踪,这样当我将针对未知数据集运行我的模型时,我将仅计算测试集的所选描述符.

例如,当我使用WEKA 6.0工具执行机器建模时,此工具在特征选择方面提供了非凡的灵活性,并且在化学数据集上执行任务后提供了最佳特征列表9000,并且我可以使用列名称保存减少的数据.

谢谢

python-2.7 scikits scikit-learn

4
推荐指数

3
解决办法

1万
查看次数

我们如何使用scikit-learn了解所选和省略的特征(列)名称(标题)

我用一段数据解释了这个场景:

防爆.数据集.

GA_ID   PN_ID   PC_ID   MBP_ID  GR_ID   AP_ID   class
0.033   6.652   6.681   0.194   0.874   3.177     0
0.034   9.039   6.224   0.194   1.137   0         0
0.035   10.936  10.304  1.015   0.911   4.9       1
0.022   10.11   9.603   1.374   0.848   4.566     1
0.035   2.963   17.156  0.599   0.823   9.406     1
0.033   10.872  10.244  1.015   0.574   4.871     1
0.035   21.694  22.389  1.015   0.859   9.259     1
0.035   10.936  10.304  1.015   0.911   4.9       1
0.035   10.936  10.304  1.015   0.911   4.9       1
0.035   10.936  10.304  1.015   0.911   4.9       0
0.036 …

Run Code Online (Sandbox Code Playgroud)

python machine-learning scikit-learn scikit-image

3
推荐指数

1
解决办法

1440
查看次数

在给定阈值内提取高度相关的空缺的最佳方法是什么

我有一个数据帧，并计算了成对相关

>>> df1 = pd.read_csv("/home/zebrafish/Desktop/stack.csv")
>>> df1.corr()
           GA        PN        PC       MBP        GR        AP
GA   1.000000  0.070541  0.259937 -0.452661  0.115722  0.268014
PN   0.070541  1.000000  0.512536  0.447831 -0.042238  0.263601
PC   0.259937  0.512536  1.000000  0.331354 -0.254312  0.958877
MBP -0.452661  0.447831  0.331354  1.000000 -0.467683  0.229870
GR   0.115722 -0.042238 -0.254312 -0.467683  1.000000 -0.248777
AP   0.268014  0.263601  0.958877  0.229870 -0.248777  1.000000
>>>

Run Code Online (Sandbox Code Playgroud)

现在从这个相关矩阵中如何在上述情况下数据框很小的情况下列出或提取高度相关的变量，以便容易选择高度相关的变量，但是当数据集很大时，例如4000 X 2000，我们如何使用python或pandas或numpy。

更新

通过建议的方式，我能够得到非常漂亮的东西，但是我的困惑仍然存在，并且与编程无关，与理论有关

       level_0 level_1         0
0       GA      GA  1.000000
1       GA      PN  0.070541
2       GA      PC  0.259937
4       GA      GR  0.115722 …

Run Code Online (Sandbox Code Playgroud)

python numpy scipy pandas

3
推荐指数

1
解决办法

823
查看次数

如何使用 scikit-learn 评估预测的置信度分数

我写下了一个简单的代码，它采用一个参数“query_seq”，进一步的方法计算描述符，最后可以使用“LogisticRegression”（或函数提供的任何其他算法）算法作为“0（给定情况为负）” )”或“1（给定情况下为正）”

def main_process(query_Seq):
    LR = LogisticRegression()
    GNB = GaussianNB()
    KNB = KNeighborsClassifier()
    DT = DecisionTreeClassifier()
    SV = SVC(probability=True)

    train_x, train_y,train_l = data_gen(p) 
    a  = DC_CLASS()
    test_x = a.main_p(query_Seq)
    return Prediction(train_x, train_y, test_x,LR)

Run Code Online (Sandbox Code Playgroud)

当我们执行交叉验证时，我们已经计算了算法的准确度估计（特异性、灵敏度、mmc 等）的不同统计参数。现在我的问题是，scikit-learn 中是否有任何方法可以让我们估计测试数据预测的置信度分数。

machine-learning scikits scikit-learn

3
推荐指数

1
解决办法

6914
查看次数

Django Query 设置从数据库中获取数据？

我创建了一个模型，如下所示：

from __future__ import unicode_literals

from django.db import models


class TypesOfVehicle(models.Model):

    type = models.CharField(max_length=50)
    def __unicode__(self):
        return self.type


class vehicleDetails (models.Model):

    T = models.ForeignKey(TypesOfVehicle)
    NoOfWhl = models.PositiveIntegerField()
    year = models.CharField(max_length=4)
    ModelName = models.CharField(max_length=254)
    VID = models.CharField(max_length=254, verbose_name="VID")

Run Code Online (Sandbox Code Playgroud)

要查看上述数据，我写了一个视图，如下所示：

from django.shortcuts import render
from .models import CountryDiseases, Country


def VData(request):
    Count = vehicleDetails.objects.all()
    return render(request, 'DATAPLO/MAP.html', {'Count': Count })

Run Code Online (Sandbox Code Playgroud)

为了呈现我的视图，我写下了一个像这样的简单模板

地图.html

{% for c  in Count %}
{{c.NoOfWhl }} {{ c.year }} {{ c.ModelName }}<br/>
{% endfor %}

Run Code Online (Sandbox Code Playgroud)

我的问题是我对 Django 非常陌生，经过几次不成功的尝试后，我无法写出一种可以呈现我的数据的方法，如下所示。 …

django django-templates django-models django-views

3
推荐指数

1
解决办法

2331
查看次数

使用3D坐标计算三点之间角度的python代码

我写下了一个代码,用三维坐标计算三点之间的角度.

import  numpy as np

a = np.array([32.49, -39.96,-3.86])

b = np.array([31.39, -39.28, -4.66])

c = np.array([31.14, -38.09,-4.49])

f = a-b # normalization of vectors
e = b-c # normalization of vectors

angle = dot(f, e) # calculates dot product 
print degrees(cos(angle))  # calculated angle in radians to degree

Run Code Online (Sandbox Code Playgroud)

输出代码:

degree 33.4118214995

Run Code Online (Sandbox Code Playgroud)

但是当我使用其中一个软件来计算相同时,它会使输出位不同120度.请帮忙

参考我以前用来编写程序:

(如何计算蛋白质db文件中的键角？)

python math numpy

2
推荐指数

1
解决办法

1万
查看次数

如何重新发出python-smtplib的"socket.gaierror"错误？

几个小时后我发布了一篇与"Django email sending API"相关的帖子及其错误.所以我认为首先我应该尝试一下"smtplib".不幸的是,在与"smtplib"挣扎之后,我意识到它也行不通,因为我的代码或我的网络或机器出了问题,我无法弄明白.

任何人都可以帮我这个吗？

截至目前,经过艰苦的努力,我已经尝试了数百个解决方案,并且我已经尝试自己解决,但在我的情况下没有任何工作可以帮助.

代码如下.

import smtplib
from email.MIMEMultipart import MIMEMultipart
from email.MIMEText import MIMEText

import socks



socks.setdefaultproxy(socks.PROXY_TYPE_SOCKS4, "172.16.0.2", '8084')
socks.wrapmodule(smtplib)

#smtp = smtplib.SMTP()

msg = MIMEMultipart()
msg['From'] = 'my@yahoo.com'
msg['To'] = 'example@gmail.com'
msg['Subject'] = 'simple email in python'
message = 'here is the email'
msg.attach(MIMEText(message))

mailserver = smtplib.SMTP('smtp.mail.yahoo.com',465)
# identify ourselves to smtp gmail client
mailserver.ehlo()
# secure our email with tls encryption
mailserver.starttls()
# re-identify ourselves as an encrypted connection
mailserver.ehlo()
mailserver.login('my@yahoo.com', 'pswd12345678')

mailserver.sendmail('my@yahoo.com','example@gmail.com',msg.as_string())

mailserver.quit()

Run Code Online (Sandbox Code Playgroud)

这是一次又一次的错误: …

python sockets python-sockets

2
推荐指数

1
解决办法

3113
查看次数

如何获取 github 存储库的 sha256 哈希码？

我正在尝试为需要“sha256”哈希码的 git hub 存储库构建一个公寓包，我如何为 git 存储库示例获得 sha256。https://github.com/jensengroup/fragbuilder

例子在这里：

source:
  url: https://files.pythonhosted.org/packages/38/7c/be04cb1010161c5f32a0a3d7f79af492e98d0487814d8d1bd35ca257a41a/{{ name }}-{{ version }}.zip
  sha256: "bbd9fd380826c6cef78871f62b3fb8cf4a466fa99a32e61ea9ba839dc1833e5d"

Run Code Online (Sandbox Code Playgroud)

这个由 conda 框架生成的 sha256 是我如何为 git repo 获取他的。

python sha256 anaconda conda

2
推荐指数

1
解决办法

4821
查看次数

如何解决错误 TypeError: Cannot set property list of #<HTMLInputElement> which has only a getter?

我是 javascript 新手，尝试构建文件上传，用户可以在其中上传文件或从下拉列表中选择文件或输入文件路径。

一切工作正常，直到我尝试创建一个列表“汽车”以在输入元素内提供两个示例选择选项。

FileUpLoad (input_def) {

input_def.id = this.uid()

const Label = document.createElement('label')
Label.className = 'custom_file_upload'
const Input = document.createElement('input')
Input.type = 'file'

const Input1 = document.createElement('input')
Input1.type = 'text'
Input1.list = 'car'

const DataList = document.createElement('datalist')
DataList.id = 'car'

const Option1 = document.createElement('option')
Option1.textContent = 'Volvo'
DataList.append(Option1)

const Option2 = document.createElement('option')
Option2.textContent = 'Suzuki'
DataList.append(Option2)

Label.append(Input)
Label.append(Input1)
Label.append(DataList)
const Li = document.createElement('i')
Li.innerText = ' Upload Data'
Li.className = "fa fa-cloud-upload"
Label.append(Li)

const row = document.createElement('div')
row.className = …

Run Code Online (Sandbox Code Playgroud)

html javascript css forms

2
推荐指数

1
解决办法

1403
查看次数

标签统计

scikit-learn ×3

machine-learning ×2

css ×1

django-models ×1

django-templates ×1

django-views ×1

html ×1

math ×1

python-sockets ×1

scikit-image ×1