我有一个庞大的数据集,在机器学习建模之前总是建议首先你应该删除高度相关的描述符(列)如何计算列wice相关性并删除具有阈值的列说删除所有列或描述符具有> 0.8的相关性.它也应该保留减少数据中的标题..
示例数据集
GA PN PC MBP GR AP
0.033 6.652 6.681 0.194 0.874 3.177
0.034 9.039 6.224 0.194 1.137 3.4
0.035 10.936 10.304 1.015 0.911 4.9
0.022 10.11 9.603 1.374 0.848 4.566
0.035 2.963 17.156 0.599 0.823 9.406
0.033 10.872 10.244 1.015 0.574 4.871
0.035 21.694 22.389 1.015 0.859 9.259
0.035 10.936 10.304 1.015 0.911 4.5
Run Code Online (Sandbox Code Playgroud)
请帮忙....
我有一个数据框假设:
name age hb
ali 34 14
jex 16 13
aja 24 16
joy 23 12
Run Code Online (Sandbox Code Playgroud)
我有一个值"5",我想从列"hb"的每个成员减去
新专栏可能是:
hb
9
8
11
7
Run Code Online (Sandbox Code Playgroud)
这样做的最佳方法是什么......
感谢致敬.
我正在尝试用我自己学习python而且我坚持使用__repr__函数.虽然我已经阅读了很多帖子__repr__以及python文档.所以我决定在这里提出这个问题.下面的代码解释了我的困惑.
class Point:
def __init__(self,x,y):
self.x, self.y = x,y
def __repr__(self):
return 'Point(x=%s, y=%s)'%(self.x, self.y)
def print_class(self):
return 'Point(x=%s, y=%s)'%(self.x, self.y)
p = Point(1,2)
print p
print p.print_class()
Point(x=1, y=2)
Point(x=1, y=2)
Run Code Online (Sandbox Code Playgroud)
如果正常函数也可以执行类似的任务,那么__repr__结束print_class()(在我的情况下是正常函数)函数的额外优势是什么.
我是Python虚拟环境的新手。以前,我使用该virtualenv命令创建虚拟环境,但是遇到了一个教程,mkvirtualenv用于创建虚拟环境。
mkvirtualenvover有什么好处virtualenv,又有什么不同?
scikit-learn提供了各种方法来删除描述符,给定的教程提供了初始方法
http://scikit-learn.org/stable/modules/feature_selection.html#
Run Code Online (Sandbox Code Playgroud)
但是给定的教程没有提供任何方法或方法来告诉您保留已删除或保留的功能列表的方法.在下面给出的教程页面上提供了代码:
from sklearn.feature_selection import VarianceThreshold
X = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]
sel = VarianceThreshold(threshold=(.8 * (1 - .8)))
sel.fit_transform(X)
array([[0, 1],
[1, 0],
[0, 0],
[1, 1],
[1, 0],
[1, 1]])
Run Code Online (Sandbox Code Playgroud)
这个例子只包含两个描述符"shape(6,2)",但在我的例子中我有一个巨大的数据形状(51,9000).在获得合适的模型之后,我希望保留可用功能的跟踪,这样当我将针对未知数据集运行我的模型时,我将仅计算测试集的所选描述符.
例如,当我使用WEKA 6.0工具执行机器建模时,此工具在特征选择方面提供了非凡的灵活性,并且在化学数据集上执行任务后提供了最佳特征列表9000,并且我可以使用列名称保存减少的数据.
谢谢
我用一段数据解释了这个场景:
防爆.数据集.
GA_ID PN_ID PC_ID MBP_ID GR_ID AP_ID class
0.033 6.652 6.681 0.194 0.874 3.177 0
0.034 9.039 6.224 0.194 1.137 0 0
0.035 10.936 10.304 1.015 0.911 4.9 1
0.022 10.11 9.603 1.374 0.848 4.566 1
0.035 2.963 17.156 0.599 0.823 9.406 1
0.033 10.872 10.244 1.015 0.574 4.871 1
0.035 21.694 22.389 1.015 0.859 9.259 1
0.035 10.936 10.304 1.015 0.911 4.9 1
0.035 10.936 10.304 1.015 0.911 4.9 1
0.035 10.936 10.304 1.015 0.911 4.9 0
0.036 …Run Code Online (Sandbox Code Playgroud) 我有一个数据帧,并计算了成对相关
>>> df1 = pd.read_csv("/home/zebrafish/Desktop/stack.csv")
>>> df1.corr()
GA PN PC MBP GR AP
GA 1.000000 0.070541 0.259937 -0.452661 0.115722 0.268014
PN 0.070541 1.000000 0.512536 0.447831 -0.042238 0.263601
PC 0.259937 0.512536 1.000000 0.331354 -0.254312 0.958877
MBP -0.452661 0.447831 0.331354 1.000000 -0.467683 0.229870
GR 0.115722 -0.042238 -0.254312 -0.467683 1.000000 -0.248777
AP 0.268014 0.263601 0.958877 0.229870 -0.248777 1.000000
>>>
Run Code Online (Sandbox Code Playgroud)
现在从这个相关矩阵中如何在上述情况下数据框很小的情况下列出或提取高度相关的变量,以便容易选择高度相关的变量,但是当数据集很大时,例如4000 X 2000,我们如何使用python或pandas或numpy。
通过建议的方式,我能够得到非常漂亮的东西,但是我的困惑仍然存在,并且与编程无关,与理论有关
level_0 level_1 0
0 GA GA 1.000000
1 GA PN 0.070541
2 GA PC 0.259937
4 GA GR 0.115722 …Run Code Online (Sandbox Code Playgroud) 我写下了一个简单的代码,它采用一个参数“query_seq”,进一步的方法计算描述符,最后可以使用“LogisticRegression”(或函数提供的任何其他算法)算法作为“0(给定情况为负)” )”或“1(给定情况下为正)”
def main_process(query_Seq):
LR = LogisticRegression()
GNB = GaussianNB()
KNB = KNeighborsClassifier()
DT = DecisionTreeClassifier()
SV = SVC(probability=True)
train_x, train_y,train_l = data_gen(p)
a = DC_CLASS()
test_x = a.main_p(query_Seq)
return Prediction(train_x, train_y, test_x,LR)
Run Code Online (Sandbox Code Playgroud)
当我们执行交叉验证时,我们已经计算了算法的准确度估计(特异性、灵敏度、mmc 等)的不同统计参数。现在我的问题是,scikit-learn 中是否有任何方法可以让我们估计测试数据预测的置信度分数。
我创建了一个模型,如下所示:
from __future__ import unicode_literals
from django.db import models
class TypesOfVehicle(models.Model):
type = models.CharField(max_length=50)
def __unicode__(self):
return self.type
class vehicleDetails (models.Model):
T = models.ForeignKey(TypesOfVehicle)
NoOfWhl = models.PositiveIntegerField()
year = models.CharField(max_length=4)
ModelName = models.CharField(max_length=254)
VID = models.CharField(max_length=254, verbose_name="VID")
Run Code Online (Sandbox Code Playgroud)
要查看上述数据,我写了一个视图,如下所示:
from django.shortcuts import render
from .models import CountryDiseases, Country
def VData(request):
Count = vehicleDetails.objects.all()
return render(request, 'DATAPLO/MAP.html', {'Count': Count })
Run Code Online (Sandbox Code Playgroud)
为了呈现我的视图,我写下了一个像这样的简单模板
地图.html
{% for c in Count %}
{{c.NoOfWhl }} {{ c.year }} {{ c.ModelName }}<br/>
{% endfor %}
Run Code Online (Sandbox Code Playgroud)
我的问题是我对 Django 非常陌生,经过几次不成功的尝试后,我无法写出一种可以呈现我的数据的方法,如下所示。 …
我写下了一个代码,用三维坐标计算三点之间的角度.
import numpy as np
a = np.array([32.49, -39.96,-3.86])
b = np.array([31.39, -39.28, -4.66])
c = np.array([31.14, -38.09,-4.49])
f = a-b # normalization of vectors
e = b-c # normalization of vectors
angle = dot(f, e) # calculates dot product
print degrees(cos(angle)) # calculated angle in radians to degree
Run Code Online (Sandbox Code Playgroud)
输出代码:
degree 33.4118214995
Run Code Online (Sandbox Code Playgroud)
但是当我使用其中一个软件来计算相同时,它会使输出位不同120度.请帮忙
参考我以前用来编写程序:
几个小时后我发布了一篇与"Django email sending API"相关的帖子及其错误.所以我认为首先我应该尝试一下"smtplib".不幸的是,在与"smtplib"挣扎之后,我意识到它也行不通,因为我的代码或我的网络或机器出了问题,我无法弄明白.
任何人都可以帮我这个吗?
截至目前,经过艰苦的努力,我已经尝试了数百个解决方案,并且我已经尝试自己解决,但在我的情况下没有任何工作可以帮助.
代码如下.
import smtplib
from email.MIMEMultipart import MIMEMultipart
from email.MIMEText import MIMEText
import socks
socks.setdefaultproxy(socks.PROXY_TYPE_SOCKS4, "172.16.0.2", '8084')
socks.wrapmodule(smtplib)
#smtp = smtplib.SMTP()
msg = MIMEMultipart()
msg['From'] = 'my@yahoo.com'
msg['To'] = 'example@gmail.com'
msg['Subject'] = 'simple email in python'
message = 'here is the email'
msg.attach(MIMEText(message))
mailserver = smtplib.SMTP('smtp.mail.yahoo.com',465)
# identify ourselves to smtp gmail client
mailserver.ehlo()
# secure our email with tls encryption
mailserver.starttls()
# re-identify ourselves as an encrypted connection
mailserver.ehlo()
mailserver.login('my@yahoo.com', 'pswd12345678')
mailserver.sendmail('my@yahoo.com','example@gmail.com',msg.as_string())
mailserver.quit()
Run Code Online (Sandbox Code Playgroud)
这是一次又一次的错误: …
我正在尝试为需要“sha256”哈希码的 git hub 存储库构建一个公寓包,我如何为 git 存储库示例获得 sha256。https://github.com/jensengroup/fragbuilder
例子在这里:
source:
url: https://files.pythonhosted.org/packages/38/7c/be04cb1010161c5f32a0a3d7f79af492e98d0487814d8d1bd35ca257a41a/{{ name }}-{{ version }}.zip
sha256: "bbd9fd380826c6cef78871f62b3fb8cf4a466fa99a32e61ea9ba839dc1833e5d"
Run Code Online (Sandbox Code Playgroud)
这个由 conda 框架生成的 sha256 是我如何为 git repo 获取他的。
我是 javascript 新手,尝试构建文件上传,用户可以在其中上传文件或从下拉列表中选择文件或输入文件路径。
一切工作正常,直到我尝试创建一个列表“汽车”以在输入元素内提供两个示例选择选项。
FileUpLoad (input_def) {
input_def.id = this.uid()
const Label = document.createElement('label')
Label.className = 'custom_file_upload'
const Input = document.createElement('input')
Input.type = 'file'
const Input1 = document.createElement('input')
Input1.type = 'text'
Input1.list = 'car'
const DataList = document.createElement('datalist')
DataList.id = 'car'
const Option1 = document.createElement('option')
Option1.textContent = 'Volvo'
DataList.append(Option1)
const Option2 = document.createElement('option')
Option2.textContent = 'Suzuki'
DataList.append(Option2)
Label.append(Input)
Label.append(Input1)
Label.append(DataList)
const Li = document.createElement('i')
Li.innerText = ' Upload Data'
Li.className = "fa fa-cloud-upload"
Label.append(Li)
const row = document.createElement('div')
row.className = …Run Code Online (Sandbox Code Playgroud) python ×9
numpy ×3
pandas ×3
scikit-learn ×3
python-2.7 ×2
scikits ×2
scipy ×2
anaconda ×1
conda ×1
css ×1
django ×1
django-views ×1
forms ×1
html ×1
javascript ×1
math ×1
scikit-image ×1
sha256 ×1
sockets ×1
virtualenv ×1