小编mpg*_*mpg的帖子

在MySQL的列中为某些值添加前导零

我有一个以CSV格式发送给我的CSV文件.感兴趣的领域是8位数.其中一些以0开头.该字段是数字发送的.所以,我现在放弃了一些前导零.

我已经将字段转换为varchar.我现在需要这样做:

我现在有这个:

12345678
1234567
Run Code Online (Sandbox Code Playgroud)

我需要这个:

12345678
01234567
Run Code Online (Sandbox Code Playgroud)

mysql sql database

68
推荐指数
3
解决办法
12万
查看次数

在python中读取外部sql脚本

我正在学习如何在python中执行SQL(我知道SQL,而不是Python).

我有一个外部的sql文件.它创建数据并将数据插入三个表'Zookeeper','Handles','Animal'.

然后我有一系列查询来运行表.以下查询位于我在python脚本顶部加载的zookeeper.sql文件中.前两个示例是:

--1.1

SELECT ANAME,zookeepid
FROM ANIMAL, HANDLES
WHERE AID=ANIMALID;
Run Code Online (Sandbox Code Playgroud)

--1.2

SELECT ZNAME, SUM(TIMETOFEED)
FROM ZOOKEEPER, ANIMAL, HANDLES
WHERE AID=ANIMALID AND ZOOKEEPID=ZID
GROUP BY zookeeper.zname;
Run Code Online (Sandbox Code Playgroud)

这些都在SQL中执行得很好.现在我需要在Python中执行它们.我已经给出并完成了在文件中读取的代码.然后执行循环中的所有查询.

1.1和1.2是我感到困惑的地方.我相信循环这是我应该放置的东西来运行第一个和第二个查询.

result = c.execute("SELECT*FROM%s;"%table);

但什么?我想我错过了一些非常明显的东西.我认为让我失望的是%table.在查询1.1和1.2中,我不是在创建表,而是在查找查询结果.

我的整个python代码如下.

import sqlite3
from sqlite3 import OperationalError

conn = sqlite3.connect('csc455_HW3.db')
c = conn.cursor()

# Open and read the file as a single buffer
fd = open('ZooDatabase.sql', 'r')
sqlFile = fd.read()
fd.close()

# all SQL commands (split on ';')
sqlCommands = sqlFile.split(';')

# Execute every command from the input …
Run Code Online (Sandbox Code Playgroud)

python sql

44
推荐指数
2
解决办法
10万
查看次数

Sci-kit和回归总结

作为一个R用户,我一直想要加速scikit.

从Linear,Ridge和Lasso开始.我已经完成了这些例子.以下是基本的OLS.

设置模型似乎足够合理 - 但似乎找不到合理的方法来获得一组标准的回归输出.

我的代码中的示例:

# Linear Regression
import numpy as np
from sklearn import datasets
from sklearn.linear_model import LinearRegression

# Load the diabetes datasets
dataset = datasets.load_diabetes()

# Fit a linear regression model to the data
model = LinearRegression()
model.fit(dataset.data, dataset.target)
print(model)

# Make predictions
expected = dataset.target
predicted = model.predict(dataset.data)

# Summarize the fit of the model
mse = np.mean((predicted-expected)**2)
print model.intercept_, model.coef_, mse, 
print(model.score(dataset.data, dataset.target))
Run Code Online (Sandbox Code Playgroud)

看起来像拦截和coef内置在模型中,我只需要打印(从第二行到第二行)来查看它们.那么所有其他标准回归输出如R ^ 2,调整后的R ^ 2,p值等等.如果我正确地阅读了这些例子,看起来你必须为每一个写一个函数/等式然后打印它.

那么,lin reg模型没有标准的摘要输出吗?

另外,在我打印的系数输出数组中,没有与这些系数相关的变量名称?我刚刚得到数字数组.有没有办法打印这些,我得到系数的输出和它们的变量?

我的打印输出

LinearRegression(copy_X=True, fit_intercept=True, …
Run Code Online (Sandbox Code Playgroud)

python r summary linear-regression scikit-learn

18
推荐指数
4
解决办法
3万
查看次数

Weka只将数字改为名义

我有一个CSV文件,我正在导入Weka.所有变量都以数字形式导入.我需要将其中的3个改为名义上的.然而,当我在其上放置数字解释过滤器时 - 所有变量都会发生变化.我只想改变3.

1)有没有办法只通过过滤器更改一些2)或者你可以在导入过程中设置它.如果是这样,我也无法解决这个问题.

weka

9
推荐指数
2
解决办法
3万
查看次数

无法找到.Rprofile文件

我想为我的.Rprofile添加一些自定义.但是,我似乎无法找到该文件.

很多人都说它位于我的〜/文件夹中.我已经取消隐藏了所有隐藏文件,似乎没有找到它.还看了R.Frameworks.

找不到任何东西.我假设我有一个,因为R启动并且工作正常.

还有其他搜索方法吗?

我的系统是Mac OSX 10.8,R 3.0,RStudio

r rstudio osx-mountain-lion

8
推荐指数
2
解决办法
1万
查看次数

如何在R中绘制/可视化C50决策树?

我正在使用C50决策树算法.我能够构建树并获得摘要,但无法弄清楚如何绘制或查看树.

我的C50模型叫做credit_model

在其他决策树包中,我通常使用类似plot(credit_model)的东西.在rpart中它是rpart.plot(credit_model).

绘制C50算法的等价物是什么?

plot visualization r data-mining decision-tree

8
推荐指数
1
解决办法
7861
查看次数

Matplotlib按分类因子分散颜色

我有一个基本的散点,其中x和y是浮点数.但我想根据第三个分类变量更改标记的颜色.分类变量是字符串形式.这似乎引起了一个问题.

要使用虹膜数据集 - 这里是我认为我将使用的代码:

#Scatter of Petal
x=df['Petal Length']
y=df['Petal Width']
z=df['Species']
plt.scatter(x, y, c=z, s=15, cmap='hot')
plt.xlabel('Petal Width')
plt.ylabel('Petal Length')
plt.title('Petal Width vs Length')
Run Code Online (Sandbox Code Playgroud)

但我得到一个错误:无法将字符串转换为float:iris-setosa

在运行之前,我是否必须将分类变量更改为数字变量,或者我可以对其当前格式的数据执行哪些操作?

谢谢

更新:整个回溯是:

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-47-d67ee3bffc3b> in <module>()
      3 y=df['Petal Width']
      4 z=df['Species']
----> 5 plt.scatter(x, y, c=z, s=15, cmap='hot')
      6 plt.xlabel('Petal Width')
      7 plt.ylabel('Petal Length')

/Users/mpgartland1/anaconda/lib/python2.7/site-packages/matplotlib/pyplot.pyc in scatter(x, y, s, c, marker, cmap, norm, vmin, vmax, alpha, linewidths, verts, hold, **kwargs)
   3198         ret = ax.scatter(x, y, s=s, c=c, …
Run Code Online (Sandbox Code Playgroud)

matplotlib

7
推荐指数
2
解决办法
1万
查看次数

来自rpart的混淆矩阵

我不能为我的生活弄清楚如何计算rpart上的混淆矩阵.

这是我做的:

set.seed(12345)
UBANK_rand <- UBank[order(runif(1000)), ]
UBank_train <- UBank_rand[1:900, ]
UBank_test  <- UBank_rand[901:1000, ]


dim(UBank_train)
dim(UBank_test)

#Build the formula for the Decision Tree
UB_tree <- Personal.Loan ~ Experience + Age+ Income +ZIP.Code + Family + CCAvg + Education

#Building the Decision Tree from Test Data
UB_rpart <- rpart(UB_tree, data=UBank_train)
Run Code Online (Sandbox Code Playgroud)

现在,我想我会做类似的事情

table(predict(UB_rpart, UBank_test, UBank_Test$Default))
Run Code Online (Sandbox Code Playgroud)

但这并没有给我一个混乱的矩阵.

r classification machine-learning decision-tree confusion-matrix

4
推荐指数
1
解决办法
2万
查看次数

Rstudio 自动完成变量

我是 R 和 Rstudio 的新手。我喜欢函数、模型和 data.frames 的自动完成。我的问题涉及变量的自动完成。

所以假设我加载了众所周知的虹膜数据。

我可以开始输入“ir”,单击单击选项卡并让数据集的其余部分自动完成。

我也知道可以通过各种方式获取变量的名称,例如names(iris). 我可以复制和粘贴。

现在,我怎样才能对变量进行良好的自动完成?我希望能够输入“pet”和选项卡,它为我提供了不同的可能变量选项来自动完成(就像函数一样)。

这样的事情可能吗?

我能看到的唯一解决方法是输入全dataset$variable名,例如iris$然后选项卡,然后允许我选择iris$petalwitdth. 但是它更多的打字并且产生了一些丑陋的代码。我只想要“花瓣宽度”自动完成。

选项?建议?

r rstudio

3
推荐指数
1
解决办法
4474
查看次数

计算无小数的平均

我希望我能弄清楚。我需要产生一个平均值为AVG_AMT(整数)且没有小数的表。它可以舍入或截断。这张桌子真的没关系。

这是我试图写的:

SELECT `TC Code`, AVG(ALW_AMT) as int(8,0) AS AVG_AMT
FROM OFFICE_Claims_Physicians
GROUP BY `TC Code`
ORDER BY `TC Code`;
Run Code Online (Sandbox Code Playgroud)

有什么建议么?

mysql sql

2
推荐指数
1
解决办法
6043
查看次数

SQL SUM函数没有分组数据

我需要对由某些其他变量打破的变量求和.我通常会使用该group by功能执行此操作.

但是在这种情况下,我不想汇总数据.我想保留原始数据与某种聚合sum.

-ID-- --amount--
  1        23
  1        11
  1        8
  1        7
  2        10
  2        20
  2        15
  2        10
Run Code Online (Sandbox Code Playgroud)

结果

-ID-- --amount-----SUM
  1        23      49
  1        11      49
  1        8       49
  1        7       49
  2        10      55
  2        20      55
  2        15      55
  2        10      55
Run Code Online (Sandbox Code Playgroud)

mysql sql aggregate-functions

1
推荐指数
1
解决办法
1538
查看次数

将归一化变量转换回非归一化值

我建立了kmeans集群,在该集群中我首先对R中的几个变量进行了规范化。该模型为我提供了集群中心,但是它们显然处于规范化状态(例如收入中心为-1.6)。

我想将该-1.6转换回非标准化值,以便使其具有实际意义(例如收入为42,000)。

现在,我可以将z分数分别转换回一个值,但是有没有办法使用R函数对几个标准化变量进行处理呢?

我可以从pnorm()开始以获取百分比-但在归一化之前,我需要寻找更多可以应用于原始数据帧的内容。

r normal-distribution

0
推荐指数
1
解决办法
4528
查看次数