我有一个以CSV格式发送给我的CSV文件.感兴趣的领域是8位数.其中一些以0开头.该字段是数字发送的.所以,我现在放弃了一些前导零.
我已经将字段转换为varchar.我现在需要这样做:
我现在有这个:
12345678
1234567
Run Code Online (Sandbox Code Playgroud)
我需要这个:
12345678
01234567
Run Code Online (Sandbox Code Playgroud) 我正在学习如何在python中执行SQL(我知道SQL,而不是Python).
我有一个外部的sql文件.它创建数据并将数据插入三个表'Zookeeper','Handles','Animal'.
然后我有一系列查询来运行表.以下查询位于我在python脚本顶部加载的zookeeper.sql文件中.前两个示例是:
--1.1
SELECT ANAME,zookeepid
FROM ANIMAL, HANDLES
WHERE AID=ANIMALID;
Run Code Online (Sandbox Code Playgroud)
--1.2
SELECT ZNAME, SUM(TIMETOFEED)
FROM ZOOKEEPER, ANIMAL, HANDLES
WHERE AID=ANIMALID AND ZOOKEEPID=ZID
GROUP BY zookeeper.zname;
Run Code Online (Sandbox Code Playgroud)
这些都在SQL中执行得很好.现在我需要在Python中执行它们.我已经给出并完成了在文件中读取的代码.然后执行循环中的所有查询.
1.1和1.2是我感到困惑的地方.我相信循环这是我应该放置的东西来运行第一个和第二个查询.
result = c.execute("SELECT*FROM%s;"%table);
但什么?我想我错过了一些非常明显的东西.我认为让我失望的是%table.在查询1.1和1.2中,我不是在创建表,而是在查找查询结果.
我的整个python代码如下.
import sqlite3
from sqlite3 import OperationalError
conn = sqlite3.connect('csc455_HW3.db')
c = conn.cursor()
# Open and read the file as a single buffer
fd = open('ZooDatabase.sql', 'r')
sqlFile = fd.read()
fd.close()
# all SQL commands (split on ';')
sqlCommands = sqlFile.split(';')
# Execute every command from the input …Run Code Online (Sandbox Code Playgroud) 作为一个R用户,我一直想要加速scikit.
从Linear,Ridge和Lasso开始.我已经完成了这些例子.以下是基本的OLS.
设置模型似乎足够合理 - 但似乎找不到合理的方法来获得一组标准的回归输出.
我的代码中的示例:
# Linear Regression
import numpy as np
from sklearn import datasets
from sklearn.linear_model import LinearRegression
# Load the diabetes datasets
dataset = datasets.load_diabetes()
# Fit a linear regression model to the data
model = LinearRegression()
model.fit(dataset.data, dataset.target)
print(model)
# Make predictions
expected = dataset.target
predicted = model.predict(dataset.data)
# Summarize the fit of the model
mse = np.mean((predicted-expected)**2)
print model.intercept_, model.coef_, mse,
print(model.score(dataset.data, dataset.target))
Run Code Online (Sandbox Code Playgroud)
看起来像拦截和coef内置在模型中,我只需要打印(从第二行到第二行)来查看它们.那么所有其他标准回归输出如R ^ 2,调整后的R ^ 2,p值等等.如果我正确地阅读了这些例子,看起来你必须为每一个写一个函数/等式然后打印它.
那么,lin reg模型没有标准的摘要输出吗?
另外,在我打印的系数输出数组中,没有与这些系数相关的变量名称?我刚刚得到数字数组.有没有办法打印这些,我得到系数的输出和它们的变量?
我的打印输出
LinearRegression(copy_X=True, fit_intercept=True, …Run Code Online (Sandbox Code Playgroud) 我有一个CSV文件,我正在导入Weka.所有变量都以数字形式导入.我需要将其中的3个改为名义上的.然而,当我在其上放置数字解释过滤器时 - 所有变量都会发生变化.我只想改变3.
1)有没有办法只通过过滤器更改一些2)或者你可以在导入过程中设置它.如果是这样,我也无法解决这个问题.
我想为我的.Rprofile添加一些自定义.但是,我似乎无法找到该文件.
很多人都说它位于我的〜/文件夹中.我已经取消隐藏了所有隐藏文件,似乎没有找到它.还看了R.Frameworks.
找不到任何东西.我假设我有一个,因为R启动并且工作正常.
还有其他搜索方法吗?
我的系统是Mac OSX 10.8,R 3.0,RStudio
我正在使用C50决策树算法.我能够构建树并获得摘要,但无法弄清楚如何绘制或查看树.
我的C50模型叫做credit_model
在其他决策树包中,我通常使用类似plot(credit_model)的东西.在rpart中它是rpart.plot(credit_model).
绘制C50算法的等价物是什么?
我有一个基本的散点,其中x和y是浮点数.但我想根据第三个分类变量更改标记的颜色.分类变量是字符串形式.这似乎引起了一个问题.
要使用虹膜数据集 - 这里是我认为我将使用的代码:
#Scatter of Petal
x=df['Petal Length']
y=df['Petal Width']
z=df['Species']
plt.scatter(x, y, c=z, s=15, cmap='hot')
plt.xlabel('Petal Width')
plt.ylabel('Petal Length')
plt.title('Petal Width vs Length')
Run Code Online (Sandbox Code Playgroud)
但我得到一个错误:无法将字符串转换为float:iris-setosa
在运行之前,我是否必须将分类变量更改为数字变量,或者我可以对其当前格式的数据执行哪些操作?
谢谢
更新:整个回溯是:
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-47-d67ee3bffc3b> in <module>()
3 y=df['Petal Width']
4 z=df['Species']
----> 5 plt.scatter(x, y, c=z, s=15, cmap='hot')
6 plt.xlabel('Petal Width')
7 plt.ylabel('Petal Length')
/Users/mpgartland1/anaconda/lib/python2.7/site-packages/matplotlib/pyplot.pyc in scatter(x, y, s, c, marker, cmap, norm, vmin, vmax, alpha, linewidths, verts, hold, **kwargs)
3198 ret = ax.scatter(x, y, s=s, c=c, …Run Code Online (Sandbox Code Playgroud) 我不能为我的生活弄清楚如何计算rpart上的混淆矩阵.
这是我做的:
set.seed(12345)
UBANK_rand <- UBank[order(runif(1000)), ]
UBank_train <- UBank_rand[1:900, ]
UBank_test <- UBank_rand[901:1000, ]
dim(UBank_train)
dim(UBank_test)
#Build the formula for the Decision Tree
UB_tree <- Personal.Loan ~ Experience + Age+ Income +ZIP.Code + Family + CCAvg + Education
#Building the Decision Tree from Test Data
UB_rpart <- rpart(UB_tree, data=UBank_train)
Run Code Online (Sandbox Code Playgroud)
现在,我想我会做类似的事情
table(predict(UB_rpart, UBank_test, UBank_Test$Default))
Run Code Online (Sandbox Code Playgroud)
但这并没有给我一个混乱的矩阵.
r classification machine-learning decision-tree confusion-matrix
我是 R 和 Rstudio 的新手。我喜欢函数、模型和 data.frames 的自动完成。我的问题涉及变量的自动完成。
所以假设我加载了众所周知的虹膜数据。
我可以开始输入“ir”,单击单击选项卡并让数据集的其余部分自动完成。
我也知道可以通过各种方式获取变量的名称,例如names(iris). 我可以复制和粘贴。
现在,我怎样才能对变量进行良好的自动完成?我希望能够输入“pet”和选项卡,它为我提供了不同的可能变量选项来自动完成(就像函数一样)。
这样的事情可能吗?
我能看到的唯一解决方法是输入全dataset$variable名,例如iris$然后选项卡,然后允许我选择iris$petalwitdth. 但是它更多的打字并且产生了一些丑陋的代码。我只想要“花瓣宽度”自动完成。
选项?建议?
我希望我能弄清楚。我需要产生一个平均值为AVG_AMT(整数)且没有小数的表。它可以舍入或截断。这张桌子真的没关系。
这是我试图写的:
SELECT `TC Code`, AVG(ALW_AMT) as int(8,0) AS AVG_AMT
FROM OFFICE_Claims_Physicians
GROUP BY `TC Code`
ORDER BY `TC Code`;
Run Code Online (Sandbox Code Playgroud)
有什么建议么?
我需要对由某些其他变量打破的变量求和.我通常会使用该group by功能执行此操作.
但是在这种情况下,我不想汇总数据.我想保留原始数据与某种聚合sum.
-ID-- --amount--
1 23
1 11
1 8
1 7
2 10
2 20
2 15
2 10
Run Code Online (Sandbox Code Playgroud)
结果
-ID-- --amount-----SUM
1 23 49
1 11 49
1 8 49
1 7 49
2 10 55
2 20 55
2 15 55
2 10 55
Run Code Online (Sandbox Code Playgroud) 我建立了kmeans集群,在该集群中我首先对R中的几个变量进行了规范化。该模型为我提供了集群中心,但是它们显然处于规范化状态(例如收入中心为-1.6)。
我想将该-1.6转换回非标准化值,以便使其具有实际意义(例如收入为42,000)。
现在,我可以将z分数分别转换回一个值,但是有没有办法使用R函数对几个标准化变量进行处理呢?
我可以从pnorm()开始以获取百分比-但在归一化之前,我需要寻找更多可以应用于原始数据帧的内容。
r ×6
sql ×4
mysql ×3
python ×2
rstudio ×2
data-mining ×1
database ×1
matplotlib ×1
plot ×1
scikit-learn ×1
summary ×1
weka ×1