我有以下数据框,我想将每个值分配给一个 bin,
title
1 MotorolaROID RAZR MAXX 4G Android Phone Black 32GBVerizon Wireless.jpg^HTC EVO 4G 1GB White Sprint Smartphone.jpg
2 MotorolaROID RAZR MAXX 4G Android Phone Black 32GBVerizon Wireless.jpg^NEW 4 0 Android 2 3 Unlocked Quad Bands GPS Bluetooth Wifi Smart Cell phone G10.jpg
3 MotorolaROID RAZR MAXX 4G Android Phone Black 32GBVerizon Wireless.jpg^Motorola Droid X2 Verizon BAD ESN GOOD Condition 100 Functional.jpg
4 MotorolaROID RAZR MAXX 4G Android Phone Black 32GBVerizon Wireless.jpg^UNLOCKED Huawei Ideos S7 Tablet Smartphone.jpg
5 MotorolaROID …
Run Code Online (Sandbox Code Playgroud) 我在Matlab中有以下数据矩阵,我试图通过将变量传递给matlab函数实际将其拆分为多个段.但在分裂之前我想改组矩阵.我的矩阵的大小是150X4
s.data
5.1000 3.5000 1.4000 0.2000
4.9000 3.0000 1.4000 0.2000
4.7000 3.2000 1.3000 0.2000
4.6000 3.1000 1.5000 0.2000
5.0000 3.6000 1.4000 0.2000
..
s =
data: [150x4 double]
labels: [150x1 double]
Run Code Online (Sandbox Code Playgroud)
来自R环境我觉得MatLab很奇怪.最初我认为矩阵中的列有一个像R数据帧中的关系,但我的假设是错误的.
我正在使用 Yahoo Api,除了我添加了硬睡眠之外,我还实现了随机睡眠方法,但我仍然无法弄清楚如果我在第一次尝试时没有得到响应,我该如何等待或再试一次。
例如,我在下面放置的代码完全随机地在某些用户处失败。失败后,我在浏览器上获取 url,它就像一个魅力。所以我的问题是为什么?我该如何解决这个问题?或者我可以改进此代码以在沉睡后执行另一个请求(仅当这是一个好方法时)
我忘记添加更多信息,我更改了代码以获取我的 http 成功代码:
print urlobject.getcode()
Run Code Online (Sandbox Code Playgroud)
它返回 200,但没有 json,因为有人建议这可能是油门。
注意:我已经从 url 中删除了我的 appid(Key)
# return the json question for given question id
def returnJSONQuestion(questionId):
randomSleep()
url = 'http://answers.yahooapis.com/AnswersService/V1/getQuestion?appid=APPIDREMOVED8&question_id={0}&output=json'
format_url = url.format(questionId)
try:
request = urllib2.Request(format_url)
urlobject = urllib2.urlopen(request)
time.sleep(10)
jsondata = json.loads(urlobject.read().decode("utf-8"))
print jsondata
except urllib2.HTTPError, e:
print e.code
logging.exception("Exception")
except urllib2.URLError, e:
print e.reason
logging.exception("Exception")
except(json.decoder.JSONDecodeError,ValueError):
print 'Question ID ' + questionId + ' Decode JSON has failed'
logging.info("This qid didn't work " + questionId) …
Run Code Online (Sandbox Code Playgroud) 我正在解析具有以下数据结构的xml文件:
<row Id="253858" UserId="40883" Name="Scholar" Date="2009-03-08T01:52:32.570" />
<row Id="253860" UserId="19483" Name="Supporter" Date="2009-03-08T01:57:31.733" />
<row Id="253861" UserId="74951" Name="Autobiographer" Date="2009-03-08T02:02:32.390" />
Run Code Online (Sandbox Code Playgroud)
我使用ruby脚本来解析这些数据并将它们插入到mysql数据库中.以下是我的数据表的样子:
+---------+-------------+------+-----+-------------------+-----------------------------+
| Field | Type | Null | Key | Default | Extra |
+---------+-------------+------+-----+-------------------+-----------------------------+
| id | int(11) | NO | PRI | NULL | |
| user_id | int(11) | NO | | NULL | |
| name | varchar(40) | YES | | NULL | |
| created | timestamp | NO | | CURRENT_TIMESTAMP | on …
Run Code Online (Sandbox Code Playgroud) 我有大量的数据,我已经处理并生成了一个字典.现在我想从这本词典中创建一个数据框.字典的Vales是元组列表.从这些值我需要找出构建数据帧列的唯一值:
d = {'0001': [('skiing',0.789),('snow',0.65),('winter',0.56)],'0002': [('drama', 0.89),('comedy', 0.678),('action',-0.42) ('winter',-0.12),('kids',0.12)],'0003': [('action', 0.89),('funny', 0.58),('sports',0.12)],'0004': [('dark', 0.89),('Mystery', 0.678),('crime',0.12), ('adult',-0.423)],'0005': [('cartoon', -0.89),('comedy', 0.678),('action',0.12)],'0006': [('drama', -0.49),('funny', 0.378),('Suspense',0.12), ('Thriller',0.78)],'0007': [('dark', 0.79),('Mystery', 0.88),('crime',0.32), ('adult',-0.423)]}
Run Code Online (Sandbox Code Playgroud)
(字典大小接近800,000条记录)
我遍历字典以找出唯一的标题:
col_headers = []
entities = []
for key, scores in d.iteritems():
entities.append(key)
d[key] = dict(scores)
col_headers.extend(d[key].keys())
col_headers = list(set(col_headers))
Run Code Online (Sandbox Code Playgroud)
我相信这需要很长时间才能完成.使用dict
也可能是一个问题,因为它慢得多.当我通过raw构建数据框raw时,它进一步减慢了进程:
df = pd.DataFrame(columns=col_headers, index=entities)
for k in d:
df.loc[k] = pd.Series(d[k])
df.fillna(0.0, axis=1)
Run Code Online (Sandbox Code Playgroud)
如何加快此过程以缩短处理时间?
我对Web框架的了解非常糟糕.我在python中构建了一个机器学习模型,它将一组字符串作为输入并返回结果.在网上搜索后,我遇到了Flask
.但我不知道的是如何实际创建一个烧瓶应用程序来实际获取字符串并允许用户提交并将该字符串传递给我的机器学习python脚本并返回结果.这就是我到目前为止所做的一切
import threading
import subprocess
import os
import sys
from flask import Flask
from flask import render_template, abort
app = Flask(__name__)
app.debug = True
def run_script():
theproc = subprocess.Popen([sys.executable, "ML_script.py"])
theproc.communicate()
if __name__ == "__main__":
app.run()
Run Code Online (Sandbox Code Playgroud)
如果你可以指出一个例子或提供一个非常棒的解决方案/骨架.
我有以下数据框:
RMSE
A 0.03655830
B 0.24513014
C 0.02009853
D 0.02223135
Run Code Online (Sandbox Code Playgroud)
我想将具有A,B,C,D的列移动为第一列,并向data.frame添加索引。
我有以下10折实现,我使用UCI机器学习的数据集发布,这是数据集的链接:
Here are my dimensions
x =
data: [178x13 double]
labels: [178x1 double]
Run Code Online (Sandbox Code Playgroud)
这是我得到的错误
Index exceeds matrix dimensions.
Error in GetTenFold (line 33)
results_cell{i,2} = shuffledMatrix(testRows ,:);
Run Code Online (Sandbox Code Playgroud)
这是我的代码:
%Function that accept data file as a name and the number of folds
%For the cross fold
function [results_cell] = GetTenFold(dataFile, x)
%loading the data file
dataMatrix = load(dataFile);
%combine the data and labels as one matrix
X = [dataMatrix.data dataMatrix.labels];
%geting the length of the of matrix
dataRowNumber = …
Run Code Online (Sandbox Code Playgroud) 我导入MATLAB文件,并构建一个数据帧,MATLAB文件包含两列和每一行维持具有基质细胞,我构建一个数据帧运行随机森林.但我得到了以下错误.
Error in model.frame.default(formula = expert_data_frame$t_labels ~ ., :
invalid type (list) for variable 'expert_data_frame$t_labels'
Run Code Online (Sandbox Code Playgroud)
以下是我如何导入matlab文件并构造数据帧的代码:
all_exp_traintest <- readMat(all_exp_filepath);
len = length(all_exp_traintest$exp.traintest)/2;
for (i in 1:len) {
expert_train_df <- data.frame(all_exp_traintest$exp.traintest[i]);
labels = data.frame(all_exp_traintest$exp.traintest[i+302]);
names(labels)[1] <- "t_labels";
expert_train_df$t_labels <- labels;
expert_data_frame <- data.frame(expert_train_df);
rf_model = randomForest(expert_data_frame$t_labels ~., data=expert_data_frame, importance=TRUE, do.trace=100);
}
Run Code Online (Sandbox Code Playgroud)
Matlab输入文件的结构
[56x12 double] [56x1 double]
[62x12 double] [62x1 double]
[62x12 double] [62x1 double]
[62x12 double] [62x1 double]
[62x12 double] [62x1 double]
[74x12 double] [74x1 double]
> str(all_exp_traintest)
List of 1 …
Run Code Online (Sandbox Code Playgroud) 我对R log函数有点混淆:基数10中的log(10)= 1但是当我在R log(10)= 2.302585中键入它时所以我的问题是如何隐式告诉R log函数中的基数.
我花了很多时间来弄明白:
rmseList是双精度列表
val rmseList = List(Double)
var tempRMSE : Double = 0.0;
for(rmse <- rmseList) {
val idx = rmseList.indexOf(rmse) + 1
tempRMSE = rmse
}
Run Code Online (Sandbox Code Playgroud)
当我尝试迭代列表并将当前值分配给临时变量时,我得到以下错误.
[error] found : Double.type
[error] required: Double
[error] tempRMSE = rmse
Run Code Online (Sandbox Code Playgroud)