小编Cag*_*nar的帖子

如何避免 google bigquery 中的 [缺少右双引号 (") 字符。] 错误

当我想从 csv 文件上传数据到 google big query 时,我收到以下错误。我读过很多类似的问题,但仍然找不到如何解决这个问题的简单答案。任何帮助深表感谢。问候,

读取数据时出错,错误消息:解析从位置 1451 开始的行时检测到错误。错误:缺少右双引号 (") 字符。

double-quotes google-bigquery

9
推荐指数
2
解决办法
8735
查看次数

将excel文件导入python

我有一个关于将xlsx文件导入Python的基本问题.我已经检查了很多关于同一主题的回复,但是无论我尝试什么,我仍然无法将我的文件导入Python.这是我的代码和我收到的错误:

import pandas as pd

import xlrd

file_location = 'C:\Users\cagdak\Desktop\python_self_learning\Coursera\sample_data.xlsx'
workbook = xlrd.open_workbook(file_location)
Run Code Online (Sandbox Code Playgroud)

错误:

IOError: [Errno 2] No such file or directory: 'C:\\Users\\cagdak\\Desktop\\python_self_learning\\Coursera\\sample_data.xlsx'
Run Code Online (Sandbox Code Playgroud)

python import-from-excel

5
推荐指数
1
解决办法
5万
查看次数

找不到 GraphViz 的可执行文件:Anaconda-3

我正在尝试显示树输出,但是当我运行下面的脚本时,我收到如下错误:

InvocationException: 找不到 GraphViz 的可执行文件

我在这里搜索过类似的主题,但大多数都与 Mac 相关。我使用的是 Windows 10 64 位操作系统,我使用的是 Anaconda-3 64 位。我很想听听您对此的建议。

#Displaying the decision tree
from sklearn import tree
#from StringIO import StringIO
from io import StringIO
#from StringIO import StringIO 
from IPython.display import Image
out = StringIO()
tree.export_graphviz(classifier, out_file=out)

import pydotplus
graph=pydotplus.graph_from_dot_data(out.getvalue())
Image(graph.create_png())
Run Code Online (Sandbox Code Playgroud)

编辑:我再次安装了 graphviz 和 pydotplus 模块,但现在仍然可以工作。

python graphviz decision-tree python-3.x anaconda

5
推荐指数
2
解决办法
2万
查看次数

在python中将百分位分布显示为数据框

我试图将每列的百分比分布的输出显示为数据框,因为我想稍后将其导出到 csv。

我只是像这样循环了所有列:

for column in data:
    print(data[column].describe([.01,.1,.2,.3,.4,.5,.6,.7,.8,.9,.99]))
Run Code Online (Sandbox Code Playgroud)

但是,我不知道如何休息。非常感谢任何帮助!

+使用附加查询编辑主要问题:

我还想按列对我的输出进行分组,例如data.groupby(data['MARKET']).describe([.01,.1,.2,.3,.4,.5,.6??,.7,.8,.9,.99])但是,我收到类似“describe() 需要 1 个位置参数但给出了 2 个”的错误。我该如何处理这个问题?

样本数据集:

d = {'col1': [1, 2, 3, 2, 1],
     'col2': [3, 4, 5, 6, 7], 
     'country': ['TR', 'UK', 'UK' , 'TR', 'TR']};

df = pd.DataFrame(data=d)
Run Code Online (Sandbox Code Playgroud)

python loops percentile dataframe pandas

5
推荐指数
1
解决办法
3718
查看次数

使用数据框在 sqllite 中创建表

我是 sqllite3 的新手,并试图了解如何使用现有的数据帧在 sql 环境中创建表。我已经有一个创建为“pythonsqlite.db”的数据库

#import my csv to python
import pandas as pd

my_data = pd.read_csv("my_input_file.csv")


## connect to database
import sqlite3

conn = sqlite3.connect("pythonsqlite.db")

##push the dataframe to sql 
my_data.to_sql("my_data", conn, if_exists="replace")

##create the table

conn.execute(
    """
    create table my_table as 
    select * from my_data
    """)
Run Code Online (Sandbox Code Playgroud)

但是,当我导航到 SQLlite studio 并检查数据库下的表时,我看不到我创建的表。如果有人告诉我我在这里缺少什么,我将非常感激。

python sqlite create-table dataframe

5
推荐指数
1
解决办法
7900
查看次数

numpy.float64' 对象在 auc(recall, precision) 中不可调用

['numpy.float64' object is not callable]当我运行时程序抛出错误:

auc(recall, precision)
Run Code Online (Sandbox Code Playgroud)

直到今天,我才能成功运行它。我很感激这方面的任何帮助,谢谢!我也用 () 尝试过,但没有用。

fit_logreg = LogisticRegression(class_weight='balanced', verbose=0)

fit_logreg.set_params(penalty = 'l2',
                  C = 0.00001, 
                  n_jobs=-1,
                  verbose=0
                  )
###########################################################
###4#TRAIN THE FITTING MODEL ON THE TRAINING DATASET###
###########################################################
# fit a model
fit_logreg.fit(trainX, trainy)

# score the test dataset

predictions_logreg = fit_logreg.predict(testX)
#predictions_logreg = predictions_logreg.values.ravel() 

###########################################################
###5#OOB ERROR AND CLASSIFICATION SUCCESS METRICS###
###########################################################

##ROC AUC SCORE
roc_auc_score(testy, predictions_logreg,average='macro')

##RECALL-PRECISION CURVE

# predict probabilities
probs = fit_logreg.predict_proba(testX)
# keep probabilities for the positive outcome only …
Run Code Online (Sandbox Code Playgroud)

python machine-learning object

2
推荐指数
1
解决办法
6508
查看次数

从头开始构建带有交叉验证的随机森林回归器

我知道这是一个非常经典的问题,可能会在本论坛中多次回答,但是我找不到任何明确的答案从头开始清楚地解释这一点。

首先,我的数据集 my_data 有 4 个变量,例如 my_data = variable1、variable2、variable3、target_variable

所以,让我们来解决我的问题。我将解释我的所有步骤,并就我遇到的问题寻求您的帮助:

# STEP1 : split my_data into [predictors] and [targets]

predictors = my_data[[
'variable1',
'variable2',
'variable3'
]]


targets = my_data.target_variable

# STEP2 : import the required libraries

from sklearn import cross_validation
from sklearn.ensemble import RandomForestRegressor

#STEP3 : define a simple Random Forest model attirbutes

model = RandomForestClassifier(n_estimators=100)


#STEP4 : Simple K-Fold cross validation. 3 folds.

cv = cross_validation.KFold(len(my_data), n_folds=3,  random_state=30)

# STEP 5
Run Code Online (Sandbox Code Playgroud)

在这一步,我想根据训练数据集拟合我的模型,然后在测试数据集上使用该模型并预测测试目标。我还想计算所需的统计数据,例如 MSE、r2 等,以了解我的模型的性能。

如果有人帮助我了解 Step5 的一些基本代码行,我将不胜感激。

regression machine-learning random-forest scikit-learn cross-validation

1
推荐指数
1
解决办法
6183
查看次数