小编Cag*_*nar的帖子

如何避免 google bigquery 中的 [缺少右双引号 (") 字符。] 错误

当我想从 csv 文件上传数据到 google big query 时，我收到以下错误。我读过很多类似的问题，但仍然找不到如何解决这个问题的简单答案。任何帮助深表感谢。问候，

读取数据时出错，错误消息：解析从位置 1451 开始的行时检测到错误。错误：缺少右双引号 (") 字符。

double-quotes google-bigquery

Cag*_*nar

lucky-day

9
推荐指数

2
解决办法

8735
查看次数

将excel文件导入python

我有一个关于将xlsx文件导入Python的基本问题.我已经检查了很多关于同一主题的回复,但是无论我尝试什么,我仍然无法将我的文件导入Python.这是我的代码和我收到的错误:

import pandas as pd

import xlrd

file_location = 'C:\Users\cagdak\Desktop\python_self_learning\Coursera\sample_data.xlsx'
workbook = xlrd.open_workbook(file_location)

Run Code Online (Sandbox Code Playgroud)

错误:

IOError: [Errno 2] No such file or directory: 'C:\\Users\\cagdak\\Desktop\\python_self_learning\\Coursera\\sample_data.xlsx'

Run Code Online (Sandbox Code Playgroud)

python import-from-excel

Cag*_*nar

2017 05-14

5
推荐指数

1
解决办法

5万
查看次数

找不到 GraphViz 的可执行文件：Anaconda-3

我正在尝试显示树输出，但是当我运行下面的脚本时，我收到如下错误：

InvocationException: 找不到 GraphViz 的可执行文件

我在这里搜索过类似的主题，但大多数都与 Mac 相关。我使用的是 Windows 10 64 位操作系统，我使用的是 Anaconda-3 64 位。我很想听听您对此的建议。

#Displaying the decision tree
from sklearn import tree
#from StringIO import StringIO
from io import StringIO
#from StringIO import StringIO 
from IPython.display import Image
out = StringIO()
tree.export_graphviz(classifier, out_file=out)

import pydotplus
graph=pydotplus.graph_from_dot_data(out.getvalue())
Image(graph.create_png())

Run Code Online (Sandbox Code Playgroud)

编辑：我再次安装了 graphviz 和 pydotplus 模块，但现在仍然可以工作。

python graphviz decision-tree python-3.x anaconda

Cag*_*nar

2017 08-17

5
推荐指数

2
解决办法

2万
查看次数

在python中将百分位分布显示为数据框

我试图将每列的百分比分布的输出显示为数据框，因为我想稍后将其导出到 csv。

我只是像这样循环了所有列：

for column in data:
    print(data[column].describe([.01,.1,.2,.3,.4,.5,.6,.7,.8,.9,.99]))

Run Code Online (Sandbox Code Playgroud)

但是，我不知道如何休息。非常感谢任何帮助！

+使用附加查询编辑主要问题：

我还想按列对我的输出进行分组，例如data.groupby(data['MARKET']).describe([.01,.1,.2,.3,.4,.5,.6??,.7,.8,.9,.99])但是，我收到类似“describe() 需要 1 个位置参数但给出了 2 个”的错误。我该如何处理这个问题？

样本数据集：

d = {'col1': [1, 2, 3, 2, 1],
     'col2': [3, 4, 5, 6, 7], 
     'country': ['TR', 'UK', 'UK' , 'TR', 'TR']};

df = pd.DataFrame(data=d)

Run Code Online (Sandbox Code Playgroud)

python loops percentile dataframe pandas

Cag*_*nar

2017 11-28

5
推荐指数

1
解决办法

3718
查看次数

使用数据框在 sqllite 中创建表

我是 sqllite3 的新手，并试图了解如何使用现有的数据帧在 sql 环境中创建表。我已经有一个创建为“pythonsqlite.db”的数据库

#import my csv to python
import pandas as pd

my_data = pd.read_csv("my_input_file.csv")


## connect to database
import sqlite3

conn = sqlite3.connect("pythonsqlite.db")

##push the dataframe to sql 
my_data.to_sql("my_data", conn, if_exists="replace")

##create the table

conn.execute(
    """
    create table my_table as 
    select * from my_data
    """)

Run Code Online (Sandbox Code Playgroud)

但是，当我导航到 SQLlite studio 并检查数据库下的表时，我看不到我创建的表。如果有人告诉我我在这里缺少什么，我将非常感激。

python sqlite create-table dataframe

Cag*_*nar

lucky-day

5
推荐指数

1
解决办法

7900
查看次数

numpy.float64' 对象在 auc(recall, precision) 中不可调用

['numpy.float64' object is not callable]当我运行时程序抛出错误：

auc(recall, precision)

Run Code Online (Sandbox Code Playgroud)

直到今天，我才能成功运行它。我很感激这方面的任何帮助，谢谢！我也用 () 尝试过，但没有用。

fit_logreg = LogisticRegression(class_weight='balanced', verbose=0)

fit_logreg.set_params(penalty = 'l2',
                  C = 0.00001, 
                  n_jobs=-1,
                  verbose=0
                  )
###########################################################
###4#TRAIN THE FITTING MODEL ON THE TRAINING DATASET###
###########################################################
# fit a model
fit_logreg.fit(trainX, trainy)

# score the test dataset

predictions_logreg = fit_logreg.predict(testX)
#predictions_logreg = predictions_logreg.values.ravel() 

###########################################################
###5#OOB ERROR AND CLASSIFICATION SUCCESS METRICS###
###########################################################

##ROC AUC SCORE
roc_auc_score(testy, predictions_logreg,average='macro')

##RECALL-PRECISION CURVE

# predict probabilities
probs = fit_logreg.predict_proba(testX)
# keep probabilities for the positive outcome only …

Run Code Online (Sandbox Code Playgroud)

python machine-learning object

Cag*_*nar

2019 05-25

2
推荐指数

1
解决办法

6508
查看次数

从头开始构建带有交叉验证的随机森林回归器

我知道这是一个非常经典的问题，可能会在本论坛中多次回答，但是我找不到任何明确的答案从头开始清楚地解释这一点。

首先，我的数据集 my_data 有 4 个变量，例如 my_data = variable1、variable2、variable3、target_variable

所以，让我们来解决我的问题。我将解释我的所有步骤，并就我遇到的问题寻求您的帮助：

# STEP1 : split my_data into [predictors] and [targets]

predictors = my_data[[
'variable1',
'variable2',
'variable3'
]]


targets = my_data.target_variable

# STEP2 : import the required libraries

from sklearn import cross_validation
from sklearn.ensemble import RandomForestRegressor

#STEP3 : define a simple Random Forest model attirbutes

model = RandomForestClassifier(n_estimators=100)


#STEP4 : Simple K-Fold cross validation. 3 folds.

cv = cross_validation.KFold(len(my_data), n_folds=3,  random_state=30)

# STEP 5

Run Code Online (Sandbox Code Playgroud)

在这一步，我想根据训练数据集拟合我的模型，然后在测试数据集上使用该模型并预测测试目标。我还想计算所需的统计数据，例如 MSE、r2 等，以了解我的模型的性能。

如果有人帮助我了解 Step5 的一些基本代码行，我将不胜感激。

regression machine-learning random-forest scikit-learn cross-validation

Cag*_*nar

2021 04-07

1
推荐指数

1
解决办法

6183
查看次数