当我想从 csv 文件上传数据到 google big query 时,我收到以下错误。我读过很多类似的问题,但仍然找不到如何解决这个问题的简单答案。任何帮助深表感谢。问候,
读取数据时出错,错误消息:解析从位置 1451 开始的行时检测到错误。错误:缺少右双引号 (") 字符。
我有一个关于将xlsx文件导入Python的基本问题.我已经检查了很多关于同一主题的回复,但是无论我尝试什么,我仍然无法将我的文件导入Python.这是我的代码和我收到的错误:
import pandas as pd
import xlrd
file_location = 'C:\Users\cagdak\Desktop\python_self_learning\Coursera\sample_data.xlsx'
workbook = xlrd.open_workbook(file_location)
错误:
IOError: [Errno 2] No such file or directory: 'C:\\Users\\cagdak\\Desktop\\python_self_learning\\Coursera\\sample_data.xlsx'
我正在尝试显示树输出,但是当我运行下面的脚本时,我收到如下错误:
InvocationException: 找不到 GraphViz 的可执行文件
我在这里搜索过类似的主题,但大多数都与 Mac 相关。我使用的是 Windows 10 64 位操作系统,我使用的是 Anaconda-3 64 位。我很想听听您对此的建议。
#Displaying the decision tree
from sklearn import tree
#from StringIO import StringIO
from io import StringIO
#from StringIO import StringIO 
from IPython.display import Image
out = StringIO()
tree.export_graphviz(classifier, out_file=out)
import pydotplus
graph=pydotplus.graph_from_dot_data(out.getvalue())
Image(graph.create_png())
编辑:我再次安装了 graphviz 和 pydotplus 模块,但现在仍然可以工作。
我试图将每列的百分比分布的输出显示为数据框,因为我想稍后将其导出到 csv。
我只是像这样循环了所有列:
for column in data:
    print(data[column].describe([.01,.1,.2,.3,.4,.5,.6,.7,.8,.9,.99]))
但是,我不知道如何休息。非常感谢任何帮助!
+使用附加查询编辑主要问题:
我还想按列对我的输出进行分组,例如data.groupby(data['MARKET']).describe([.01,.1,.2,.3,.4,.5,.6??,.7,.8,.9,.99])但是,我收到类似“describe() 需要 1 个位置参数但给出了 2 个”的错误。我该如何处理这个问题?
样本数据集:
d = {'col1': [1, 2, 3, 2, 1],
     'col2': [3, 4, 5, 6, 7], 
     'country': ['TR', 'UK', 'UK' , 'TR', 'TR']};
df = pd.DataFrame(data=d)
我是 sqllite3 的新手,并试图了解如何使用现有的数据帧在 sql 环境中创建表。我已经有一个创建为“pythonsqlite.db”的数据库
#import my csv to python
import pandas as pd
my_data = pd.read_csv("my_input_file.csv")
## connect to database
import sqlite3
conn = sqlite3.connect("pythonsqlite.db")
##push the dataframe to sql 
my_data.to_sql("my_data", conn, if_exists="replace")
##create the table
conn.execute(
    """
    create table my_table as 
    select * from my_data
    """)
但是,当我导航到 SQLlite studio 并检查数据库下的表时,我看不到我创建的表。如果有人告诉我我在这里缺少什么,我将非常感激。
['numpy.float64' object is not callable]当我运行时程序抛出错误:
auc(recall, precision)
直到今天,我才能成功运行它。我很感激这方面的任何帮助,谢谢!我也用 () 尝试过,但没有用。
fit_logreg = LogisticRegression(class_weight='balanced', verbose=0)
fit_logreg.set_params(penalty = 'l2',
                  C = 0.00001, 
                  n_jobs=-1,
                  verbose=0
                  )
###########################################################
###4#TRAIN THE FITTING MODEL ON THE TRAINING DATASET###
###########################################################
# fit a model
fit_logreg.fit(trainX, trainy)
# score the test dataset
predictions_logreg = fit_logreg.predict(testX)
#predictions_logreg = predictions_logreg.values.ravel() 
###########################################################
###5#OOB ERROR AND CLASSIFICATION SUCCESS METRICS###
###########################################################
##ROC AUC SCORE
roc_auc_score(testy, predictions_logreg,average='macro')
##RECALL-PRECISION CURVE
# predict probabilities
probs = fit_logreg.predict_proba(testX)
# keep probabilities for the positive outcome only …我知道这是一个非常经典的问题,可能会在本论坛中多次回答,但是我找不到任何明确的答案从头开始清楚地解释这一点。
首先,我的数据集 my_data 有 4 个变量,例如 my_data = variable1、variable2、variable3、target_variable
所以,让我们来解决我的问题。我将解释我的所有步骤,并就我遇到的问题寻求您的帮助:
# STEP1 : split my_data into [predictors] and [targets]
predictors = my_data[[
'variable1',
'variable2',
'variable3'
]]
targets = my_data.target_variable
# STEP2 : import the required libraries
from sklearn import cross_validation
from sklearn.ensemble import RandomForestRegressor
#STEP3 : define a simple Random Forest model attirbutes
model = RandomForestClassifier(n_estimators=100)
#STEP4 : Simple K-Fold cross validation. 3 folds.
cv = cross_validation.KFold(len(my_data), n_folds=3,  random_state=30)
# STEP 5
在这一步,我想根据训练数据集拟合我的模型,然后在测试数据集上使用该模型并预测测试目标。我还想计算所需的统计数据,例如 MSE、r2 等,以了解我的模型的性能。
如果有人帮助我了解 Step5 的一些基本代码行,我将不胜感激。
regression machine-learning random-forest scikit-learn cross-validation
python ×5
dataframe ×2
anaconda ×1
create-table ×1
graphviz ×1
loops ×1
object ×1
pandas ×1
percentile ×1
python-3.x ×1
regression ×1
scikit-learn ×1
sqlite ×1