标签: kaggle

将 Kaggle csv 从下载网址导入到 pandas DataFrame

我一直在尝试不同的方法将Kaggle上的SpaceX 任务csv 文件直接导入 pandas DataFrame,但没有成功。

我需要发送登录请求。这是我到目前为止所拥有的:

import requests
import pandas as pd
from io import StringIO

# Link to the Kaggle data set & name of zip file
login_url = 'http://www.kaggle.com/account/login?ReturnUrl=/spacex/spacex-missions/downloads/database.csv'

# Kaggle Username and Password
kaggle_info = {'UserName': "user", 'Password': "pwd"}

# Login to Kaggle and retrieve the data.
r = requests.post(login_url, data=kaggle_info, stream=True)
df = pd.read_csv(StringIO(r.text))
Run Code Online (Sandbox Code Playgroud)

r 正在返回页面的 html 内容。 df = pd.read_csv(url)给出 CParser 错误: CParserError: Error tokenizing data. C error: Expected 1 …

csv pandas python-requests kaggle

5
推荐指数
1
解决办法
6580
查看次数

如何在Windows系统上执行Kaggle Api命令?

我指的是https://github.com/Kaggle/kaggle-api

我尝试在 Windows CMD 和 Python 的 IDLE 中执行页面上列出的示例命令。不确定应该在哪里执行或者如何转到 Kaggle CLI?

例如。命令:kaggle 数据集列表 -s 人口统计

Windows CMD 说:“kaggle”不被识别为内部或外部命令、可操作程序或批处理文件。

python api scripting kaggle

5
推荐指数
1
解决办法
4535
查看次数

使用 fastai 的 learn.lr_find() 选择 learning_rate

我正在阅读Kaggle 上发布的这个Heroes Recognition ResNet34 notebook。

作者使用fastai的learn.lr_find()方法求最优学习率。

根据学习率绘制损失函数会产生下图:

在此处输入图片说明

似乎损失达到了 1e-1 的最小值,但在下一步中,作者将 1e-2 作为 max_lr 传入fit_one_cycle以训练他的模型:

learn.fit_one_cycle(6,1e-2)

为什么在这个例子中使用 1e-2 而不是 1e-1?这不会只会使训练变慢吗?

pytorch kaggle fast-ai cnn

5
推荐指数
1
解决办法
3209
查看次数

无法在 Pytorch 版本 1.5.1 中加载在 Pytotch 版本 1.6.0 上训练的模型

我最近在1.6.0本地机器上更新了我的 Pytorch 版本以使用他们的混合精度训练,从那时起我遇到了这个问题,我尝试了这里提到的解决方案,但它仍然抛出以下错误。

RuntimeError: version_ <= kMaxSupportedFileFormatVersion INTERNAL ASSERT FAILED at /opt/conda/conda-bld/pytorch_1591914880026/work/caffe2/serialize/inline_container.cc:132, please report a bug to PyTorch. Attempted to read a PyTorch file with version 4, but the maximum supported version for reading is 3. Your PyTorch installation may be too old.

Run Code Online (Sandbox Code Playgroud)

重现链接:https://www.kaggle.com/rohitsingh9990/error-reducing-code ?scriptVersionId=37468859

任何帮助将不胜感激,提前致谢。

python-3.x pytorch kaggle

5
推荐指数
1
解决办法
6639
查看次数

如何根据pandas中的其他列求和一列的值?

使用如下所示的数据框(下面的文本版本): 在此输入图像描述

我应该计算自 2010 年以来哪个国家在锦标赛中进球最多。到目前为止,我已经成功地通过过滤掉友军来操纵数据框,如下所示:

no_friendlies = df[df.tournament != "Friendly"]
Run Code Online (Sandbox Code Playgroud)

然后我将日期列设置为索引,以便过滤掉 2010 年之前的所有匹配项:

no_friendlies_indexed = no_friendlies.set_index('date')
since_2010 = no_friendlies_indexed.loc['2010-01-01':]
Run Code Online (Sandbox Code Playgroud)

从现在起我就很迷茫了,因为我不知道如何计算每个国家主客场的进球数

任何帮助/建议表示赞赏!

编辑:

示例数据的文本版本:

date    home_team   away_team   home_score  away_score  tournament  city    country     neutral
0   1872-11-30  Scotland    England     0   0       Friendly    Glasgow     Scotland    False
1   1873-03-08  England     Scotland    4   2       Friendly    London  England     False
2   1874-03-07  Scotland    England     2   1       Friendly    Glasgow     Scotland    False
3   1875-03-06  England     Scotland    2   2       Friendly    London  England     False
4   1876-03-04  Scotland    England     3   0       Friendly    Glasgow     Scotland …
Run Code Online (Sandbox Code Playgroud)

python pandas kaggle

5
推荐指数
1
解决办法
6411
查看次数

OSError:libmkl_intel_lp64.so.1:无法打开共享对象文件:没有这样的文件或目录

我正在尝试在Colab Notebook中给出的 TPU 上运行模型。该模型运行良好,但今天我无法运行该模型。

我使用以下代码来安装 pytorch-xla。

VERSION = "nightly"  #@param ["1.5" , "20200325", "nightly"]
!curl https://raw.githubusercontent.com/pytorch/xla/master/contrib/scripts/env-setup.py -o pytorch-xla-env-setup.py
!python pytorch-xla-env-setup.py --version $VERSION
Run Code Online (Sandbox Code Playgroud)

我尝试安装所需的库,如下所示:

!pip install -U nlp
!pip install sentencepiece
!pip install numpy --upgrade
Run Code Online (Sandbox Code Playgroud)

但是,当我尝试以下操作时

import nlp
Run Code Online (Sandbox Code Playgroud)

它给出以下错误:

OSError: libmkl_intel_lp64.so.1: cannot open shared object file: No such file or directory
Run Code Online (Sandbox Code Playgroud)

我搜索了错误并尝试了以下操作,但仍然不起作用。有什么想法如何修复它吗?注意:几天前还可以,但今天不行了。

!pip install mkl
#!export PATH="$PATH:/opt/intel/bin"
#!export LD_LIBRARY_PATH="$PATH:opt/intel/mkl/lib/intel64_lin/"
!export LID_LIBRAEY_PATH="$LID_LIBRARY_PATH:/opt/intel/mkl/lib/intel64_lin/"
Run Code Online (Sandbox Code Playgroud)

pytorch kaggle google-colaboratory tpu huggingface-transformers

5
推荐指数
1
解决办法
1万
查看次数

AttributeError:“Simple_Imputer”对象在 PyCaret 中没有属性“fill_value_categorical”

我正在使用 PyCaret 并收到错误。

AttributeError: 'Simple_Imputer' object has no attribute 'fill_value_categorical'

尝试创建一个基本实例。

!pip install pycaret==1.0

from pycaret.regression import *
exp_reg = setup(data=df, target='Survived', session_id=2)
Run Code Online (Sandbox Code Playgroud)

python machine-learning kaggle pycaret

5
推荐指数
1
解决办法
5509
查看次数

如何将 Kaggle R 笔记本转换为 pdf 或 html?

我在Kaggle中有一个R笔记本,我想将其转换为 pdf 或 html。我在论坛中找到的所有解决方案似乎都是面向Python的。

有什么办法可以得到它吗?有没有第三方工具可以将其转换为我选择的格式?

r rnotebook kaggle

5
推荐指数
1
解决办法
1965
查看次数

在 Kaggle 上训练模型时反复收到“清理已调用...”消息。我们怎样才能摆脱这个呢?(使用 Keras 的 CNN 模型)

model.compile(optimizer='adam',loss='categorical_crossentropy', metrics=['accuracy'])

history = model.fit(train_data,epochs = 1,validation_data = test_data,verbose=1, callbacks =[earlystopping, csv_logger])

9/87606 [..............................] - ETA: 20:44 - loss: 0.2311 - accuracy: 0.8889 

Cleanup called...
Cleanup called...
Cleanup called...
Cleanup called...
Cleanup called...
Cleanup called...
Cleanup called...
Cleanup called...
Cleanup called...
Cleanup called...
Cleanup called...
Cleanup called...
Cleanup called...
Cleanup called...
Cleanup called...
Cleanup called...
Cleanup called...
Cleanup called...
Cleanup called...
Cleanup called...
Cleanup called...
Cleanup called...
Run Code Online (Sandbox Code Playgroud)

deep-learning conv-neural-network keras tensorflow kaggle

5
推荐指数
1
解决办法
2096
查看次数

什么"指数参数已被弃用并将被删除(假定为真)0.17"是什么意思?

我刚开始学习python并道歉,如果这是一个非常基本的问题/错误.

我在做Kaggle生物反应教程.我收到了这个错误

C:\ Anaconda\lib\site-packages\sklearn\cross_validation.py:65:DeprecationWarning:不推荐使用indices参数,并且将在0.17 stacklevel = 1中删除(假设为True)结果:0.458614231133

谁知道这意味着什么?我谷歌它死了,找不到答案.

我正在运行的脚本是:

from sklearn.ensemble import RandomForestClassifier
from sklearn import cross_validation
import logloss
import numpy as np

def main():
    #read in  data, parse into training and target sets
    dataset = np.genfromtxt(open('train.csv','r'), delimiter=',', dtype='f8')[1:]
    target = np.array([x[0] for x in dataset])
    train = np.array([x[1:] for x in dataset])

    #In this case we'll use a random forest, but this could be any classifier
    cfr = RandomForestClassifier(n_estimators=100)

    #Simple K-Fold cross validation. 5 folds.
    #(Note: in older scikit-learn …
Run Code Online (Sandbox Code Playgroud)

python machine-learning python-2.7 kaggle

4
推荐指数
1
解决办法
955
查看次数