标签: kaggle

值为错误:sklearn.RFECV中不支持unknown

我试图使用rfecv缩小与我的分类器真正相关的功能数量.这是我写的代码

import sklearn
import pandas as p
import numpy as np
import scipy as sp
import pylab as pl
from sklearn import linear_model, cross_validation, metrics
from sklearn.svm import SVC
from sklearn.feature_selection import RFECV
from sklearn.metrics import zero_one_loss
from sklearn import preprocessing
#from sklearn.feature_extraction.text import CountVectorizer
#from sklearn.feature_selection import SelectKBest, chi2

modelType = "notext"

# ----------------------------------------------------------
# Prepare the Data
# ----------------------------------------------------------
training_data = np.array(p.read_table('F:/NYC/NYU/SM/3/SNLP/Project/Data/train.tsv'))
print ("Read Data\n")

# get the target variable and set it as Y so we can …
Run Code Online (Sandbox Code Playgroud)

python numpy scikit-learn kaggle

6
推荐指数
1
解决办法
8863
查看次数

Kaggle TypeError:切片索引必须是整数或无或具有__index__方法

我试图以这种方式在Kaggle笔记本上绘制一个seaborn直方图:

 sns.distplot(myseries, bins=50, kde=True)
Run Code Online (Sandbox Code Playgroud)

但我得到这个错误:

TypeError: slice indices must be integers or None or have an __index__ method
Run Code Online (Sandbox Code Playgroud)

这是Kaggle笔记本:https://www.kaggle.com/asindico/slice-indices-must-be-integers-or-none/

这是系列头:

0     5850000
1     6000000
2     5700000
3    13100000
4    16331452
Name: price_doc, dtype: int64
Run Code Online (Sandbox Code Playgroud)

python pandas seaborn jupyter kaggle

6
推荐指数
1
解决办法
2117
查看次数

Kaggle 数据集到 jupyter notebook

我正在尝试将一些数据从 kaggle 导入笔记本。我收到的错误是未经授权的 401,但是我已经接受了比赛规则并且可以下载数据。

这是我正在运行的代码:

from kaggle.api.kaggle_api_extended import KaggleApi

api = KaggleApi()
files = api.competition_download_files("twosigmanews")
api.competitions_submit("submission.csv", "my submission message", "twosigmanews")
Run Code Online (Sandbox Code Playgroud)

编辑:添加了更多错误:无论我想导入哪个 kaggle 数据,我都会得到相同的错误。


ApiException                              Traceback (most recent call last)
<ipython-input-7-65a92f19da82> in <module>()
      2 
      3 api = KaggleApi()
----> 4 files = api.competition_download_files("twosigmanews")
      5 api.competitions_submit("submission.csv", "my submission message", "twosigmanews")

~\Anaconda3\lib\site-packages\kaggle\api\kaggle_api_extended.py in competition_download_files(self, competition, path, force, quiet)
    637             quiet: suppress verbose output (default is False)
    638         """
--> 639         files = self.competition_list_files(competition)
    640         if not files:
    641             print('This competition does not have …
Run Code Online (Sandbox Code Playgroud)

python kaggle

6
推荐指数
1
解决办法
1万
查看次数

在Google Colab中设置环境变量

我正在尝试使用Kaggle CLI API,为了做到这一点,而不是kaggle.json用于身份验证,而是使用环境变量来设置凭据

!pip install --upgrade kaggle

!export KAGGLE_USERNAME=abcdefgh
!export KAGGLE_KEY=abcdefgh

!export -p
Run Code Online (Sandbox Code Playgroud)

但是,环境的打印清单。变量不包含我在上面设置的变量。

declare -x CLICOLOR="1"
declare -x CLOUDSDK_CONFIG="/content/.config"
declare -x COLAB_GPU="1"
declare -x CUDA_PKG_VERSION="9-2=9.2.148-1"
declare -x CUDA_VERSION="9.2.148"
declare -x CUDNN_VERSION="7.4.1.5"
declare -x DATALAB_SETTINGS_OVERRIDES="{\"kernelManagerProxyPort\":6000,\"kernelManagerProxyHost\":\"172.28.0.3\",\"jupyterArgs\":[\"notebook\",\"-y\",\"--no-browser\",\"--log-level=DEBUG\",\"--debug\",\"--NotebookApp.allow_origin=\\\"*\\\"\",\"--NotebookApp.log_format=\\\"%(message)s\\\"\",\"--NotebookApp.disable_check_xsrf=True\",\"--NotebookApp.token=\",\"--Session.key=\\\"\\\"\",\"--Session.keyfile=\\\"\\\"\",\"--ContentsManager.untitled_directory=\\\"Untitled Folder\\\"\",\"--ContentsManager.untitled_file=\\\"Untitled File\\\"\",\"--ContentsManager.untitled_notebook=\\\"Untitled Notebook\\\"\",\"--KernelManager.autorestart=True\",\"--ip=\\\"172.28.0.2\\\"\"]}"
declare -x DEBIAN_FRONTEND="noninteractive"
declare -x ENV="/root/.bashrc"
declare -x GIT_PAGER="cat"
declare -x GLIBCPP_FORCE_NEW="1"
declare -x GLIBCXX_FORCE_NEW="1"
declare -x HOME="/root"
declare -x HOSTNAME="2ced809e9844"
declare -x JPY_PARENT_PID="57"
declare -x LANG="en_US.UTF-8"
declare -x LD_LIBRARY_PATH="/usr/lib64-nvidia"
declare -x LD_PRELOAD="/usr/lib/x86_64-linux-gnu/libtcmalloc.so.4"
declare -x MPLBACKEND="module://ipykernel.pylab.backend_inline"
declare -x …
Run Code Online (Sandbox Code Playgroud)

kaggle google-colaboratory

6
推荐指数
2
解决办法
3806
查看次数

谷歌合作使用kaggle,服务器版本1.5.6,客户端版本1.5.4,升级失败

我想在 google colaboratory 中使用 kaggle API。安装的客户端是1.5.4,服务器是1.5.6。运行 install 和 upgrade kaggle via 后pip,系统仍然调用1.5.4版本

我尝试使用 pip 安装和升级 kaggle 包。不起作用。我也尝试重新启动会话/运行时。

!pip install kaggle/pip install kaggle --upgrade
Run Code Online (Sandbox Code Playgroud)
Requirement already up-to-date: kaggle in /usr/local/lib/python3.6/dist-packages (1.5.6)
Requirement already satisfied, skipping upgrade: requests in /usr/local/lib/python3.6/dist-packages (from kaggle) (2.21.0)
Requirement already satisfied, skipping upgrade: certifi in /usr/local/lib/python3.6/dist-packages (from kaggle) (2019.9.11)
Requirement already satisfied, skipping upgrade: tqdm in /usr/local/lib/python3.6/dist-packages (from kaggle) (4.28.1)
Requirement already satisfied, skipping upgrade: python-dateutil in /usr/local/lib/python3.6/dist-packages (from kaggle) (2.6.1)
Requirement already satisfied, skipping …
Run Code Online (Sandbox Code Playgroud)

version kaggle google-colaboratory

6
推荐指数
1
解决办法
4939
查看次数

Pytorch tensor.save() 为来自 MNIST 的小张量生成大文件

我正在使用来自Kaggle challange 的MNIST 数据集,并且在数据预处理方面遇到了麻烦。此外,我不知道什么是最佳实践,想知道您是否可以就此提出建议。

免责声明:我不能只使用 torchvision.datasets.mnist 因为我需要使用 Kaggle 的数据进行训练和提交。

教程中,建议创建一个从文件加载 .pt 张量的 Dataset 对象,以充分利用 GPU。为了实现这一点,我需要加载 Kaggle 提供的 csv 数据并将其保存为 .pt 文件:

import pandas as pd
import torch
import numpy as np

# import data
digits_train = pd.read_csv('data/train.csv')

train_tensor = torch.tensor(digits_train.drop(label, axis=1).to_numpy(), dtype=torch.int)
labels_tensor = torch.tensor(digits_train[label].to_numpy()) 

for i in range(train_tensor.shape[0]):
    torch.save(train_tensor[i], "data/train-" + str(i) + ".pt")

Run Code Online (Sandbox Code Playgroud)

每个train_tensor[i].shapetorch.Size([1, 784])

但是,每个此类 .pt 文件的大小约为 130MB。相同大小的张量,随机生成整数,大小为 6.6kB。为什么这些张量如此巨大,我该如何减小它们的大小?

数据集是 42 000 个样本。我什至应该打扰批处理这些数据吗?我是否应该费心将张量保存到单独的文件中,而不是将它们全部加载到 RAM 中然后分批?这里最好的方法是什么?

python data-science pytorch kaggle

6
推荐指数
1
解决办法
2590
查看次数

从 Kaggle 下载文件到 Google Colab

我想将手语数据集从Kaggle下载到我的 Colab。

到目前为止,我一直使用 wget 和特定的 zip 文件链接,例如:

!wget --no-check-certificate \
    https://storage.googleapis.com/laurencemoroney-blog.appspot.com/rps.zip \
    -O /tmp/rps.zip
Run Code Online (Sandbox Code Playgroud)

但是,当我右键单击 Kaggle 上的下载按钮并选择复制链接以将路径复制到剪贴板并输出时,我得到:

https://www.kaggle.com/datamunge/sign-language-mnist/download

当我在浏览器中使用此链接时,系统要求我下载它。我可以看到文件名是 3258_5337_bundle_archive.zip

所以我试过:

!wget --no-check-certificate \
        https://www.kaggle.com/datamunge/sign-language-mnist/download3258_5337_bundle_archive.zip  \
        -O /tmp/kds.zip
Run Code Online (Sandbox Code Playgroud)

并尝试过:

 !wget --no-check-certificate \
            https://www.kaggle.com/datamunge/sign-language-mnist/download3258_5337_bundle_archive.zip  \
            -O /tmp/kds.zip
Run Code Online (Sandbox Code Playgroud)

我得到作为输出:

前

所以它不起作用。找不到文件或返回的 zip 存档不是 101mb 大,而只有几 kb。此外,当尝试解压缩它时,它不起作用。

如何将此文件下载到我的 colab(直接使用 wget?)?

ubuntu wget download kaggle google-colaboratory

6
推荐指数
1
解决办法
931
查看次数

将 Kaggle csv 从下载网址导入到 pandas DataFrame

我一直在尝试不同的方法将Kaggle上的SpaceX 任务csv 文件直接导入 pandas DataFrame,但没有成功。

我需要发送登录请求。这是我到目前为止所拥有的:

import requests
import pandas as pd
from io import StringIO

# Link to the Kaggle data set & name of zip file
login_url = 'http://www.kaggle.com/account/login?ReturnUrl=/spacex/spacex-missions/downloads/database.csv'

# Kaggle Username and Password
kaggle_info = {'UserName': "user", 'Password': "pwd"}

# Login to Kaggle and retrieve the data.
r = requests.post(login_url, data=kaggle_info, stream=True)
df = pd.read_csv(StringIO(r.text))
Run Code Online (Sandbox Code Playgroud)

r 正在返回页面的 html 内容。 df = pd.read_csv(url)给出 CParser 错误: CParserError: Error tokenizing data. C error: Expected 1 …

csv pandas python-requests kaggle

5
推荐指数
1
解决办法
6580
查看次数

无法在 Pytorch 版本 1.5.1 中加载在 Pytotch 版本 1.6.0 上训练的模型

我最近在1.6.0本地机器上更新了我的 Pytorch 版本以使用他们的混合精度训练,从那时起我遇到了这个问题,我尝试了这里提到的解决方案,但它仍然抛出以下错误。

RuntimeError: version_ <= kMaxSupportedFileFormatVersion INTERNAL ASSERT FAILED at /opt/conda/conda-bld/pytorch_1591914880026/work/caffe2/serialize/inline_container.cc:132, please report a bug to PyTorch. Attempted to read a PyTorch file with version 4, but the maximum supported version for reading is 3. Your PyTorch installation may be too old.

Run Code Online (Sandbox Code Playgroud)

重现链接:https://www.kaggle.com/rohitsingh9990/error-reducing-code ?scriptVersionId=37468859

任何帮助将不胜感激,提前致谢。

python-3.x pytorch kaggle

5
推荐指数
1
解决办法
6639
查看次数

OSError:libmkl_intel_lp64.so.1:无法打开共享对象文件:没有这样的文件或目录

我正在尝试在Colab Notebook中给出的 TPU 上运行模型。该模型运行良好,但今天我无法运行该模型。

我使用以下代码来安装 pytorch-xla。

VERSION = "nightly"  #@param ["1.5" , "20200325", "nightly"]
!curl https://raw.githubusercontent.com/pytorch/xla/master/contrib/scripts/env-setup.py -o pytorch-xla-env-setup.py
!python pytorch-xla-env-setup.py --version $VERSION
Run Code Online (Sandbox Code Playgroud)

我尝试安装所需的库,如下所示:

!pip install -U nlp
!pip install sentencepiece
!pip install numpy --upgrade
Run Code Online (Sandbox Code Playgroud)

但是,当我尝试以下操作时

import nlp
Run Code Online (Sandbox Code Playgroud)

它给出以下错误:

OSError: libmkl_intel_lp64.so.1: cannot open shared object file: No such file or directory
Run Code Online (Sandbox Code Playgroud)

我搜索了错误并尝试了以下操作,但仍然不起作用。有什么想法如何修复它吗?注意:几天前还可以,但今天不行了。

!pip install mkl
#!export PATH="$PATH:/opt/intel/bin"
#!export LD_LIBRARY_PATH="$PATH:opt/intel/mkl/lib/intel64_lin/"
!export LID_LIBRAEY_PATH="$LID_LIBRARY_PATH:/opt/intel/mkl/lib/intel64_lin/"
Run Code Online (Sandbox Code Playgroud)

pytorch kaggle google-colaboratory tpu huggingface-transformers

5
推荐指数
1
解决办法
1万
查看次数