标签: kaggle

值为错误:sklearn.RFECV中不支持unknown

我试图使用rfecv缩小与我的分类器真正相关的功能数量.这是我写的代码

import sklearn
import pandas as p
import numpy as np
import scipy as sp
import pylab as pl
from sklearn import linear_model, cross_validation, metrics
from sklearn.svm import SVC
from sklearn.feature_selection import RFECV
from sklearn.metrics import zero_one_loss
from sklearn import preprocessing
#from sklearn.feature_extraction.text import CountVectorizer
#from sklearn.feature_selection import SelectKBest, chi2

modelType = "notext"

# ----------------------------------------------------------
# Prepare the Data
# ----------------------------------------------------------
training_data = np.array(p.read_table('F:/NYC/NYU/SM/3/SNLP/Project/Data/train.tsv'))
print ("Read Data\n")

# get the target variable and set it as Y so we can …

Run Code Online (Sandbox Code Playgroud)

python numpy scikit-learn kaggle

XCo*_*ion

2017 03-03

6
推荐指数

1
解决办法

8863
查看次数

Kaggle TypeError:切片索引必须是整数或无或具有index方法

我试图以这种方式在Kaggle笔记本上绘制一个seaborn直方图:

 sns.distplot(myseries, bins=50, kde=True)

Run Code Online (Sandbox Code Playgroud)

但我得到这个错误:

TypeError: slice indices must be integers or None or have an __index__ method

Run Code Online (Sandbox Code Playgroud)

这是Kaggle笔记本:https://www.kaggle.com/asindico/slice-indices-must-be-integers-or-none/

这是系列头:

0     5850000
1     6000000
2     5700000
3    13100000
4    16331452
Name: price_doc, dtype: int64

Run Code Online (Sandbox Code Playgroud)

python pandas seaborn jupyter kaggle

Sin*_*ico

2017 05-20

6
推荐指数

1
解决办法

2117
查看次数

Kaggle 数据集到 jupyter notebook

我正在尝试将一些数据从 kaggle 导入笔记本。我收到的错误是未经授权的 401，但是我已经接受了比赛规则并且可以下载数据。

这是我正在运行的代码：

from kaggle.api.kaggle_api_extended import KaggleApi

api = KaggleApi()
files = api.competition_download_files("twosigmanews")
api.competitions_submit("submission.csv", "my submission message", "twosigmanews")

Run Code Online (Sandbox Code Playgroud)

编辑：添加了更多错误：无论我想导入哪个 kaggle 数据，我都会得到相同的错误。

ApiException                              Traceback (most recent call last)
<ipython-input-7-65a92f19da82> in <module>()
      2 
      3 api = KaggleApi()
----> 4 files = api.competition_download_files("twosigmanews")
      5 api.competitions_submit("submission.csv", "my submission message", "twosigmanews")

~\Anaconda3\lib\site-packages\kaggle\api\kaggle_api_extended.py in competition_download_files(self, competition, path, force, quiet)
    637             quiet: suppress verbose output (default is False)
    638         """
--> 639         files = self.competition_list_files(competition)
    640         if not files:
    641             print('This competition does not have …

Run Code Online (Sandbox Code Playgroud)

python kaggle

use*_*156

2018 10-07

6
推荐指数

1
解决办法

1万
查看次数

在Google Colab中设置环境变量

我正在尝试使用Kaggle CLI API，为了做到这一点，而不是kaggle.json用于身份验证，而是使用环境变量来设置凭据。

!pip install --upgrade kaggle

!export KAGGLE_USERNAME=abcdefgh
!export KAGGLE_KEY=abcdefgh

!export -p

Run Code Online (Sandbox Code Playgroud)

但是，环境的打印清单。变量不包含我在上面设置的变量。

declare -x CLICOLOR="1"
declare -x CLOUDSDK_CONFIG="/content/.config"
declare -x COLAB_GPU="1"
declare -x CUDA_PKG_VERSION="9-2=9.2.148-1"
declare -x CUDA_VERSION="9.2.148"
declare -x CUDNN_VERSION="7.4.1.5"
declare -x DATALAB_SETTINGS_OVERRIDES="{\"kernelManagerProxyPort\":6000,\"kernelManagerProxyHost\":\"172.28.0.3\",\"jupyterArgs\":[\"notebook\",\"-y\",\"--no-browser\",\"--log-level=DEBUG\",\"--debug\",\"--NotebookApp.allow_origin=\\\"*\\\"\",\"--NotebookApp.log_format=\\\"%(message)s\\\"\",\"--NotebookApp.disable_check_xsrf=True\",\"--NotebookApp.token=\",\"--Session.key=\\\"\\\"\",\"--Session.keyfile=\\\"\\\"\",\"--ContentsManager.untitled_directory=\\\"Untitled Folder\\\"\",\"--ContentsManager.untitled_file=\\\"Untitled File\\\"\",\"--ContentsManager.untitled_notebook=\\\"Untitled Notebook\\\"\",\"--KernelManager.autorestart=True\",\"--ip=\\\"172.28.0.2\\\"\"]}"
declare -x DEBIAN_FRONTEND="noninteractive"
declare -x ENV="/root/.bashrc"
declare -x GIT_PAGER="cat"
declare -x GLIBCPP_FORCE_NEW="1"
declare -x GLIBCXX_FORCE_NEW="1"
declare -x HOME="/root"
declare -x HOSTNAME="2ced809e9844"
declare -x JPY_PARENT_PID="57"
declare -x LANG="en_US.UTF-8"
declare -x LD_LIBRARY_PATH="/usr/lib64-nvidia"
declare -x LD_PRELOAD="/usr/lib/x86_64-linux-gnu/libtcmalloc.so.4"
declare -x MPLBACKEND="module://ipykernel.pylab.backend_inline"
declare -x …

Run Code Online (Sandbox Code Playgroud)

kaggle google-colaboratory

Arp*_*gia

2018 11-15

6
推荐指数

2
解决办法

3806
查看次数

谷歌合作使用kaggle，服务器版本1.5.6，客户端版本1.5.4，升级失败

我想在 google colaboratory 中使用 kaggle API。安装的客户端是1.5.4，服务器是1.5.6。运行 install 和 upgrade kaggle via 后pip，系统仍然调用1.5.4版本

我尝试使用 pip 安装和升级 kaggle 包。不起作用。我也尝试重新启动会话/运行时。

!pip install kaggle/pip install kaggle --upgrade

Run Code Online (Sandbox Code Playgroud)

Requirement already up-to-date: kaggle in /usr/local/lib/python3.6/dist-packages (1.5.6)
Requirement already satisfied, skipping upgrade: requests in /usr/local/lib/python3.6/dist-packages (from kaggle) (2.21.0)
Requirement already satisfied, skipping upgrade: certifi in /usr/local/lib/python3.6/dist-packages (from kaggle) (2019.9.11)
Requirement already satisfied, skipping upgrade: tqdm in /usr/local/lib/python3.6/dist-packages (from kaggle) (4.28.1)
Requirement already satisfied, skipping upgrade: python-dateutil in /usr/local/lib/python3.6/dist-packages (from kaggle) (2.6.1)
Requirement already satisfied, skipping …

Run Code Online (Sandbox Code Playgroud)

version kaggle google-colaboratory

bsa*_*var

2019 12-11

6
推荐指数

1
解决办法

4939
查看次数

Pytorch tensor.save() 为来自 MNIST 的小张量生成大文件

我正在使用来自Kaggle challange 的MNIST 数据集，并且在数据预处理方面遇到了麻烦。此外，我不知道什么是最佳实践，想知道您是否可以就此提出建议。

免责声明：我不能只使用 torchvision.datasets.mnist 因为我需要使用 Kaggle 的数据进行训练和提交。

在本教程中，建议创建一个从文件加载 .pt 张量的 Dataset 对象，以充分利用 GPU。为了实现这一点，我需要加载 Kaggle 提供的 csv 数据并将其保存为 .pt 文件：

import pandas as pd
import torch
import numpy as np

# import data
digits_train = pd.read_csv('data/train.csv')

train_tensor = torch.tensor(digits_train.drop(label, axis=1).to_numpy(), dtype=torch.int)
labels_tensor = torch.tensor(digits_train[label].to_numpy()) 

for i in range(train_tensor.shape[0]):
    torch.save(train_tensor[i], "data/train-" + str(i) + ".pt")

Run Code Online (Sandbox Code Playgroud)

每个train_tensor[i].shape是torch.Size([1, 784])

但是，每个此类 .pt 文件的大小约为 130MB。相同大小的张量，随机生成整数，大小为 6.6kB。为什么这些张量如此巨大，我该如何减小它们的大小？

数据集是 42 000 个样本。我什至应该打扰批处理这些数据吗？我是否应该费心将张量保存到单独的文件中，而不是将它们全部加载到 RAM 中然后分批？这里最好的方法是什么？

python data-science pytorch kaggle

san*_*sar

lucky-day

6
推荐指数

1
解决办法

2590
查看次数

从 Kaggle 下载文件到 Google Colab

我想将手语数据集从Kaggle下载到我的 Colab。

到目前为止，我一直使用 wget 和特定的 zip 文件链接，例如：

!wget --no-check-certificate \
    https://storage.googleapis.com/laurencemoroney-blog.appspot.com/rps.zip \
    -O /tmp/rps.zip

Run Code Online (Sandbox Code Playgroud)

但是，当我右键单击 Kaggle 上的下载按钮并选择复制链接以将路径复制到剪贴板并输出时，我得到：

https://www.kaggle.com/datamunge/sign-language-mnist/download

当我在浏览器中使用此链接时，系统要求我下载它。我可以看到文件名是 3258_5337_bundle_archive.zip

所以我试过：

!wget --no-check-certificate \
        https://www.kaggle.com/datamunge/sign-language-mnist/download3258_5337_bundle_archive.zip  \
        -O /tmp/kds.zip

Run Code Online (Sandbox Code Playgroud)

并尝试过：

 !wget --no-check-certificate \
            https://www.kaggle.com/datamunge/sign-language-mnist/download3258_5337_bundle_archive.zip  \
            -O /tmp/kds.zip

Run Code Online (Sandbox Code Playgroud)

我得到作为输出：

所以它不起作用。找不到文件或返回的 zip 存档不是 101mb 大，而只有几 kb。此外，当尝试解压缩它时，它不起作用。

如何将此文件下载到我的 colab（直接使用 wget？）？

ubuntu wget download kaggle google-colaboratory

Sta*_*ian

2020 07-06

6
推荐指数

1
解决办法

931
查看次数

将 Kaggle csv 从下载网址导入到 pandas DataFrame

我一直在尝试不同的方法将Kaggle上的SpaceX 任务csv 文件直接导入 pandas DataFrame，但没有成功。

我需要发送登录请求。这是我到目前为止所拥有的：

import requests
import pandas as pd
from io import StringIO

# Link to the Kaggle data set & name of zip file
login_url = 'http://www.kaggle.com/account/login?ReturnUrl=/spacex/spacex-missions/downloads/database.csv'

# Kaggle Username and Password
kaggle_info = {'UserName': "user", 'Password': "pwd"}

# Login to Kaggle and retrieve the data.
r = requests.post(login_url, data=kaggle_info, stream=True)
df = pd.read_csv(StringIO(r.text))

Run Code Online (Sandbox Code Playgroud)

r 正在返回页面的 html 内容。 df = pd.read_csv(url)给出 CParser 错误： CParserError: Error tokenizing data. C error: Expected 1 …

csv pandas python-requests kaggle

Had*_*ien

lucky-day

5
推荐指数

1
解决办法

6580
查看次数

无法在 Pytorch 版本 1.5.1 中加载在 Pytotch 版本 1.6.0 上训练的模型

我最近在1.6.0本地机器上更新了我的 Pytorch 版本以使用他们的混合精度训练，从那时起我遇到了这个问题，我尝试了这里提到的解决方案，但它仍然抛出以下错误。

RuntimeError: version_ <= kMaxSupportedFileFormatVersion INTERNAL ASSERT FAILED at /opt/conda/conda-bld/pytorch_1591914880026/work/caffe2/serialize/inline_container.cc:132, please report a bug to PyTorch. Attempted to read a PyTorch file with version 4, but the maximum supported version for reading is 3. Your PyTorch installation may be too old.

Run Code Online (Sandbox Code Playgroud)

重现链接：https://www.kaggle.com/rohitsingh9990/error-reducing-code ?scriptVersionId=37468859

任何帮助将不胜感激，提前致谢。

python-3.x pytorch kaggle

Roh*_*ngh

2020 06-26

5
推荐指数

1
解决办法

6639
查看次数

OSError：libmkl_intel_lp64.so.1：无法打开共享对象文件：没有这样的文件或目录

我正在尝试在Colab Notebook中给出的 TPU 上运行模型。该模型运行良好，但今天我无法运行该模型。

我使用以下代码来安装 pytorch-xla。

VERSION = "nightly"  #@param ["1.5" , "20200325", "nightly"]
!curl https://raw.githubusercontent.com/pytorch/xla/master/contrib/scripts/env-setup.py -o pytorch-xla-env-setup.py
!python pytorch-xla-env-setup.py --version $VERSION

Run Code Online (Sandbox Code Playgroud)

我尝试安装所需的库，如下所示：

!pip install -U nlp
!pip install sentencepiece
!pip install numpy --upgrade

Run Code Online (Sandbox Code Playgroud)

但是，当我尝试以下操作时

import nlp

Run Code Online (Sandbox Code Playgroud)

它给出以下错误：

OSError: libmkl_intel_lp64.so.1: cannot open shared object file: No such file or directory

Run Code Online (Sandbox Code Playgroud)

我搜索了错误并尝试了以下操作，但仍然不起作用。有什么想法如何修复它吗？注意：几天前还可以，但今天不行了。

!pip install mkl
#!export PATH="$PATH:/opt/intel/bin"
#!export LD_LIBRARY_PATH="$PATH:opt/intel/mkl/lib/intel64_lin/"
!export LID_LIBRAEY_PATH="$LID_LIBRARY_PATH:/opt/intel/mkl/lib/intel64_lin/"

Run Code Online (Sandbox Code Playgroud)

pytorch kaggle google-colaboratory tpu huggingface-transformers

pro*_*123

2021 04-26

5
推荐指数

1
解决办法

1万
查看次数