我试图使用rfecv缩小与我的分类器真正相关的功能数量.这是我写的代码
import sklearn
import pandas as p
import numpy as np
import scipy as sp
import pylab as pl
from sklearn import linear_model, cross_validation, metrics
from sklearn.svm import SVC
from sklearn.feature_selection import RFECV
from sklearn.metrics import zero_one_loss
from sklearn import preprocessing
#from sklearn.feature_extraction.text import CountVectorizer
#from sklearn.feature_selection import SelectKBest, chi2
modelType = "notext"
# ----------------------------------------------------------
# Prepare the Data
# ----------------------------------------------------------
training_data = np.array(p.read_table('F:/NYC/NYU/SM/3/SNLP/Project/Data/train.tsv'))
print ("Read Data\n")
# get the target variable and set it as Y so we can …Run Code Online (Sandbox Code Playgroud) 我试图以这种方式在Kaggle笔记本上绘制一个seaborn直方图:
sns.distplot(myseries, bins=50, kde=True)
Run Code Online (Sandbox Code Playgroud)
但我得到这个错误:
TypeError: slice indices must be integers or None or have an __index__ method
Run Code Online (Sandbox Code Playgroud)
这是Kaggle笔记本:https://www.kaggle.com/asindico/slice-indices-must-be-integers-or-none/
这是系列头:
0 5850000
1 6000000
2 5700000
3 13100000
4 16331452
Name: price_doc, dtype: int64
Run Code Online (Sandbox Code Playgroud) 我正在尝试将一些数据从 kaggle 导入笔记本。我收到的错误是未经授权的 401,但是我已经接受了比赛规则并且可以下载数据。
这是我正在运行的代码:
from kaggle.api.kaggle_api_extended import KaggleApi
api = KaggleApi()
files = api.competition_download_files("twosigmanews")
api.competitions_submit("submission.csv", "my submission message", "twosigmanews")
Run Code Online (Sandbox Code Playgroud)
编辑:添加了更多错误:无论我想导入哪个 kaggle 数据,我都会得到相同的错误。
ApiException Traceback (most recent call last)
<ipython-input-7-65a92f19da82> in <module>()
2
3 api = KaggleApi()
----> 4 files = api.competition_download_files("twosigmanews")
5 api.competitions_submit("submission.csv", "my submission message", "twosigmanews")
~\Anaconda3\lib\site-packages\kaggle\api\kaggle_api_extended.py in competition_download_files(self, competition, path, force, quiet)
637 quiet: suppress verbose output (default is False)
638 """
--> 639 files = self.competition_list_files(competition)
640 if not files:
641 print('This competition does not have …Run Code Online (Sandbox Code Playgroud) 我正在尝试使用Kaggle CLI API,为了做到这一点,而不是kaggle.json用于身份验证,而是使用环境变量来设置凭据。
!pip install --upgrade kaggle
!export KAGGLE_USERNAME=abcdefgh
!export KAGGLE_KEY=abcdefgh
!export -p
Run Code Online (Sandbox Code Playgroud)
但是,环境的打印清单。变量不包含我在上面设置的变量。
declare -x CLICOLOR="1"
declare -x CLOUDSDK_CONFIG="/content/.config"
declare -x COLAB_GPU="1"
declare -x CUDA_PKG_VERSION="9-2=9.2.148-1"
declare -x CUDA_VERSION="9.2.148"
declare -x CUDNN_VERSION="7.4.1.5"
declare -x DATALAB_SETTINGS_OVERRIDES="{\"kernelManagerProxyPort\":6000,\"kernelManagerProxyHost\":\"172.28.0.3\",\"jupyterArgs\":[\"notebook\",\"-y\",\"--no-browser\",\"--log-level=DEBUG\",\"--debug\",\"--NotebookApp.allow_origin=\\\"*\\\"\",\"--NotebookApp.log_format=\\\"%(message)s\\\"\",\"--NotebookApp.disable_check_xsrf=True\",\"--NotebookApp.token=\",\"--Session.key=\\\"\\\"\",\"--Session.keyfile=\\\"\\\"\",\"--ContentsManager.untitled_directory=\\\"Untitled Folder\\\"\",\"--ContentsManager.untitled_file=\\\"Untitled File\\\"\",\"--ContentsManager.untitled_notebook=\\\"Untitled Notebook\\\"\",\"--KernelManager.autorestart=True\",\"--ip=\\\"172.28.0.2\\\"\"]}"
declare -x DEBIAN_FRONTEND="noninteractive"
declare -x ENV="/root/.bashrc"
declare -x GIT_PAGER="cat"
declare -x GLIBCPP_FORCE_NEW="1"
declare -x GLIBCXX_FORCE_NEW="1"
declare -x HOME="/root"
declare -x HOSTNAME="2ced809e9844"
declare -x JPY_PARENT_PID="57"
declare -x LANG="en_US.UTF-8"
declare -x LD_LIBRARY_PATH="/usr/lib64-nvidia"
declare -x LD_PRELOAD="/usr/lib/x86_64-linux-gnu/libtcmalloc.so.4"
declare -x MPLBACKEND="module://ipykernel.pylab.backend_inline"
declare -x …Run Code Online (Sandbox Code Playgroud) 我想在 google colaboratory 中使用 kaggle API。安装的客户端是1.5.4,服务器是1.5.6。运行 install 和 upgrade kaggle via 后pip,系统仍然调用1.5.4版本
我尝试使用 pip 安装和升级 kaggle 包。不起作用。我也尝试重新启动会话/运行时。
!pip install kaggle/pip install kaggle --upgrade
Run Code Online (Sandbox Code Playgroud)
Requirement already up-to-date: kaggle in /usr/local/lib/python3.6/dist-packages (1.5.6)
Requirement already satisfied, skipping upgrade: requests in /usr/local/lib/python3.6/dist-packages (from kaggle) (2.21.0)
Requirement already satisfied, skipping upgrade: certifi in /usr/local/lib/python3.6/dist-packages (from kaggle) (2019.9.11)
Requirement already satisfied, skipping upgrade: tqdm in /usr/local/lib/python3.6/dist-packages (from kaggle) (4.28.1)
Requirement already satisfied, skipping upgrade: python-dateutil in /usr/local/lib/python3.6/dist-packages (from kaggle) (2.6.1)
Requirement already satisfied, skipping …Run Code Online (Sandbox Code Playgroud) 我正在使用来自Kaggle challange 的MNIST 数据集,并且在数据预处理方面遇到了麻烦。此外,我不知道什么是最佳实践,想知道您是否可以就此提出建议。
免责声明:我不能只使用 torchvision.datasets.mnist 因为我需要使用 Kaggle 的数据进行训练和提交。
在本教程中,建议创建一个从文件加载 .pt 张量的 Dataset 对象,以充分利用 GPU。为了实现这一点,我需要加载 Kaggle 提供的 csv 数据并将其保存为 .pt 文件:
import pandas as pd
import torch
import numpy as np
# import data
digits_train = pd.read_csv('data/train.csv')
train_tensor = torch.tensor(digits_train.drop(label, axis=1).to_numpy(), dtype=torch.int)
labels_tensor = torch.tensor(digits_train[label].to_numpy())
for i in range(train_tensor.shape[0]):
torch.save(train_tensor[i], "data/train-" + str(i) + ".pt")
Run Code Online (Sandbox Code Playgroud)
每个train_tensor[i].shape是torch.Size([1, 784])
但是,每个此类 .pt 文件的大小约为 130MB。相同大小的张量,随机生成整数,大小为 6.6kB。为什么这些张量如此巨大,我该如何减小它们的大小?
数据集是 42 000 个样本。我什至应该打扰批处理这些数据吗?我是否应该费心将张量保存到单独的文件中,而不是将它们全部加载到 RAM 中然后分批?这里最好的方法是什么?
我想将手语数据集从Kaggle下载到我的 Colab。
到目前为止,我一直使用 wget 和特定的 zip 文件链接,例如:
!wget --no-check-certificate \
https://storage.googleapis.com/laurencemoroney-blog.appspot.com/rps.zip \
-O /tmp/rps.zip
Run Code Online (Sandbox Code Playgroud)
但是,当我右键单击 Kaggle 上的下载按钮并选择复制链接以将路径复制到剪贴板并输出时,我得到:
https://www.kaggle.com/datamunge/sign-language-mnist/download
当我在浏览器中使用此链接时,系统要求我下载它。我可以看到文件名是 3258_5337_bundle_archive.zip
所以我试过:
!wget --no-check-certificate \
https://www.kaggle.com/datamunge/sign-language-mnist/download3258_5337_bundle_archive.zip \
-O /tmp/kds.zip
Run Code Online (Sandbox Code Playgroud)
并尝试过:
!wget --no-check-certificate \
https://www.kaggle.com/datamunge/sign-language-mnist/download3258_5337_bundle_archive.zip \
-O /tmp/kds.zip
Run Code Online (Sandbox Code Playgroud)
我得到作为输出:
所以它不起作用。找不到文件或返回的 zip 存档不是 101mb 大,而只有几 kb。此外,当尝试解压缩它时,它不起作用。
如何将此文件下载到我的 colab(直接使用 wget?)?
我一直在尝试不同的方法将Kaggle上的SpaceX 任务csv 文件直接导入 pandas DataFrame,但没有成功。
我需要发送登录请求。这是我到目前为止所拥有的:
import requests
import pandas as pd
from io import StringIO
# Link to the Kaggle data set & name of zip file
login_url = 'http://www.kaggle.com/account/login?ReturnUrl=/spacex/spacex-missions/downloads/database.csv'
# Kaggle Username and Password
kaggle_info = {'UserName': "user", 'Password': "pwd"}
# Login to Kaggle and retrieve the data.
r = requests.post(login_url, data=kaggle_info, stream=True)
df = pd.read_csv(StringIO(r.text))
Run Code Online (Sandbox Code Playgroud)
r 正在返回页面的 html 内容。
df = pd.read_csv(url)给出 CParser 错误:
CParserError: Error tokenizing data. C error: Expected 1 …
我最近在1.6.0本地机器上更新了我的 Pytorch 版本以使用他们的混合精度训练,从那时起我遇到了这个问题,我尝试了这里提到的解决方案,但它仍然抛出以下错误。
RuntimeError: version_ <= kMaxSupportedFileFormatVersion INTERNAL ASSERT FAILED at /opt/conda/conda-bld/pytorch_1591914880026/work/caffe2/serialize/inline_container.cc:132, please report a bug to PyTorch. Attempted to read a PyTorch file with version 4, but the maximum supported version for reading is 3. Your PyTorch installation may be too old.
Run Code Online (Sandbox Code Playgroud)
重现链接:https://www.kaggle.com/rohitsingh9990/error-reducing-code ?scriptVersionId=37468859
任何帮助将不胜感激,提前致谢。
我正在尝试在Colab Notebook中给出的 TPU 上运行模型。该模型运行良好,但今天我无法运行该模型。
我使用以下代码来安装 pytorch-xla。
VERSION = "nightly" #@param ["1.5" , "20200325", "nightly"]
!curl https://raw.githubusercontent.com/pytorch/xla/master/contrib/scripts/env-setup.py -o pytorch-xla-env-setup.py
!python pytorch-xla-env-setup.py --version $VERSION
Run Code Online (Sandbox Code Playgroud)
我尝试安装所需的库,如下所示:
!pip install -U nlp
!pip install sentencepiece
!pip install numpy --upgrade
Run Code Online (Sandbox Code Playgroud)
但是,当我尝试以下操作时
import nlp
Run Code Online (Sandbox Code Playgroud)
它给出以下错误:
OSError: libmkl_intel_lp64.so.1: cannot open shared object file: No such file or directory
Run Code Online (Sandbox Code Playgroud)
我搜索了错误并尝试了以下操作,但仍然不起作用。有什么想法如何修复它吗?注意:几天前还可以,但今天不行了。
!pip install mkl
#!export PATH="$PATH:/opt/intel/bin"
#!export LD_LIBRARY_PATH="$PATH:opt/intel/mkl/lib/intel64_lin/"
!export LID_LIBRAEY_PATH="$LID_LIBRARY_PATH:/opt/intel/mkl/lib/intel64_lin/"
Run Code Online (Sandbox Code Playgroud) pytorch kaggle google-colaboratory tpu huggingface-transformers