标签: kaggle

将kaggle数据集用于Google Colab

是否可以直接使用kaggleGoogle Colab中提供的任何数据集?我kaggle这个链接中看到,但显然,它只有特定的数据集,这对我来说有点混乱.

dataset kaggle google-colaboratory

32
推荐指数
3
解决办法
2万
查看次数

首次在R中使用神经网络:得到"需要数字/复杂矩阵/向量参数"

我正在尝试学习使用R中的神经网络.作为一个学习问题,我在Kaggle一直使用以下问题:

别担心,这个问题是专为人们学习而设计的,没有任何奖励.

我从一个简单的逻辑回归开始,这非常适合我的脚.现在我想学习使用神经网络.我的训练数据如下所示(列:行):

- survived: 1
- pclass:   3
- sex:      male
- age:      22.0
- sibsp:    1
- parch:    0
- ticket:   PC 17601
- fare:     7.25
- cabin:    C85
- embarked: S
Run Code Online (Sandbox Code Playgroud)

我的起始R代码如下所示:

> net <- neuralnet(survived ~ pclass + sex + age + sibsp +
                   parch + ticket + fare + cabin + embarked, 
                   train, hidden=10, threshold=0.01)
Run Code Online (Sandbox Code Playgroud)

当我运行这行代码时,我收到以下错误:

Error in neurons[[i]] %*% weights[[i]] : 
  requires numeric/complex matrix/vector arguments
Run Code Online (Sandbox Code Playgroud)

我知道问题出在我提交输入变量的方式,但是我太过于理解我需要做些什么才能纠正这个问题.有人可以帮忙吗?

谢谢!

regression r prediction kaggle

25
推荐指数
2
解决办法
4万
查看次数

lm()NA/NaN/Inf错误

我的问题很简单,但我无法弄清楚什么是错的.只是说我有data.framea

我用

m.fit <- lm(col2 ~ col3 * col4, na.action = na.exclude)
Run Code Online (Sandbox Code Playgroud)

col2具有一定的NA价值,col3col4具有小于1的值.

我一直在

Error in lm.fit(x, y, offset = offset, singular.ok = singular.ok, ...) : 
NA/NaN/Inf in foreign function call (arg 1)
Run Code Online (Sandbox Code Playgroud)

我检查了邮件列表,它似乎是因为NAs in col2但我尝试使用,na.action=na.exclude/omit/pass但它们似乎都没有.我lm在前10个参赛作品中再次测试过,绝对不是因为NAs.这个警告的问题是每个谷歌的结果似乎都指向NA.

我错误地解释了这个错误,或者我lm错误地使用了错误?

谢谢

确定数据位于http://www.kaggle.com/c/GiveMeSomeCredit/Download/cs-training.csv.我使用线性回归对MonthlyIncome数据进行建模(不判断,我无法让某个glm家庭工作,因为我对R不好).我已经创建了自己的变量,但是如果你尝试使用已经存在的变量对MonthlyIncome进行建模,那么它就会失败.

r nan lm kaggle

24
推荐指数
4
解决办法
8万
查看次数

Pandas应用键错误

我是Python和数据科学的新手.我正在进行kaggle Outbrain竞赛,我的代码中引用的所有数据集都可以在https://www.kaggle.com/c/outbrain-click-prediction/data找到.

关于问题:我有一个带有列的数据框['document_id', 'category_id', 'confidence_level'].我想添加第四列,'max_cat'它返回与行的'category_id'最大值对应的'confidence_level''document_id'.

import pandas as pd
import numpy

main_folder = r'...filepath\data_location' + '\\'

docs_meta = pd.read_csv(main_folder + 'documents_meta.csv\documents_meta.csv',nrows=1000)
docs_categories = pd.read_csv(main_folder + 'documents_categories.csv\documents_categories.csv',nrows=1000)
docs_entities = pd.read_csv(main_folder + 'documents_entities.csv\documents_entities.csv',nrows=1000)
docs_topics = pd.read_csv(main_folder + 'documents_topics.csv\documents_topics.csv',nrows=1000)

def find_max(row,the_df,groupby_col,value_col,target_col):
   return the_df[the_df[groupby_col]==row[groupby_col]].loc[the_df[value_col].idxmax()][target_col]

test = docs_categories.copy()
test['max_cat'] = test.apply(lambda x: find_max(x,test,'document_id','confidence_level','category_id'))
Run Code Online (Sandbox Code Playgroud)

这给了我错误: KeyError: ('document_id', 'occurred at index document_id')

任何人都可以帮助解释为什么会发生此错误,或者如何以更有效的方式实现我的目标?

谢谢!

python group-by pandas keyerror kaggle

22
推荐指数
1
解决办法
2万
查看次数

从pandas中的系列创建一个集合

我有一个从Kaggle的San Fransico工资中提取的数据框:https://www.kaggle.com/kaggle/sf-salaries 我希望创建一组列的值,例如'Status'.

这是我尝试过但它带来了所有记录的列表而不是集合(sf是我如何命名数据框).

a=set(sf['Status'])
print a
Run Code Online (Sandbox Code Playgroud)

根据这个网页,这应该工作. 如何在python中构建一个列表项集?

python series dataframe pandas kaggle

21
推荐指数
2
解决办法
4万
查看次数

在 google colab 中找不到 kaggle.json 文件

我正在尝试将 kaggle imagenet 对象本地化挑战数据下载到 google colab 中,以便我可以使用它来训练我的模型。Kaggle 使用 API 来轻松快速地访问他们的数据集。( https://github.com/Kaggle/kaggle-api ) 但是,在 google colab 中调用命令“kaggle Competitions download -c imagenet-object-localization-challenge”时,找不到 kaggle.json 文件包含我的用户名和 api 密钥。

运行 jupyter notebook 时,我的 Mac 上没有出现此问题,但由于我想将 google 的 gpu 用于我的模型,因此我开始使用 google colab。因为kaggle API 期望用户名和api-key 位于位于.kaggle 目录的kaggle.json 文件中,所以我首先创建了目录.kaggle,然后创建了文件kaggle.json,我在其中写入了我的用户名和api-密钥(下面的示例不显示我的用户名和 api 密钥)。然后我尝试配置我的 json 文件的路径,以便在调用 kaggle 下载命令时使用 kaggle。

!pip install kaggle

!mkdir .kaggle
!touch .kaggle/kaggle.json

api_token = {"username":"username","key":"api-key"}

import json
import zipfile
import os
with open('/content/.kaggle/kaggle.json', 'w') as file:
    json.dump(api_token, file)

!chmod 600 /content/.kaggle/kaggle.json
!kaggle config path -p /content
Run Code Online (Sandbox Code Playgroud)

但是,在运行最后一个命令时,出现错误: …

python kaggle google-colaboratory

21
推荐指数
4
解决办法
1万
查看次数

Pandas错误 - 遇到无效值

我是熊猫的新手.我下载并安装了Anaconda.然后我尝试通过Spyder应用程序运行以下代码:

import pandas as pd
import numpy as np

train = pd.read_csv('/Users/Ben/Documents/Kaggle/Titanic/train.csv')
train
Run Code Online (Sandbox Code Playgroud)

虽然这会按照我的预期打印数据帧,但它也会显示这些错误

//anaconda/lib/python3.4/site-packages/pandas/core/format.py:1969: RuntimeWarning: invalid value encountered in greater
  has_large_values = (abs_vals > 1e8).any()
//anaconda/lib/python3.4/site-packages/pandas/core/format.py:1970: RuntimeWarning: invalid value encountered in less
  has_small_values = ((abs_vals < 10 ** (-self.digits)) &
//anaconda/lib/python3.4/site-packages/pandas/core/format.py:1971: RuntimeWarning: invalid value encountered in greater
  (abs_vals > 0)).any()
Run Code Online (Sandbox Code Playgroud)

为什么我会收到这些错误?

编辑:我刚刚在IPython笔记本上测试了上面的代码,它没有错误.那么,我的Spyder安装有问题吗?任何帮助,将不胜感激.

EDIT2:经过一些测试,我可以在不收到警告的情况下读取CSV的前5行.因此,我怀疑NaN在第6行中,float64类型列会触发警告.

python pandas anaconda python-3.4 kaggle

20
推荐指数
1
解决办法
1万
查看次数

如何查看R中最近的邻居?

首先让我说我对R,KNN或数据科学没有任何经验.我最近找到了Kaggle并且一直在玩数字识别竞赛/教程.

在本教程中,他们提供了一些示例代码,以帮助您开始基本提交:

# makes the KNN submission

library(FNN)

train <- read.csv("c:/Development/data/digits/train.csv", header=TRUE)
test <- read.csv("c:/Development/data/digits/test.csv", header=TRUE)

labels <- train[,1]
train <- train[,-1]

results <- (0:9)[knn(train, test, labels, k = 10, algorithm="cover_tree")]

write(results, file="knn_benchmark.csv", ncolumns=1) 
Run Code Online (Sandbox Code Playgroud)

我的问题是:

  1. 如何查看为特定测试行选择的最近邻居?
  2. 如何修改为我选择的十个中的哪一个results

这些问题可能过于宽泛.如果是这样,我会欢迎任何可能指向正确道路的链接.

很有可能在这里说了一些没有用的东西.如果是这种情况,请纠正我.

r kaggle

15
推荐指数
1
解决办法
2万
查看次数

Kaggle API *within* python 的文档?

我想编写一个python从 Kaggle.com 下载公共数据集的脚本。

Kaggle API 是用 python 编写的,但我能找到的几乎所有文档和资源都是关于如何在命令行中使用 API,而关于如何kagglepython.

一些用户似乎知道如何执行此操作,例如查看此问题的几个答案,但这些提示不足以解决我的具体问题。

也就是说,我有一个看起来像这样的脚本:

from kaggle.api.kaggle_api_extended import KaggleApi

api = KaggleApi('content of my json metadata file')

file = api.datasets_download_file(
    owner_slug='the-owner-slug',
    dataset_slug='the-dataset-slug',
    file_name='the-file-name.csv',
)
Run Code Online (Sandbox Code Playgroud)

我通过查看方法的签名提出了这一点:
api.datasets_download_file(owner_slug, dataset_slug, file_name, **kwargs)

我收到以下错误:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 12: invalid start byte

除了这个特定问题的解决方案之外,我真的很高兴知道如何解决 Kaggle 库的错误,而不是通过代码本身。事实上,也许问题与utf编码无关,但我不知道如何解决这个问题。如果只是文件名错误,或者像这样愚蠢的东西怎么办?

csv文件没什么特别的:三列,第一列是时间戳,另外两列是整数。

python kaggle

15
推荐指数
2
解决办法
5473
查看次数

kaggle 内核:您的内核无法在本次比赛中使用互联网访问

我是 Kaggler 的新兵。我分叉了一个开放内核并提交,当我提交输出时,按钮Submit to Competition不起作用,并显示“您的内核无法在本次比赛中使用互联网访问”的信息。

kaggle

15
推荐指数
2
解决办法
1万
查看次数