是否可以直接使用kaggleGoogle Colab中提供的任何数据集?我kaggle在这个链接中看到,但显然,它只有特定的数据集,这对我来说有点混乱.
我正在尝试学习使用R中的神经网络.作为一个学习问题,我在Kaggle一直使用以下问题:
别担心,这个问题是专为人们学习而设计的,没有任何奖励.
我从一个简单的逻辑回归开始,这非常适合我的脚.现在我想学习使用神经网络.我的训练数据如下所示(列:行):
- survived: 1
- pclass: 3
- sex: male
- age: 22.0
- sibsp: 1
- parch: 0
- ticket: PC 17601
- fare: 7.25
- cabin: C85
- embarked: S
Run Code Online (Sandbox Code Playgroud)
我的起始R代码如下所示:
> net <- neuralnet(survived ~ pclass + sex + age + sibsp +
parch + ticket + fare + cabin + embarked,
train, hidden=10, threshold=0.01)
Run Code Online (Sandbox Code Playgroud)
当我运行这行代码时,我收到以下错误:
Error in neurons[[i]] %*% weights[[i]] :
requires numeric/complex matrix/vector arguments
Run Code Online (Sandbox Code Playgroud)
我知道问题出在我提交输入变量的方式,但是我太过于理解我需要做些什么才能纠正这个问题.有人可以帮忙吗?
谢谢!
我的问题很简单,但我无法弄清楚什么是错的.只是说我有data.framea
我用
m.fit <- lm(col2 ~ col3 * col4, na.action = na.exclude)
Run Code Online (Sandbox Code Playgroud)
col2具有一定的NA价值,col3并col4具有小于1的值.
我一直在
Error in lm.fit(x, y, offset = offset, singular.ok = singular.ok, ...) :
NA/NaN/Inf in foreign function call (arg 1)
Run Code Online (Sandbox Code Playgroud)
我检查了邮件列表,它似乎是因为NAs in col2但我尝试使用,na.action=na.exclude/omit/pass但它们似乎都没有.我lm在前10个参赛作品中再次测试过,绝对不是因为NAs.这个警告的问题是每个谷歌的结果似乎都指向NA.
我错误地解释了这个错误,或者我lm错误地使用了错误?
谢谢
确定数据位于http://www.kaggle.com/c/GiveMeSomeCredit/Download/cs-training.csv.我使用线性回归对MonthlyIncome数据进行建模(不判断,我无法让某个glm家庭工作,因为我对R不好).我已经创建了自己的变量,但是如果你尝试使用已经存在的变量对MonthlyIncome进行建模,那么它就会失败.
我是Python和数据科学的新手.我正在进行kaggle Outbrain竞赛,我的代码中引用的所有数据集都可以在https://www.kaggle.com/c/outbrain-click-prediction/data找到.
关于问题:我有一个带有列的数据框['document_id', 'category_id', 'confidence_level'].我想添加第四列,'max_cat'它返回与行的'category_id'最大值对应的'confidence_level'值'document_id'.
import pandas as pd
import numpy
main_folder = r'...filepath\data_location' + '\\'
docs_meta = pd.read_csv(main_folder + 'documents_meta.csv\documents_meta.csv',nrows=1000)
docs_categories = pd.read_csv(main_folder + 'documents_categories.csv\documents_categories.csv',nrows=1000)
docs_entities = pd.read_csv(main_folder + 'documents_entities.csv\documents_entities.csv',nrows=1000)
docs_topics = pd.read_csv(main_folder + 'documents_topics.csv\documents_topics.csv',nrows=1000)
def find_max(row,the_df,groupby_col,value_col,target_col):
return the_df[the_df[groupby_col]==row[groupby_col]].loc[the_df[value_col].idxmax()][target_col]
test = docs_categories.copy()
test['max_cat'] = test.apply(lambda x: find_max(x,test,'document_id','confidence_level','category_id'))
Run Code Online (Sandbox Code Playgroud)
这给了我错误: KeyError: ('document_id', 'occurred at index document_id')
任何人都可以帮助解释为什么会发生此错误,或者如何以更有效的方式实现我的目标?
谢谢!
我有一个从Kaggle的San Fransico工资中提取的数据框:https://www.kaggle.com/kaggle/sf-salaries 我希望创建一组列的值,例如'Status'.
这是我尝试过但它带来了所有记录的列表而不是集合(sf是我如何命名数据框).
a=set(sf['Status'])
print a
Run Code Online (Sandbox Code Playgroud)
根据这个网页,这应该工作. 如何在python中构建一个列表项集?
我正在尝试将 kaggle imagenet 对象本地化挑战数据下载到 google colab 中,以便我可以使用它来训练我的模型。Kaggle 使用 API 来轻松快速地访问他们的数据集。( https://github.com/Kaggle/kaggle-api ) 但是,在 google colab 中调用命令“kaggle Competitions download -c imagenet-object-localization-challenge”时,找不到 kaggle.json 文件包含我的用户名和 api 密钥。
运行 jupyter notebook 时,我的 Mac 上没有出现此问题,但由于我想将 google 的 gpu 用于我的模型,因此我开始使用 google colab。因为kaggle API 期望用户名和api-key 位于位于.kaggle 目录的kaggle.json 文件中,所以我首先创建了目录.kaggle,然后创建了文件kaggle.json,我在其中写入了我的用户名和api-密钥(下面的示例不显示我的用户名和 api 密钥)。然后我尝试配置我的 json 文件的路径,以便在调用 kaggle 下载命令时使用 kaggle。
!pip install kaggle
!mkdir .kaggle
!touch .kaggle/kaggle.json
api_token = {"username":"username","key":"api-key"}
import json
import zipfile
import os
with open('/content/.kaggle/kaggle.json', 'w') as file:
json.dump(api_token, file)
!chmod 600 /content/.kaggle/kaggle.json
!kaggle config path -p /content
Run Code Online (Sandbox Code Playgroud)
但是,在运行最后一个命令时,出现错误: …
我是熊猫的新手.我下载并安装了Anaconda.然后我尝试通过Spyder应用程序运行以下代码:
import pandas as pd
import numpy as np
train = pd.read_csv('/Users/Ben/Documents/Kaggle/Titanic/train.csv')
train
Run Code Online (Sandbox Code Playgroud)
虽然这会按照我的预期打印数据帧,但它也会显示这些错误
//anaconda/lib/python3.4/site-packages/pandas/core/format.py:1969: RuntimeWarning: invalid value encountered in greater
has_large_values = (abs_vals > 1e8).any()
//anaconda/lib/python3.4/site-packages/pandas/core/format.py:1970: RuntimeWarning: invalid value encountered in less
has_small_values = ((abs_vals < 10 ** (-self.digits)) &
//anaconda/lib/python3.4/site-packages/pandas/core/format.py:1971: RuntimeWarning: invalid value encountered in greater
(abs_vals > 0)).any()
Run Code Online (Sandbox Code Playgroud)
为什么我会收到这些错误?
编辑:我刚刚在IPython笔记本上测试了上面的代码,它没有错误.那么,我的Spyder安装有问题吗?任何帮助,将不胜感激.
EDIT2:经过一些测试,我可以在不收到警告的情况下读取CSV的前5行.因此,我怀疑NaN在第6行中,float64类型列会触发警告.
首先让我说我对R,KNN或数据科学没有任何经验.我最近找到了Kaggle并且一直在玩数字识别竞赛/教程.
在本教程中,他们提供了一些示例代码,以帮助您开始基本提交:
# makes the KNN submission
library(FNN)
train <- read.csv("c:/Development/data/digits/train.csv", header=TRUE)
test <- read.csv("c:/Development/data/digits/test.csv", header=TRUE)
labels <- train[,1]
train <- train[,-1]
results <- (0:9)[knn(train, test, labels, k = 10, algorithm="cover_tree")]
write(results, file="knn_benchmark.csv", ncolumns=1)
Run Code Online (Sandbox Code Playgroud)
我的问题是:
results?这些问题可能过于宽泛.如果是这样,我会欢迎任何可能指向正确道路的链接.
我很有可能在这里说了一些没有用的东西.如果是这种情况,请纠正我.
我想编写一个python从 Kaggle.com 下载公共数据集的脚本。
Kaggle API 是用 python 编写的,但我能找到的几乎所有文档和资源都是关于如何在命令行中使用 API,而关于如何kaggle在python.
一些用户似乎知道如何执行此操作,例如查看此问题的几个答案,但这些提示不足以解决我的具体问题。
也就是说,我有一个看起来像这样的脚本:
from kaggle.api.kaggle_api_extended import KaggleApi
api = KaggleApi('content of my json metadata file')
file = api.datasets_download_file(
owner_slug='the-owner-slug',
dataset_slug='the-dataset-slug',
file_name='the-file-name.csv',
)
Run Code Online (Sandbox Code Playgroud)
我通过查看方法的签名提出了这一点:
api.datasets_download_file(owner_slug, dataset_slug, file_name, **kwargs)
我收到以下错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 12: invalid start byte
除了这个特定问题的解决方案之外,我真的很高兴知道如何解决 Kaggle 库的错误,而不是通过代码本身。事实上,也许问题与utf编码无关,但我不知道如何解决这个问题。如果只是文件名错误,或者像这样愚蠢的东西怎么办?
该csv文件没什么特别的:三列,第一列是时间戳,另外两列是整数。
我是 Kaggler 的新兵。我分叉了一个开放内核并提交,当我提交输出时,按钮Submit to Competition不起作用,并显示“您的内核无法在本次比赛中使用互联网访问”的信息。
kaggle ×10
python ×5
pandas ×3
r ×3
anaconda ×1
dataframe ×1
dataset ×1
group-by ×1
keyerror ×1
lm ×1
nan ×1
prediction ×1
python-3.4 ×1
regression ×1
series ×1