标签: kaggle

使用R将jpg转换为greyscale csv

我有一个JPG图像的文件夹,我正在尝试为一个讨人喜欢的比赛进行分类.我已经看到Python中的一些代码,我认为会在论坛上实现这一点,但是想知道是否可以在R中完成?我正在尝试将许多jpg图像的这个文件夹转换为csv文件,其中数字显示每个像素的灰度,类似于手数字识别器http://www.kaggle.com/c/digit-recognizer/

所以基本上是j中的jpg - > .csv,显示了用于分类的每个像素的灰度数.我想在它上面放一个随机森林或线性模型.

csv jpeg r grayscale kaggle

7
推荐指数
1
解决办法
4183
查看次数

Pandas scatter_matrix - 绘制分类变量

我正在查看来自Kaggle比赛的着名泰坦尼克号数据集:http://www.kaggle.com/c/titanic-gettingStarted/data

我使用以下方法加载和处理数据:

# import required libraries
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

# load the data from the file
df = pd.read_csv('./data/train.csv')

# import the scatter_matrix functionality
from pandas.tools.plotting import scatter_matrix

# define colors list, to be used to plot survived either red (=0) or green (=1)
colors=['red','green']

# make a scatter plot
scatter_matrix(df,figsize=[20,20],marker='x',c=df.Survived.apply(lambda x:colors[x]))

df.info()
Run Code Online (Sandbox Code Playgroud)

来自matplotlib的scatter_matrix

如何在情节中添加像Sex and Embarked这样的分类栏?

python matplotlib pandas kaggle

7
推荐指数
1
解决办法
2万
查看次数

xgboost中eval_metric和feval有什么区别?

xgb.train fevaleval_metricxgb.train 之间有什么区别,这两个参数仅用于评估目的.

来自Kaggle的帖子提供了一些见解:

https://www.kaggle.com/c/prudential-life-insurance-assessment/forums/t/18473/custom-objective-for-xgboost

r xgboost kaggle

7
推荐指数
2
解决办法
5076
查看次数

数据集在 google colab 中丢失了?

我是 colab 的新手。我最近将数据集从 kaggle 下载到了 google colab。在我下次访问时,数据集不在那里,我的 kaggle 安装也被删除了。有谁知道为什么?

我试过在 /content 中查看我记得保存和编辑它的地方!

dataset jupyter-notebook kaggle google-colaboratory

7
推荐指数
1
解决办法
3932
查看次数

是否有任何命令可以使用 kaggle API 从 Kaggle Competition 的特定文件夹下载数据

我正在尝试从 Kaggle Competition state-farm-distracted-driver-detection下载数据

数据集具有以下目录结构

|-driver_imgs_list.csv
|-sample-submission.csv
|imgs
|   |test
|   |train
|       |c0
|       |c1
|       |c2
|          |-img_100029.jpg
|          |-img_100108.jpg
Run Code Online (Sandbox Code Playgroud)

我只想下载 imgs/train/c2 文件夹。我知道如何下载完整数据集和特定文件,但我无法弄清楚如何使用 API 下载特定文件夹

最初我尝试使用 Kaggle CLI API,使用它我可以下载特定的图像如下

kaggle competitions download state-farm-distracted-driver-detection -f imgs/train/c2/img_100029.jpg
Run Code Online (Sandbox Code Playgroud)

但是,当我尝试使用以下命令下载 c2 文件夹时,出现类似 File not found 的错误

kaggle competitions download state-farm-distracted-driver-detection -f imgs/train/c2
404 - Not Found
Run Code Online (Sandbox Code Playgroud)

是否有任何命令可以从 kaggle api 的竞赛中下载特定文件夹?

作为另一个试验,我使用 python 中的 Kaggle API 下载该文件夹

我的想法是,有一个名为“driver_imgs_list.csv”的文件,其中包含诸如 (c0,c1,c2..) 之类的类名及其相应的图像文件。因为我想下载 c2 类文件夹,所以我使用 Pandas 将 c2 类图像文件存储在一个数组中。然后我尝试使用 for 循环下载每个文件,如下所示

from kaggle.api.kaggle_api_extended import KaggleApi …
Run Code Online (Sandbox Code Playgroud)

python api dataset kaggle

7
推荐指数
1
解决办法
1710
查看次数

无法在 Kaggle 笔记本中安装 Python 库

当我!pip install 'library_name' 在 kaggle 控制台中运行时,它会抛出此警告:

WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) 
after connection broken by 'NewConnectionError('
<pip._vendor.urllib3.connection.HTTPSConnection object at 0x7fc7bd22aed0>:
Failed to establish a new connection: [Errno -3] Temporary failure in name resolution
')': /simple/pip/
Run Code Online (Sandbox Code Playgroud)

最终不安装该库。

这个警告的原因是什么以及如何解决这个问题?

python kaggle

7
推荐指数
1
解决办法
4497
查看次数

将csv导入pandas数据帧时不读取所有行

我在这里尝试kaggle挑战,不幸的是我陷入了一个非常基本的步骤.我有限的python知识必须归咎于此.我试图通过执行以下命令将数据集读入pandas数据帧:

test = pd.DataFrame.from_csv("C:/Name/DataMining/hillary/data/output/emails.csv")
Run Code Online (Sandbox Code Playgroud)

问题是,您发现的这个文件有超过300,000条记录,但我只阅读7945,21.

print (test.shape)
(7945, 21)
Run Code Online (Sandbox Code Playgroud)

现在我已经仔细检查了文件,我找不到关于行号7945的任何特殊信息.任何指针都说明为什么会发生这种情况.似乎非常普通的情况,我希望你们中有些人遇到过这个错误可以帮助我.

csv machine-learning python-3.x pandas kaggle

6
推荐指数
1
解决办法
5673
查看次数

Kaggle TypeError:切片索引必须是整数或无或具有__index__方法

我试图以这种方式在Kaggle笔记本上绘制一个seaborn直方图:

 sns.distplot(myseries, bins=50, kde=True)
Run Code Online (Sandbox Code Playgroud)

但我得到这个错误:

TypeError: slice indices must be integers or None or have an __index__ method
Run Code Online (Sandbox Code Playgroud)

这是Kaggle笔记本:https://www.kaggle.com/asindico/slice-indices-must-be-integers-or-none/

这是系列头:

0     5850000
1     6000000
2     5700000
3    13100000
4    16331452
Name: price_doc, dtype: int64
Run Code Online (Sandbox Code Playgroud)

python pandas seaborn jupyter kaggle

6
推荐指数
1
解决办法
2117
查看次数

Kaggle 数据集到 jupyter notebook

我正在尝试将一些数据从 kaggle 导入笔记本。我收到的错误是未经授权的 401,但是我已经接受了比赛规则并且可以下载数据。

这是我正在运行的代码:

from kaggle.api.kaggle_api_extended import KaggleApi

api = KaggleApi()
files = api.competition_download_files("twosigmanews")
api.competitions_submit("submission.csv", "my submission message", "twosigmanews")
Run Code Online (Sandbox Code Playgroud)

编辑:添加了更多错误:无论我想导入哪个 kaggle 数据,我都会得到相同的错误。


ApiException                              Traceback (most recent call last)
<ipython-input-7-65a92f19da82> in <module>()
      2 
      3 api = KaggleApi()
----> 4 files = api.competition_download_files("twosigmanews")
      5 api.competitions_submit("submission.csv", "my submission message", "twosigmanews")

~\Anaconda3\lib\site-packages\kaggle\api\kaggle_api_extended.py in competition_download_files(self, competition, path, force, quiet)
    637             quiet: suppress verbose output (default is False)
    638         """
--> 639         files = self.competition_list_files(competition)
    640         if not files:
    641             print('This competition does not have …
Run Code Online (Sandbox Code Playgroud)

python kaggle

6
推荐指数
1
解决办法
1万
查看次数

谷歌合作使用kaggle,服务器版本1.5.6,客户端版本1.5.4,升级失败

我想在 google colaboratory 中使用 kaggle API。安装的客户端是1.5.4,服务器是1.5.6。运行 install 和 upgrade kaggle via 后pip,系统仍然调用1.5.4版本

我尝试使用 pip 安装和升级 kaggle 包。不起作用。我也尝试重新启动会话/运行时。

!pip install kaggle/pip install kaggle --upgrade
Run Code Online (Sandbox Code Playgroud)
Requirement already up-to-date: kaggle in /usr/local/lib/python3.6/dist-packages (1.5.6)
Requirement already satisfied, skipping upgrade: requests in /usr/local/lib/python3.6/dist-packages (from kaggle) (2.21.0)
Requirement already satisfied, skipping upgrade: certifi in /usr/local/lib/python3.6/dist-packages (from kaggle) (2019.9.11)
Requirement already satisfied, skipping upgrade: tqdm in /usr/local/lib/python3.6/dist-packages (from kaggle) (4.28.1)
Requirement already satisfied, skipping upgrade: python-dateutil in /usr/local/lib/python3.6/dist-packages (from kaggle) (2.6.1)
Requirement already satisfied, skipping …
Run Code Online (Sandbox Code Playgroud)

version kaggle google-colaboratory

6
推荐指数
1
解决办法
4939
查看次数