我有一个JPG图像的文件夹,我正在尝试为一个讨人喜欢的比赛进行分类.我已经看到Python中的一些代码,我认为会在论坛上实现这一点,但是想知道是否可以在R中完成?我正在尝试将许多jpg图像的这个文件夹转换为csv文件,其中数字显示每个像素的灰度,类似于手数字识别器http://www.kaggle.com/c/digit-recognizer/
所以基本上是j中的jpg - > .csv,显示了用于分类的每个像素的灰度数.我想在它上面放一个随机森林或线性模型.
我正在查看来自Kaggle比赛的着名泰坦尼克号数据集:http://www.kaggle.com/c/titanic-gettingStarted/data
我使用以下方法加载和处理数据:
# import required libraries
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
# load the data from the file
df = pd.read_csv('./data/train.csv')
# import the scatter_matrix functionality
from pandas.tools.plotting import scatter_matrix
# define colors list, to be used to plot survived either red (=0) or green (=1)
colors=['red','green']
# make a scatter plot
scatter_matrix(df,figsize=[20,20],marker='x',c=df.Survived.apply(lambda x:colors[x]))
df.info()
Run Code Online (Sandbox Code Playgroud)

如何在情节中添加像Sex and Embarked这样的分类栏?
xgb.train feval和eval_metricxgb.train 之间有什么区别,这两个参数仅用于评估目的.
来自Kaggle的帖子提供了一些见解:
我是 colab 的新手。我最近将数据集从 kaggle 下载到了 google colab。在我下次访问时,数据集不在那里,我的 kaggle 安装也被删除了。有谁知道为什么?
我试过在 /content 中查看我记得保存和编辑它的地方!
我正在尝试从 Kaggle Competition state-farm-distracted-driver-detection下载数据
数据集具有以下目录结构
|-driver_imgs_list.csv
|-sample-submission.csv
|imgs
| |test
| |train
| |c0
| |c1
| |c2
| |-img_100029.jpg
| |-img_100108.jpg
Run Code Online (Sandbox Code Playgroud)
我只想下载 imgs/train/c2 文件夹。我知道如何下载完整数据集和特定文件,但我无法弄清楚如何使用 API 下载特定文件夹
最初我尝试使用 Kaggle CLI API,使用它我可以下载特定的图像如下
kaggle competitions download state-farm-distracted-driver-detection -f imgs/train/c2/img_100029.jpg
Run Code Online (Sandbox Code Playgroud)
但是,当我尝试使用以下命令下载 c2 文件夹时,出现类似 File not found 的错误
kaggle competitions download state-farm-distracted-driver-detection -f imgs/train/c2
404 - Not Found
Run Code Online (Sandbox Code Playgroud)
是否有任何命令可以从 kaggle api 的竞赛中下载特定文件夹?
作为另一个试验,我使用 python 中的 Kaggle API 下载该文件夹
我的想法是,有一个名为“driver_imgs_list.csv”的文件,其中包含诸如 (c0,c1,c2..) 之类的类名及其相应的图像文件。因为我想下载 c2 类文件夹,所以我使用 Pandas 将 c2 类图像文件存储在一个数组中。然后我尝试使用 for 循环下载每个文件,如下所示
from kaggle.api.kaggle_api_extended import KaggleApi …Run Code Online (Sandbox Code Playgroud) 当我!pip install 'library_name' 在 kaggle 控制台中运行时,它会抛出此警告:
WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None))
after connection broken by 'NewConnectionError('
<pip._vendor.urllib3.connection.HTTPSConnection object at 0x7fc7bd22aed0>:
Failed to establish a new connection: [Errno -3] Temporary failure in name resolution
')': /simple/pip/
Run Code Online (Sandbox Code Playgroud)
最终不安装该库。
这个警告的原因是什么以及如何解决这个问题?
我在这里尝试kaggle挑战,不幸的是我陷入了一个非常基本的步骤.我有限的python知识必须归咎于此.我试图通过执行以下命令将数据集读入pandas数据帧:
test = pd.DataFrame.from_csv("C:/Name/DataMining/hillary/data/output/emails.csv")
Run Code Online (Sandbox Code Playgroud)
问题是,您发现的这个文件有超过300,000条记录,但我只阅读7945,21.
print (test.shape)
(7945, 21)
Run Code Online (Sandbox Code Playgroud)
现在我已经仔细检查了文件,我找不到关于行号7945的任何特殊信息.任何指针都说明为什么会发生这种情况.似乎非常普通的情况,我希望你们中有些人遇到过这个错误可以帮助我.
我试图以这种方式在Kaggle笔记本上绘制一个seaborn直方图:
sns.distplot(myseries, bins=50, kde=True)
Run Code Online (Sandbox Code Playgroud)
但我得到这个错误:
TypeError: slice indices must be integers or None or have an __index__ method
Run Code Online (Sandbox Code Playgroud)
这是Kaggle笔记本:https://www.kaggle.com/asindico/slice-indices-must-be-integers-or-none/
这是系列头:
0 5850000
1 6000000
2 5700000
3 13100000
4 16331452
Name: price_doc, dtype: int64
Run Code Online (Sandbox Code Playgroud) 我正在尝试将一些数据从 kaggle 导入笔记本。我收到的错误是未经授权的 401,但是我已经接受了比赛规则并且可以下载数据。
这是我正在运行的代码:
from kaggle.api.kaggle_api_extended import KaggleApi
api = KaggleApi()
files = api.competition_download_files("twosigmanews")
api.competitions_submit("submission.csv", "my submission message", "twosigmanews")
Run Code Online (Sandbox Code Playgroud)
编辑:添加了更多错误:无论我想导入哪个 kaggle 数据,我都会得到相同的错误。
ApiException Traceback (most recent call last)
<ipython-input-7-65a92f19da82> in <module>()
2
3 api = KaggleApi()
----> 4 files = api.competition_download_files("twosigmanews")
5 api.competitions_submit("submission.csv", "my submission message", "twosigmanews")
~\Anaconda3\lib\site-packages\kaggle\api\kaggle_api_extended.py in competition_download_files(self, competition, path, force, quiet)
637 quiet: suppress verbose output (default is False)
638 """
--> 639 files = self.competition_list_files(competition)
640 if not files:
641 print('This competition does not have …Run Code Online (Sandbox Code Playgroud) 我想在 google colaboratory 中使用 kaggle API。安装的客户端是1.5.4,服务器是1.5.6。运行 install 和 upgrade kaggle via 后pip,系统仍然调用1.5.4版本
我尝试使用 pip 安装和升级 kaggle 包。不起作用。我也尝试重新启动会话/运行时。
!pip install kaggle/pip install kaggle --upgrade
Run Code Online (Sandbox Code Playgroud)
Requirement already up-to-date: kaggle in /usr/local/lib/python3.6/dist-packages (1.5.6)
Requirement already satisfied, skipping upgrade: requests in /usr/local/lib/python3.6/dist-packages (from kaggle) (2.21.0)
Requirement already satisfied, skipping upgrade: certifi in /usr/local/lib/python3.6/dist-packages (from kaggle) (2019.9.11)
Requirement already satisfied, skipping upgrade: tqdm in /usr/local/lib/python3.6/dist-packages (from kaggle) (4.28.1)
Requirement already satisfied, skipping upgrade: python-dateutil in /usr/local/lib/python3.6/dist-packages (from kaggle) (2.6.1)
Requirement already satisfied, skipping …Run Code Online (Sandbox Code Playgroud)