我得到的提示这个问题的错误是这样的:
URLError: <urlopen error [Errno -3] Temporary failure in name resolution
pd.read_csv(url)当我在 Kaggle 笔记本上运行命令时发生这种情况。
结果发现问题是没有启用互联网访问。
我不熟悉这种df[, .(...), Col]表示法.如果我遗漏了一些明显的东西,我很抱歉,但我找不到这种符号样式的参考,尽管它看起来非常有用.
它似乎正在实施聚合.根据下面代码中这种符号的位置,我希望它来自R而不是来自h2o但我试过检查两者都无济于事.
这个例子来自Kaggle比赛并且代码可以工作(重现它在这里):
trainHex<-as.h2o(train[,.(
dist = mean(radardist_km, na.rm = T),
refArea5 = mean(Ref_5x5_50th, na.rm = T),
refArea9 = mean(Ref_5x5_90th, na.rm = T),
meanRefcomp = mean(RefComposite,na.rm=T),
meanRefcomp5 = mean(RefComposite_5x5_50th,na.rm=T),
meanRefcomp9 = mean(RefComposite_5x5_90th,na.rm=T),
zdr = mean(Zdr, na.rm = T),
zdr5 = mean(Zdr_5x5_50th, na.rm = T),
zdr9 = mean(Zdr_5x5_90th, na.rm = T),
target = log1p(mean(Expected)),
meanRef = mean(Ref,na.rm=T),
sumRef = sum(Ref,na.rm=T),
records = .N,
naCounts = sum(is.na(Ref))
),Id][records>naCounts,],destination_frame="train.hex")
Run Code Online (Sandbox Code Playgroud)
我希望文档和/或对此的一个很好的解释.
当我正在浏览Kaggle比赛的起始R脚本时,我看到这个函数被创建以找到所有行的总和.这是代码:
#Function to sum across rows for variables defined
psum <- function(..., na.rm = FALSE) {
rowSums(do.call(cbind, list(...)), na.rm = na.rm)
}
Run Code Online (Sandbox Code Playgroud)
有人可以解释这个功能发生了什么吗?
另外,这与使用它rowSums有何不同?
嗨,我正在使用Kaggle Titanic数据.我apply(lambda x: x.upper())用来处理多个列,但它不起作用.
我把数据放在谷歌驱动器上,你可以在这里下载.
我测试每一列,这是所有object类型(我认为这意味着str,如果它是错的请纠正我).但有些专栏报道'float' object has no attribute 'upper'
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
train = pd.read_csv('train.csv', header=0)
train.ix[:,['Name', 'Sex', 'Ticket', 'Cabin', 'Embarked']].dtypes
# Name object
# Sex object
# Ticket object
# Cabin object
# Embarked object
# dtype: object
train.ix[:,['Name', 'Sex', 'Ticket', 'Cabin', 'Embarked']].apply(lambda x: x.upper())
# not work
# try each column
train.ix[:,'Name'].apply(lambda x: x.upper()) # works
train.ix[:,'Sex'].apply(lambda x: …Run Code Online (Sandbox Code Playgroud) 我知道已经问过类似的问题,我已经看过所有问题并尝试过,但几乎没有帮助。我正在使用OSX 10.11 El Capitan,python3.6。,虚拟环境,也尝试不使用它。我正在使用jupyter笔记本和spyder3。
我是python的新手,但是了解基本的ML并关注以下文章以学习如何解决Kaggle的挑战:链接到Blog,链接到数据集
我被困在代码的前几行
import pandas as pd
destinations = pd.read_csv("destinations.csv")
test = pd.read_csv("test.csv")
train = pd.read_csv("train.csv")
Run Code Online (Sandbox Code Playgroud)
这给了我错误
UnicodeDecodeError Traceback (most recent call last)
<ipython-input-19-a928a98eb1ff> in <module>()
1 import pandas as pd
----> 2 df = pd.read_csv('destinations.csv', compression='infer',date_parser=True, usecols=([0,1,3]))
3 df.head()
/usr/local/lib/python3.6/site-packages/pandas/io/parsers.py in parser_f(filepath_or_buffer, sep, delimiter, header, names, index_col, usecols, squeeze, prefix, mangle_dupe_cols, dtype, engine, converters, true_values, false_values, skipinitialspace, skiprows, nrows, na_values, keep_default_na, na_filter, verbose, skip_blank_lines, parse_dates, infer_datetime_format, keep_date_col, date_parser, dayfirst, iterator, chunksize, compression, thousands, …Run Code Online (Sandbox Code Playgroud) 我目前正在研究kaggle中的数据集.在训练训练数据模型后,我在验证数据上进行测试,得到的精度约为0.49.
但是,相同的模型在测试数据上给出0.05的准确度.
我使用神经网络作为我的模型
那么,发生这种情况的可能原因是什么?如何开始检查和纠正这些问题?
machine-learning training-data cross-validation deep-learning kaggle
我正在尝试从 Space 数据集在 Kaggle 的 Amazon 上编写 CNN。我现在不能花钱。所以,我想使用谷歌合作。我已经使用 kaggle cli 工具成功下载了数据集。但我无法提取数据。请帮我。[在此处输入图片说明][1]
我正在尝试使用以下命令将数据从 Kaggle 下载到 R 中。我尝试下载的数据集位于此处。
library(httr)
dataset <- GET("https://www.kaggle.com/api/v1/competitions/data/download/10445/train.csv",
authenticate(username, authkey, type = "basic"))
Run Code Online (Sandbox Code Playgroud)
该变量dataset的类型为"application/zip"。有人可以帮我从链接中获取 csv 文件吗?(我使用过,http_type(train) 如果我的问题不清楚,请告诉我
编辑:根据评论包含库名称。
我正在尝试将 google colab 用于 Kaggle 比赛。然而,一切都很顺利,直到我尝试下载数据。我收到403 - 禁止错误。我可以下载其他比赛的数据,例如us-consumer-finance-complaints,但不能下载LANL-Earthquake-Prediction数据。
初始步骤:将 kaggle.json 移动到 API 期望找到它的文件夹中,
!mkdir -p ~/.kaggle/ && mv kaggle.json ~/.kaggle/ && chmod 600 ~/.kaggle/kaggle.json
Run Code Online (Sandbox Code Playgroud)
在colab中执行以下代码时,
!kaggle competitions download -c LANL-Earthquake-Prediction
Run Code Online (Sandbox Code Playgroud)
我收到以下错误消息,
403 - Forbidden
Run Code Online (Sandbox Code Playgroud)
我不知道怎么了,但无法从 Kaggle 下载数据。无论如何我们可以解决问题吗?
我想在kaggle中安装gmaps库,不幸的是,当编写!conda install -c conda-forge gmaps安装开始时,但要求我继续y/n,没有输入写y或n。
Collecting package metadata (current_repodata.json): done
Solving environment: done
## Package Plan ##
environment location: /opt/conda
added / updated specs:
- gmaps
The following packages will be downloaded:
package | build
---------------------------|-----------------
certifi-2019.11.28 | py36_0 149 KB conda-forge
conda-4.8.2 | py36_0 3.0 MB conda-forge
geojson-2.5.0 | py_0 15 KB conda-forge
gmaps-0.9.0 | py_0 1.7 MB conda-forge
------------------------------------------------------------
Total: 4.9 MB
The following NEW packages will be INSTALLED:
geojson conda-forge/noarch::geojson-2.5.0-py_0
gmaps conda-forge/noarch::gmaps-0.9.0-py_0
The following packages …Run Code Online (Sandbox Code Playgroud)