我找到了我的Google位置记录
https://maps.google.co.uk/locationhistory/b/0/?hl=en-GB
然后我下载了KML文件
我安装rgdal正确但无法读取文件
我把文件名和图层名称放在https://gis.stackexchange.com/questions/58131/how-to-efficiently-read-a-kml-file-into-r
hist = readOGR(dsn="/home/ajay/Desktop/history-05-04-2015",layer="Location history from 05/05/2015 to 06/04/2015")
Run Code Online (Sandbox Code Playgroud)
这是文件的样子
<?xml version="1.0" encoding="UTF-8"?>
<kml xmlns="http://www.opengis.net/kml/2.2" xmlns:gx="http://www.google.com/kml/ext/2.2" xmlns:kml="http://www.opengis.net/kml/2.2" xmlns:atom="http://www.w3.org/2005/Atom">
<Document>
<name>Location history from 05/05/2015 to 06/04/2015</name>
<open>1</open>
<description/>
<StyleMap id="multiTrack">
Run Code Online (Sandbox Code Playgroud)
这是错误
>Error in ogrInfo(dsn = dsn, layer = layer, encoding = encoding, use_iconv = use_iconv, :
Cannot open file
Run Code Online (Sandbox Code Playgroud)
附加信息
> ogrDrivers()
name write
1 AVCBin FALSE
2 AVCE00 FALSE
3 BNA TRUE
4 CSV TRUE
5 DGN TRUE
6 DODS FALSE
7 DXF …Run Code Online (Sandbox Code Playgroud) 我计划使用Google BigQuery(请随意建议包括Google在内的非亚马逊非Azure服务)来执行以下操作 - a)使用R专门分析数据挖掘,仪表板和文本挖掘.
R和Google平台都是固定的.
我的问题是如何以及在何处找到如何在Google Big Query中使用R. 我阅读了RCurl文档,但有点沮丧.对于可以使用R和Google BigQuery完成的简单任务,您是否只有一个用例?
library(ggplot2)
data(diamonds)
str(diamonds)
## 'data.frame': 53940 obs. of 10 variables:
## $ carat : num 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
## $ cut : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
## $ color : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
## $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 …Run Code Online (Sandbox Code Playgroud) 我正在阅读如下数据集.
f = sc.textFile("s3://test/abc.csv")
Run Code Online (Sandbox Code Playgroud)
我的文件包含50多个字段,我希望为每个字段分配列标题,以便稍后在我的脚本中引用.
我如何在PySpark中做到这一点?DataFrame的方式是什么?
PS - Spark的新手.
我期望生成大量数据然后捕获它R.我如何通过行数,列数和变量类型来估计data.frame(以及因此所需的内存)的大小.
例.
如果我有10000行和150列,其中120是数字,20是字符串,10是因子级别,我可以期望的数据帧的大小是多少.结果是否会根据存储在列中的数据而变化(如max(nchar(column)))
> m <- matrix(1,nrow=1e5,ncol=150)
> m <- as.data.frame(m)
> object.size(m)
120009920 bytes
> a=object.size(m)/(nrow(m)*ncol(m))
> a
8.00066133333333 bytes
> m[,1:150] <- sapply(m[,1:150],as.character)
> b=object.size(m)/(nrow(m)*ncol(m))
> b
4.00098133333333 bytes
> m[,1:150] <- sapply(m[,1:150],as.factor)
> c=object.size(m)/(nrow(m)*ncol(m))
> c
4.00098133333333 bytes
> m <- matrix("ajayajay",nrow=1e5,ncol=150)
>
> m <- as.data.frame(m)
> object.size(m)
60047120 bytes
> d=object.size(m)/(nrow(m)*ncol(m))
> d
4.00314133333333 bytes
Run Code Online (Sandbox Code Playgroud) 我试图找出我如何执行logical operators,当我使用索引中data.table package的R?
以下是示例.我datatable命名为dt.然后把它var2作为我的关键datatable:
> dt = data.table(var1 = rep(LETTERS[1:5],2), var2 = seq(1,20, 2), var3 = ceiling(rnorm(10, 3, 2)))
> dt
var1 var2 var3
1: A 1 5
2: B 3 3
3: C 5 0
4: D 7 6
5: E 9 3
6: A 11 4
7: B 13 2
8: C 15 1
9: D 17 3
10: E 19 7 …Run Code Online (Sandbox Code Playgroud) 我如何在R中像我做python(seaborn package)一样做一个关节图
在python中
import seaborn as sns
sns.jointplot(bigdiamonds["price"], bigdiamonds["carat"])
<seaborn.axisgrid.JointGrid at 0x207230b0>
Run Code Online (Sandbox Code Playgroud)

如何在R中执行此操作?
我这样做
newzips=fromJSON("http://media.mongodb.org/zips.json")
Run Code Online (Sandbox Code Playgroud)
您可以在http://media.mongodb.org/zips.json上查看数据
并得到这样的
str(newzips)
List of 5
$ city : chr "ACMAR"
$ loc : num [1:2] -86.5 33.6
$ pop : num 6055
$ state: chr "AL"
$ _id : chr "35004\"}{\"city\":\"ADAMSVILLE\",\"loc\":[-86.959727,33.588437],\"pop\":10616,\"state\":\"AL\",\"_
Run Code Online (Sandbox Code Playgroud) 我有一个数据框,其中包含一个列和行名称,
> df
freq
hello 4
sorry 2
bad 9
good 4
great 1
Run Code Online (Sandbox Code Playgroud)
我想将其更改为如下所示的两列并更改行名称,
> df
word freq
1 hello 4
2 sorry 2
3 bad 9
4 good 4
5 great 1
Run Code Online (Sandbox Code Playgroud) 使用Python(scipy或numpy)如何计算具有5个自由度的Student t分布的第2.5个和第97.5个百分位数
在 RI 中可以使用
> qt(c(.025, .975), df=5) # 5 degrees of freedom
[1] -2.5706 2.5706
Run Code Online (Sandbox Code Playgroud)
在Python中我使用0.95而不是0.975得到这个
from scipy.stats import t
t.interval(0.95, 5, loc=0, scale=1)
(-2.5705818366147395, 2.5705818366147395)
Run Code Online (Sandbox Code Playgroud) r ×9
python ×3
apache-spark ×1
crosstab ×1
data.table ×1
dataframe ×1
gis ×1
google-maps ×1
hadoop ×1
hmisc ×1
indexing ×1
json ×1
jsonlite ×1
key ×1
memory ×1
numpy ×1
objectsize ×1
pyspark ×1
scipy ×1
seaborn ×1