小编S12*_*000的帖子

ggplot中的分组条形图

我有一个调查文件,其中行是观察和列问题.

以下是一些假数据:

People,Food,Music,People
P1,Very Bad,Bad,Good
P2,Good,Good,Very Bad
P3,Good,Bad,Good
P4,Good,Very Bad,Very Good
P5,Bad,Good,Very Good
P6,Bad,Good,Very Good
Run Code Online (Sandbox Code Playgroud)

我的目标是创造这种情节ggplot2.

  • 我绝对不关心颜色,设计等.
  • 该图与假数据不对应

在此输入图像描述

这是我的假数据:

raw <- read.csv("http://pastebin.com/raw.php?i=L8cEKcxS",sep=",")
raw[,2]<-factor(raw[,2],levels=c("Very Bad","Bad","Good","Very Good"),ordered=FALSE)
raw[,3]<-factor(raw[,3],levels=c("Very Bad","Bad","Good","Very Good"),ordered=FALSE)
raw[,4]<-factor(raw[,4],levels=c("Very Bad","Bad","Good","Very Good"),ordered=FALSE)
Run Code Online (Sandbox Code Playgroud)

但是,如果我选择Y作为计数,那么我将面临一个关于选择X和Group值的问题......我不知道我是否能够成功而不使用reshape2...我也厌倦了使用具有融化功能的重塑.但我不明白如何使用它...

r bar-chart ggplot2 reshape reshape2

45
推荐指数
1
解决办法
15万
查看次数

Spark 2.0.x从包含一个string类型数组的数据框中转储csv文件

我有一个数据框df,其中包含一列类型数组

df.show() 好像

|ID|ArrayOfString|Age|Gender|
+--+-------------+---+------+
|1 | [A,B,D]     |22 | F    |
|2 | [A,Y]       |42 | M    |
|3 | [X]         |60 | F    |
+--+-------------+---+------+
Run Code Online (Sandbox Code Playgroud)

我尝试将其转储到dfcsv文件中,如下所示:

val dumpCSV = df.write.csv(path="/home/me/saveDF")
Run Code Online (Sandbox Code Playgroud)

由于该列,它无法正常工作ArrayOfString.我收到错误:

CSV数据源不支持数组字符串数据类型

如果我删除列,代码将起作用ArrayOfString.但我需要保持ArrayOfString!

转储csv数据帧的最佳方法是什么,包括列ArrayOfString(ArrayOfString应该作为一个列转储到CSV文件中)

csv arrays apache-spark

25
推荐指数
4
解决办法
3万
查看次数

将LibreOffice Calc图表导出为PDF边距和空白区域

我的目标是以PDF格式导出LibreOffice Calc图表,以便以后与LaTex一起使用.

我制作了一个16厘米宽,9厘米高的图形.我想得到一个没有边框和大量空白空间的PDF.

所以我去了:文件 - >导出为PDF-> 选择 ...

然而,即使使用选择选项,我也可以在A4页面的小部分中获得带有边距和空白区域的图表...

图1/3

图2/3

在此输入图像描述

pdf export graph libreoffice

14
推荐指数
2
解决办法
7693
查看次数

两个geom_points添加了一个图例

我使用以下代码绘制2 geom_point图:

source("http://www.openintro.org/stat/data/arbuthnot.R")
library(ggplot2)
ggplot() +
  geom_point(aes(x = year,y = boys),data=arbuthnot,colour = '#3399ff') +
  geom_point(aes(x = year,y = girls),data=arbuthnot,shape = 17,colour = '#ff00ff') +
  xlab(label = 'Year') +
  ylab(label = 'Rate')
Run Code Online (Sandbox Code Playgroud)

我只是想知道如何在右侧添加图例.具有相同的形状和颜色.三角粉色应该有传说中的"女人"和蓝色圆圈的传说"男人".看起来很简单但经过多次试验我无法做到.(我是ggplot的初学者).

在此输入图像描述

r legend ggplot2 legend-properties

14
推荐指数
3
解决办法
3万
查看次数

matplotlib 条形图从类别数据框列添加图例

我尝试添加图例,根据我的示例,它应该输出:

  1. 一个红色方块,上面写着水果和
  2. 一个带有素食一词的绿色方块。

我尝试了几件事(下面的例子只是众多试验中的一项),但我无法让它工作。

有人能告诉我如何解决这个问题吗?

import pandas as pd
from matplotlib import pyplot as plt
data = [['apple', 'fruit', 10], ['nanaba', 'fruit', 15], ['salat','veggie', 144]] 
data = pd.DataFrame(data, columns = ['Object', 'Type', 'Value']) 

colors = {'fruit':'red', 'veggie':'green'}           
c = data['Type'].apply(lambda x: colors[x])

bars = plt.bar(data['Object'], data['Value'], color=c, label=colors)
plt.legend()
Run Code Online (Sandbox Code Playgroud)

阴谋

dictionary matplotlib legend bar-chart

11
推荐指数
2
解决办法
3万
查看次数

ggplot多个分组栏

我想知道如何获得9个分组条形图(3x3)togheter.

我的CSV: data <- read.csv("http://pastebin.com/raw.php?i=6pArn8GL", sep = ";")

根据"类型"A到I,9个地块应该是组合.

然后,每个分组条形图应在y轴上具有频率,x轴按1 pce到6 pce分组并按年度分配.

我在Excel上有以下示例(参见图像),并希望在r上使用ggplot创建相同的结果.可能吗?

谢谢

在此输入图像描述

grouping r bar-chart ggplot2

9
推荐指数
2
解决办法
3万
查看次数

用图例绘制R中的倍数(时间)系列

在此输入图像描述

根据我的数据(参见图片)称为GDP.我想知道如何在一个图表中绘制所有国家.我希望每个国家都有一个传奇,例如每行不同的颜色或每行不同的形状.

我知道如何绘制一个系列,例如:

ts.plot(GDP $ ALB)

但不知道如何用传奇绘制所有系列.

谢谢

r time-series

8
推荐指数
4
解决办法
4万
查看次数

R生成具有定义的行数和列数的简单整数矩阵

如何生成一个整数随机矩阵,其值为{1 ... 15},例如r为9行和100列?

(我的问题可能是基本的,但由于未知原因,我无法找到解决方案)

random integer r matrix

8
推荐指数
1
解决办法
1万
查看次数

根据NPA(地区)R地图瑞士

我打算在瑞士做一个调查.NPA将被问到.

NPA(邮政编码)包含4个号码.

  • 例如,1227年是卡鲁日的NPA(日内瓦州 - 瑞士的一部分).
  • 例如,1784年是Courtepin的NPA(弗里堡州 - 瑞士州的一部分).
  • 等等

我想知道如何在地图上表示所有观察(大约1500).我正在考虑使用ggplot,因为我将它用于其他图形(我认为ggplot是"漂亮的").但是,我对任何其他建议持开放态度.

以下是一些虚假数据:http: //pastebin.com/HsuQnLP3

瑞士地图的输出应该有点像美国地图(图片来源:http://www.openintro.org)

在此输入图像描述

更新:

我试过创建一些代码:

library(sp)
test <-  url("https://dl.dropboxusercontent.com/u/6421260/CHE_adm3.RData")
print(load(test))
close(test)

gadm$NAME_3
gadm$TYPE_3
Run Code Online (Sandbox Code Playgroud)

但似乎http://gadm.org/没有提供公社的NPA ......

新更新:

我发现(感谢@yrochat)NPA的shapefile:http: //www.cadastre.ch/internet/cadastre/fr/home/products/plz/data.html

我称为ZIP文件:Shape LV03

然后我试过了

library("maptools")
swissmap <- readShapeLines("C:/Users/yourName/YourPath/PLZO_SHP_LV03/PLZO_PLZ.shp")
plot(swissmap)
data <- data.frame(swissmap)
data$PLZ #the row who gives the NPA
Run Code Online (Sandbox Code Playgroud)

由于我在shapefile上有PLZ,我如何在地图上为我的观察着色?我提供了一些关于数据的假数据http://pastebin.com/HsuQnLP3

在此输入图像描述

谢谢

maps r ggplot2

8
推荐指数
1
解决办法
3322
查看次数

在R中解决任务调度或bin-packing优化

我有一个优化问题.这是一个包含20个部分的产品(生产顺序无关紧要).我有3台类似的机器可以生产所有20个零件.

我用分钟表示了20个部分(即生产第一部分需要3分钟,生产第二部分需要75分钟等)

ItemTime<-c(3,75,55,12,45,55,11,8,21,16,65,28,84,3,58,46,5,84,8,48)
Run Code Online (Sandbox Code Playgroud)

因此生产1种产品需要730分钟.

sum(ItemTime)
Run Code Online (Sandbox Code Playgroud)

目的是通过将好的物品分配给三台机器来最小化一种产品的生产.

sum(ItemTime/3)
Run Code Online (Sandbox Code Playgroud)

所以实际上我需要尽可能接近243.333分钟(730/3)

可能性的数量巨大3 ^ 20

我想有许多不同的最佳解决方案.我希望R给我所有这些.我不需要知道需要机器1 2和3的总时间:我还需要知道给机器1,机器2和机器3提供哪些物品.

或者,如果它太长,我想选择一个尽可能合理的样本而不重复......

我可以用R语言解决我的问题吗?

optimization r knapsack-problem resource-scheduling bin-packing

7
推荐指数
3
解决办法
4041
查看次数