我有一个调查文件,其中行是观察和列问题.
以下是一些假数据:
People,Food,Music,People
P1,Very Bad,Bad,Good
P2,Good,Good,Very Bad
P3,Good,Bad,Good
P4,Good,Very Bad,Very Good
P5,Bad,Good,Very Good
P6,Bad,Good,Very Good
Run Code Online (Sandbox Code Playgroud)
我的目标是创造这种情节ggplot2.

这是我的假数据:
raw <- read.csv("http://pastebin.com/raw.php?i=L8cEKcxS",sep=",")
raw[,2]<-factor(raw[,2],levels=c("Very Bad","Bad","Good","Very Good"),ordered=FALSE)
raw[,3]<-factor(raw[,3],levels=c("Very Bad","Bad","Good","Very Good"),ordered=FALSE)
raw[,4]<-factor(raw[,4],levels=c("Very Bad","Bad","Good","Very Good"),ordered=FALSE)
Run Code Online (Sandbox Code Playgroud)
但是,如果我选择Y作为计数,那么我将面临一个关于选择X和Group值的问题......我不知道我是否能够成功而不使用reshape2...我也厌倦了使用具有融化功能的重塑.但我不明白如何使用它...
我有一个数据框df,其中包含一列类型数组
df.show() 好像
|ID|ArrayOfString|Age|Gender|
+--+-------------+---+------+
|1 | [A,B,D] |22 | F |
|2 | [A,Y] |42 | M |
|3 | [X] |60 | F |
+--+-------------+---+------+
Run Code Online (Sandbox Code Playgroud)
我尝试将其转储到dfcsv文件中,如下所示:
val dumpCSV = df.write.csv(path="/home/me/saveDF")
Run Code Online (Sandbox Code Playgroud)
由于该列,它无法正常工作ArrayOfString.我收到错误:
CSV数据源不支持数组字符串数据类型
如果我删除列,代码将起作用ArrayOfString.但我需要保持ArrayOfString!
转储csv数据帧的最佳方法是什么,包括列ArrayOfString(ArrayOfString应该作为一个列转储到CSV文件中)
我的目标是以PDF格式导出LibreOffice Calc图表,以便以后与LaTex一起使用.
我制作了一个16厘米宽,9厘米高的图形.我想得到一个没有边框和大量空白空间的PDF.
所以我去了:文件 - >导出为PDF-> 选择 ...
然而,即使使用选择选项,我也可以在A4页面的小部分中获得带有边距和空白区域的图表...



我使用以下代码绘制2 geom_point图:
source("http://www.openintro.org/stat/data/arbuthnot.R")
library(ggplot2)
ggplot() +
geom_point(aes(x = year,y = boys),data=arbuthnot,colour = '#3399ff') +
geom_point(aes(x = year,y = girls),data=arbuthnot,shape = 17,colour = '#ff00ff') +
xlab(label = 'Year') +
ylab(label = 'Rate')
Run Code Online (Sandbox Code Playgroud)
我只是想知道如何在右侧添加图例.具有相同的形状和颜色.三角粉色应该有传说中的"女人"和蓝色圆圈的传说"男人".看起来很简单但经过多次试验我无法做到.(我是ggplot的初学者).

我尝试添加图例,根据我的示例,它应该输出:
我尝试了几件事(下面的例子只是众多试验中的一项),但我无法让它工作。
有人能告诉我如何解决这个问题吗?
import pandas as pd
from matplotlib import pyplot as plt
data = [['apple', 'fruit', 10], ['nanaba', 'fruit', 15], ['salat','veggie', 144]]
data = pd.DataFrame(data, columns = ['Object', 'Type', 'Value'])
colors = {'fruit':'red', 'veggie':'green'}
c = data['Type'].apply(lambda x: colors[x])
bars = plt.bar(data['Object'], data['Value'], color=c, label=colors)
plt.legend()
Run Code Online (Sandbox Code Playgroud)
我想知道如何获得9个分组条形图(3x3)togheter.
我的CSV: data <- read.csv("http://pastebin.com/raw.php?i=6pArn8GL", sep = ";")
根据"类型"A到I,9个地块应该是组合.
然后,每个分组条形图应在y轴上具有频率,x轴按1 pce到6 pce分组并按年度分配.
我在Excel上有以下示例(参见图像),并希望在r上使用ggplot创建相同的结果.可能吗?
谢谢

根据我的数据(参见图片)称为GDP.我想知道如何在一个图表中绘制所有国家.我希望每个国家都有一个传奇,例如每行不同的颜色或每行不同的形状.
我知道如何绘制一个系列,例如:
ts.plot(GDP $ ALB)
但不知道如何用传奇绘制所有系列.
谢谢
如何生成一个整数随机矩阵,其值为{1 ... 15},例如r为9行和100列?
(我的问题可能是基本的,但由于未知原因,我无法找到解决方案)
我打算在瑞士做一个调查.NPA将被问到.
NPA(邮政编码)包含4个号码.
我想知道如何在地图上表示所有观察(大约1500).我正在考虑使用ggplot,因为我将它用于其他图形(我认为ggplot是"漂亮的").但是,我对任何其他建议持开放态度.
以下是一些虚假数据:http: //pastebin.com/HsuQnLP3
瑞士地图的输出应该有点像美国地图(图片来源:http://www.openintro.org)

更新:
我试过创建一些代码:
library(sp)
test <- url("https://dl.dropboxusercontent.com/u/6421260/CHE_adm3.RData")
print(load(test))
close(test)
gadm$NAME_3
gadm$TYPE_3
Run Code Online (Sandbox Code Playgroud)
但似乎http://gadm.org/没有提供公社的NPA ......
新更新:
我发现(感谢@yrochat)NPA的shapefile:http: //www.cadastre.ch/internet/cadastre/fr/home/products/plz/data.html
我称为ZIP文件:Shape LV03
然后我试过了
library("maptools")
swissmap <- readShapeLines("C:/Users/yourName/YourPath/PLZO_SHP_LV03/PLZO_PLZ.shp")
plot(swissmap)
data <- data.frame(swissmap)
data$PLZ #the row who gives the NPA
Run Code Online (Sandbox Code Playgroud)
由于我在shapefile上有PLZ,我如何在地图上为我的观察着色?我提供了一些关于数据的假数据http://pastebin.com/HsuQnLP3

谢谢
我有一个优化问题.这是一个包含20个部分的产品(生产顺序无关紧要).我有3台类似的机器可以生产所有20个零件.
我用分钟表示了20个部分(即生产第一部分需要3分钟,生产第二部分需要75分钟等)
ItemTime<-c(3,75,55,12,45,55,11,8,21,16,65,28,84,3,58,46,5,84,8,48)
Run Code Online (Sandbox Code Playgroud)
因此生产1种产品需要730分钟.
sum(ItemTime)
Run Code Online (Sandbox Code Playgroud)
目的是通过将好的物品分配给三台机器来最小化一种产品的生产.
sum(ItemTime/3)
Run Code Online (Sandbox Code Playgroud)
所以实际上我需要尽可能接近243.333分钟(730/3)
可能性的数量巨大3 ^ 20
我想有许多不同的最佳解决方案.我希望R给我所有这些.我不需要知道需要机器1 2和3的总时间:我还需要知道给机器1,机器2和机器3提供哪些物品.
或者,如果它太长,我想选择一个尽可能合理的样本而不重复......
我可以用R语言解决我的问题吗?
optimization r knapsack-problem resource-scheduling bin-packing
r ×7
ggplot2 ×4
bar-chart ×3
legend ×2
apache-spark ×1
arrays ×1
bin-packing ×1
csv ×1
dictionary ×1
export ×1
graph ×1
grouping ×1
integer ×1
libreoffice ×1
maps ×1
matplotlib ×1
matrix ×1
optimization ×1
pdf ×1
random ×1
reshape ×1
reshape2 ×1
time-series ×1