我在使用情节R包时遇到了一些麻烦.我很擅长剧情,但我喜欢我可以使用类似ggplot的语法,所以我试图让它工作.
我创建了一个刻面图,您可以将鼠标悬停在数据点上,并查看有关该记录的详细信息.我对这个情节很满意,但是我想调整它的大小,所以每个情节的y轴都不是那么短,因为我想调整整个情节的高度和宽度.
就像我一样,我无法弄清楚如何覆盖默认的大小调整,我正在拉我的头发,因为我可以找到的所有示例都使用plot_ly()而不是ggplotly().除非我需要,否则我宁愿不重建情节只是为了调整尺寸.
我目前运行的代码非常简单:
plot <- ggplot(data = counts_country, aes(x = Year, y = Count, color = Region, text = paste("country:", Country))) +
geom_point(size= 2, alpha = (1/2)) +
facet_wrap(~ Region, ncol = 1)
(gg_plot <- ggplotly(plot))
Run Code Online (Sandbox Code Playgroud)
你可以在这里看到我正在使用的确切内容:http: //rpubs.com/dbouquin/180894
我尝试调整情节以显示两排情节,但仍然有问题,因为年份标签被粉碎在一起.调整大小似乎就像我需要的一样.
我在R中使用梯度下降有一个多变量线性回归的工作实现.我想看看我是否可以使用我所拥有的随机梯度下降.我不确定这是否真的效率低下.例如,对于α的每个值,我想要执行500次SGD迭代并且能够指定每次迭代中随机挑选的样本的数量.这样做会很好,所以我可以看到样本数量如何影响结果.我在使用迷你批处理时遇到了麻烦,我希望能够轻松地绘制结果.
这是我到目前为止:
# Read and process the datasets
# download the files from GitHub
download.file("https://raw.githubusercontent.com/dbouquin/IS_605/master/sgd_ex_data/ex3x.dat", "ex3x.dat", method="curl")
x <- read.table('ex3x.dat')
# we can standardize the x vaules using scale()
x <- scale(x)
download.file("https://raw.githubusercontent.com/dbouquin/IS_605/master/sgd_ex_data/ex3y.dat", "ex3y.dat", method="curl")
y <- read.table('ex3y.dat')
# combine the datasets
data3 <- cbind(x,y)
colnames(data3) <- c("area_sqft", "bedrooms","price")
str(data3)
head(data3)
################ Regular Gradient Descent
# http://www.r-bloggers.com/linear-regression-by-gradient-descent/
# vector populated with 1s for the intercept coefficient
x1 <- rep(1, length(data3$area_sqft))
# appends to dfs
# create x-matrix of independent variables …Run Code Online (Sandbox Code Playgroud) 我很感激你的帮助。我有一个熊猫数据框。我想使用正则表达式搜索数据框的 3 列,然后返回符合搜索条件的所有行,按我的一列排序。我想把它写成一个函数,这样我就可以在可能的情况下用其他标准来实现这个逻辑,但我不太确定如何做到这一点。
例如,我知道如何以这种方式提取搜索结果(col1 是列名):
idx1 = df.col1.str.contains(r'vhigh|high', flags=re.IGNORECASE, regex=True, na=False)
print df[~idx1]
Run Code Online (Sandbox Code Playgroud)
但我无法弄清楚如何采取这种类型的操作,并用多列执行它然后排序。有人有任何提示吗?
我正在尝试在 df 中创建一个列,它会告诉我给定时间的水是否具有可游泳的质量。尽管几何平均值,我正在撞墙。
这是一个迷你示例 df 就像我正在使用的一样:
df = pd.DataFrame({'Site': ['A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'C'], 'EnteroCount': [1733, 4, 20, 150, 70, 1500, 55, 22, 180]})
df["Site"] = df["Site"].astype('category')
Run Code Online (Sandbox Code Playgroud)
以下是使水不能用于游泳的条件:
EnteroCount >= 110
或
五个或更多几何平均值(加权平均值)大于 30 的样本
我想创建一个列,它只根据这两个条件分配一个值“可接受”或“不可接受”。对于第一个条件,我可以执行以下操作,但是引入 gmean 并不容易(或者是吗?):
df['swim'] = np.where(df['EnteroCount']>=110, 'unacceptable', 'acceptable')
Run Code Online (Sandbox Code Playgroud)
很想看看如何有效地做到这一点。
我有一个奇怪格式化日期列的数据框.我想创建一个列,只显示原始日期列中的年份,我无法想出一个方法来执行此操作,因为当前日期列被视为一个因素.任何关于如何有效地做到这一点的建议将不胜感激.
示例
开头:
org <- c("a","b","c","d")
country <- c("1","2","3","4")
date <- c("01-09-14","01-10-07","11-31-99","10-31-12")
toy <- data.frame(cbind(org,country,date))
toy
org country date
1 a 1 01-09-14
2 b 2 01-10-07
3 c 3 11-31-99
4 d 4 10-31-12
str(toy$date)
Factor w/ 4 levels "01-09-14","01-10-07",..: 1 2 4 3
Run Code Online (Sandbox Code Playgroud)
期望的结果:
org country Year
1 a 1 2014
2 b 2 2007
3 c 3 1999
4 d 4 2012
Run Code Online (Sandbox Code Playgroud)