小编Dai*_*ina的帖子

重新调整R ggplotly

我在使用情节R包时遇到了一些麻烦.我很擅长剧情,但我喜欢我可以使用类似ggplot的语法,所以我试图让它工作.

我创建了一个刻面图,您可以将鼠标悬停在数据点上,并查看有关该记录的详细信息.我对这个情节很满意,但是我想调整它的大小,所以每个情节的y轴都不是那么短,因为我想调整整个情节的高度和宽度.

就像我一样,我无法弄清楚如何覆盖默认的大小调整,我正在拉我的头发,因为我可以找到的所有示例都使用plot_ly()而不是ggplotly().除非我需要,否则我宁愿不重建情节只是为了调整尺寸.

我目前运行的代码非常简单:

plot <- ggplot(data = counts_country, aes(x = Year, y = Count, color = Region, text = paste("country:", Country))) +
  geom_point(size= 2, alpha = (1/2)) + 
  facet_wrap(~ Region, ncol = 1)

(gg_plot <- ggplotly(plot))

Run Code Online (Sandbox Code Playgroud)

你可以在这里看到我正在使用的确切内容:http: //rpubs.com/dbouquin/180894

我尝试调整情节以显示两排情节,但仍然有问题,因为年份标签被粉碎在一起.调整大小似乎就像我需要的一样.

r plotly

Dai*_*ina

lucky-day

10
推荐指数

3
解决办法

7040
查看次数

R中梯度下降实现的随机梯度下降

我在R中使用梯度下降有一个多变量线性回归的工作实现.我想看看我是否可以使用我所拥有的随机梯度下降.我不确定这是否真的效率低下.例如,对于α的每个值,我想要执行500次SGD迭代并且能够指定每次迭代中随机挑选的样本的数量.这样做会很好,所以我可以看到样本数量如何影响结果.我在使用迷你批处理时遇到了麻烦,我希望能够轻松地绘制结果.

这是我到目前为止:

 # Read and process the datasets

# download the files from GitHub
download.file("https://raw.githubusercontent.com/dbouquin/IS_605/master/sgd_ex_data/ex3x.dat", "ex3x.dat", method="curl")
x <- read.table('ex3x.dat')

# we can standardize the x vaules using scale()
x <- scale(x)

download.file("https://raw.githubusercontent.com/dbouquin/IS_605/master/sgd_ex_data/ex3y.dat", "ex3y.dat", method="curl")
y <- read.table('ex3y.dat')

# combine the datasets
data3 <- cbind(x,y)
colnames(data3) <- c("area_sqft", "bedrooms","price")
str(data3)

head(data3)

################ Regular Gradient Descent
# http://www.r-bloggers.com/linear-regression-by-gradient-descent/

# vector populated with 1s for the intercept coefficient
x1 <- rep(1, length(data3$area_sqft))

# appends to dfs
# create x-matrix of independent variables …

Run Code Online (Sandbox Code Playgroud)

r stochastic gradient-descent

Dai*_*ina

lucky-day

8
推荐指数

1
解决办法

3781
查看次数

使用正则表达式搜索和过滤 Pandas 数据框

我很感激你的帮助。我有一个熊猫数据框。我想使用正则表达式搜索数据框的 3 列，然后返回符合搜索条件的所有行，按我的一列排序。我想把它写成一个函数，这样我就可以在可能的情况下用其他标准来实现这个逻辑，但我不太确定如何做到这一点。

例如，我知道如何以这种方式提取搜索结果（col1 是列名）：

idx1 = df.col1.str.contains(r'vhigh|high', flags=re.IGNORECASE, regex=True, na=False)

print df[~idx1]

Run Code Online (Sandbox Code Playgroud)

但我无法弄清楚如何采取这种类型的操作，并用多列执行它然后排序。有人有任何提示吗？

python regex pandas

Dai*_*ina

lucky-day

5
推荐指数

1
解决办法

9677
查看次数

创建复杂的条件列（几何平均值）Python

我正在尝试在 df 中创建一个列，它会告诉我给定时间的水是否具有可游泳的质量。尽管几何平均值，我正在撞墙。

这是一个迷你示例 df 就像我正在使用的一样：

df = pd.DataFrame({'Site': ['A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'C'], 'EnteroCount': [1733, 4, 20, 150, 70, 1500, 55, 22, 180]})
df["Site"] = df["Site"].astype('category')

Run Code Online (Sandbox Code Playgroud)

以下是使水不能用于游泳的条件：
EnteroCount >= 110
或
五个或更多几何平均值（加权平均值）大于 30 的样本

我想创建一个列，它只根据这两个条件分配一个值“可接受”或“不可接受”。对于第一个条件，我可以执行以下操作，但是引入 gmean 并不容易（或者是吗？）：

df['swim'] = np.where(df['EnteroCount']>=110, 'unacceptable', 'acceptable')

Run Code Online (Sandbox Code Playgroud)

很想看看如何有效地做到这一点。

python pandas

Dai*_*ina

2016 04-03

4
推荐指数

1
解决办法

2120
查看次数

来自R中非标准日期因子的新列

我有一个奇怪格式化日期列的数据框.我想创建一个列,只显示原始日期列中的年份,我无法想出一个方法来执行此操作,因为当前日期列被视为一个因素.任何关于如何有效地做到这一点的建议将不胜感激.

示例
开头:

org <- c("a","b","c","d")
country <- c("1","2","3","4")
date <- c("01-09-14","01-10-07","11-31-99","10-31-12")
toy <- data.frame(cbind(org,country,date))
toy
  org country     date
1   a       1 01-09-14
2   b       2 01-10-07
3   c       3 11-31-99
4   d       4 10-31-12

str(toy$date)
Factor w/ 4 levels "01-09-14","01-10-07",..: 1 2 4 3

Run Code Online (Sandbox Code Playgroud)

期望的结果:

  org country     Year
1   a       1     2014
2   b       2     2007
3   c       3     1999
4   d       4     2012

Run Code Online (Sandbox Code Playgroud)

r date

Dai*_*ina

lucky-day

1
推荐指数

1
解决办法

77
查看次数

标签统计

r ×3

pandas ×2

python ×2

date ×1

gradient-descent ×1

plotly ×1

regex ×1

stochastic ×1

重新调整R ggplotly

R中梯度下降实现的随机梯度下降

使用正则表达式搜索和过滤 Pandas 数据框

创建复杂的条件列（几何平均值）Python

来自R中非标准日期因子的新列

标签 统计

小编Dai_ina的帖子

标签统计