我在最近的一位经济学家看到了这一点,我想知道是否有人有代码可以帮助使用ggplot复制它.经济学家图表
谢谢!
我白天有报纸文章的语料库.语料库中的每个单词都具有当天存在的频率计数.我一直在寻找能够捕捉突破性词语的算法,类似于Twitter在人们的推文中衡量趋势的方式.
例如,在同一组报纸中,"经济衰退"这个词的出现频率如下:
第1天| 经济衰退| 456
第2天| 经济衰退| 2134
第3天| 经济衰退| 3678
而'欧洲'
第1天| 欧洲| 67895
第2天| 欧洲| 71999
第3天| 欧洲| 73321
我正在考虑每天增加%增长并将其乘以频率总和的对数.然后我会取平均分数并比较各种单词.
在这种情况下:
经济衰退=(3.68*8.74 + 0.72*8.74)/ 2 = 19.23
欧洲=(0.06*12.27 + 0.02*12.27)/ 2 = 0.49
是否有更好的方法来捕捉爆炸式增长?我正在尝试挖掘每日语料库以查找在特定时间段内越来越多地提及的术语.如果有更好的算法,请告诉我.我希望能够找到具有高非恒定加速度的单词.也许采用二阶导数会更有效.或者也许我这样做过于复杂,并且在发现频道上观看了太多的物理编程.如果可能,请告诉我一个数学示例谢谢!
我在sql数据库中有一些数据,我想计算斜率.数据有这样的布局:
Date | Keyword | Score
2012-01-10 | ipad | 0.12
2012-01-11 | ipad | 0.17
2012-01-12 | ipad | 0.24
2012-01-10 | taco | 0.19
2012-01-11 | taco | 0.34
2012-01-12 | taco | 0.45
Run Code Online (Sandbox Code Playgroud)
我想通过使用SQL创建一个新表来使最终输出看起来像这样:
Date | Keyword | Score | Slope
2012-01-10 | ipad | 0.12 | 0.06
2012-01-11 | ipad | 0.17 | 0.06
2012-01-12 | ipad | 0.24 | 0.06
2012-01-10 | taco | 0.19 | 0.13
2012-01-11 | taco | 0.34 | 0.13
2012-01-12 …Run Code Online (Sandbox Code Playgroud) 我想输出一个类似于本页(右侧)所示的图表,使用R和任何可以使它看起来很好的包:
http://processtrends.com/pg_charts_monthly_cycle_chart.htm
有谁接受挑战?:)
谢谢!
我用这个绘制了两条密度曲线:
Network <- Mydf$Networks
quartiles <- quantile(Mydf$Avg.Position, probs=c(25,50,75)/100)
density <- ggplot(Mydf, aes(x = Avg.Position, fill = Network))
d <- density + geom_density(alpha = 0.2) + xlim(1,11) + opts(title = "September 2010") + geom_vline(xintercept = quartiles, colour = "red")
print(d)
Run Code Online (Sandbox Code Playgroud)
我想为给定的Avg.Position范围计算每条曲线下的面积.有点像普通曲线的pnorm.有任何想法吗?
我有一个包含数百万行和三列标记为关键字,展示次数,点击次数的数据框.我想根据此函数的评估添加一个包含值的列:
isType <- function(Impressions, Clicks)
{
if (Impressions >= 1 & Clicks >= 1){return("HasClicks")} else if (Impressions >=1 & Clicks == 0){return("NoClicks")} else {return("ZeroImp")}
}
Run Code Online (Sandbox Code Playgroud)
到现在为止还挺好.然后我尝试这个来创建列,但1)它需要永远和2)它标记所有行有"HasClicks"甚至是它不应该的那些.
# Creates a dataframe
Type <- data.frame()
# Loops until last row and store it in data.frame
for (i in c(1:dim(Mydf)[1])) {Type <- rbind(Type,isType(Mydf$Impressions[i], Mydf$Clicks[i]))}
# Add the column to Mydf
Mydf <- transform(Mydf, Type = Type)
Run Code Online (Sandbox Code Playgroud)
输入数据:
关键字,展示次数,点击次数
"Hello",0,0
"World",1,0
"R",34,23
通缉输出:
关键字,展示次数,点击次数,输入
"Hello",0,0,"ZeroImp"
"World",1,0,"NoClicks"
"R",34,23,"HasClicks"
我有一个URL:http:
//somewhere.com/relatedqueries?limit = 2&query = setermterm
修改输入,限制和查询的位置将生成所需数据.限制是可能的最大术语数,查询是种子术语.
URL提供以这种方式格式化的文本结果:
oo.visualization.Query.setResponse({version:'0.5',reqId:'0',status:'ok',sig:'1303596067112929220',table:{cols:[{ ID: '得分',标签: '得分',类型: '编号',图案: '#,## 0 ###'},{ID: '查询',标签: '查询',类型:'字符串'图案: ''}],行:[{C:[{ν:0.9894380670262618中,f: '0.99'},{ν: 'newterm1'}]},{C:[{ν:0.9894380670262618,F:' 0.99 '},{v:' newterm2 '}]}],p:{' totalResultsCount ':' 7727' }}});
我想编写一个带有两个参数(限制数和查询种子)的python脚本,在线获取数据,解析结果并返回一个包含新术语['newterm1','newterm2']的列表案件.
我喜欢一些帮助,尤其是URL提取,因为我以前从未这样做过.
这应该很容易,但它让我发疯.
我有一些形式的数据:
类别,RetailCPC,AdvertiserCPC
花,0.2,0.25
鞋,0.4,0.1
我试图显示一个每行2个点的点图,并由RetailCPC使用ggplot2订购.
我可以绘制一个维度(我的意思是RetailCPC数据),如下所示:
Mydf$Categories <- reorder(Mydf$Categories, Mydf$RetailCPC)
require(ggplot2)
p1 <- qplot(RetailCPC, Categories, data = Mydf)
p1 + geom_point(colour = "red", size = 2)
Run Code Online (Sandbox Code Playgroud)
如何添加AdvertiserCPC点?
我有三年的每日收入数据.每年有一些相当稳定的数据增长,但数据是高度季节性的,在第四季度(黑色星期五,在圣诞节狂热之前等)和周内seansonaly(周一收入高,本周越来越少,最低)出现巨大高峰星期六,星期天开始接受)
我不想使用带有线性预测的无聊电子表格,而是想要一个R脚本,它需要输入三年的每日数据并应用算法来预测未来6个月的每日收入预测.我希望输入只是一个包含日期和收入数字的CSV文件.
我听说ARIMA很好,但我的经济学家朋友看到我的数据认为用卡尔曼滤波器预测会产生非常好的结果.
有人可以发布一个脚本来告诉我如何应用ARIMA算法或卡尔曼滤波器算法来预测我的数据吗?谢谢!