标签: data-analysis

Web度量应用程序计算访问者现场时间的最佳方式是什么?

我正在开发一个像谷歌分析这样的内部网络分析系统,我不太清楚这个概念page stay time,这个措施来自网络的典型解释是:

  1. 用户在时间戳访问页面A:t1
  2. 用户在时间戳访问页面B:t2,(t2> t1)

那么A的页面停留时间是t2-t1,B是0

我的问题是:在这种情况下,当计算page stay timeB时,我们是否需要检查用户是否从页面A单击页面B?即B的参考是A?

google-analytics data-analysis web-analytics

2
推荐指数
1
解决办法
628
查看次数

R计算数据框中的百分比值

我今天的问题是指我正在研究的数据框.数据框的标题如下所示:字符串(唯一),整数N [0-23]

这24个整数值表示与一天中每小时相关联的字符串的频率.从逻辑上讲,每行中的int值总计为字符串在数据中出现的频率.

事实是,我不需要某个小时的字符串的实际频率,而是该频率表示的百分比与所有行中的整数值之和的关系.

我的讲师暗示table()可能是正确的R工具,但老实说我不明白这应该如何帮助我.

如果所有其他方法都失败了,我会用Java计算它 - 虽然我非常感谢你帮助我在R中做到这一点.

感谢您的阅读,并提前感谢您的帮助,

Rickyfox

@@@@@@我是你的编辑,请看我@@@@@@

在詹姆斯的帮助下,我得到了以下的可预测性

事实上,每行的百分比总计为100,但它们应该对整个表格这样做.有没有办法做到这一点?

r data-analysis frequency-distribution

2
推荐指数
1
解决办法
5753
查看次数

如何以编程方式退出,推导,反编译,反向工程用于在数据集中构造变量的算法

我正在寻找一些算法或程序或函数来推断变量是如何创建的,只要我提供其他变量.我认为计算机程序员会称之为"反编译",而建筑师会将其称为"逆向工程",但我想我不知道统计学家会称它为什么......或者如果有可接受的方法可以做到这一点.

假设我在被叫中有一个分类列,我不确切知道它是如何构建的.但我确实知道用什么变量来创建它.或者至少我可以提供一组用于创建变量的详尽变量 - 即使并非所有变量都被使用.data.framenewvar

# start with an example data set
x <- mtcars

# # # # # # # # # # # # # # # # # # # # # # # #
# pretend this block of code is a black box
x <-
    transform(
        x ,
        newvar =
            ifelse( mpg > 24 , 1 ,
            ifelse( cyl == 6 , 9 ,
            ifelse( hp > 120 , …
Run Code Online (Sandbox Code Playgroud)

algorithm regression r data-analysis decision-tree

2
推荐指数
1
解决办法
576
查看次数

python pandas无法显示大型数据帧的摘要

我最近升级到pandas版本0.13并且遇到了这个问题,无论我的数据帧有多大(最大的有25列和158430行),pandas打印出整个数据帧(不是整个数据帧,只有几行)每一列,但它仍然是凌乱的!)而不是打印出这样的大数据帧更清洁的汇总表.我只是想知道是否有其他人遇到这个问题或者过去曾遇到过这个问题而且知道如何修复它.

提前致谢!

python data-analysis dataframe pandas

2
推荐指数
1
解决办法
2066
查看次数

Torch7 Mac安装错误

我想在mac机器Torch7上安装.当我尝试在第二行使用本教程https://github.com/torch/torch7/wiki/Cheatsheet#installing-and-running-torch安装火炬时(curl -sk https://raw.githubusercontent.com/torch/ezinstall/master/install-luajit + torch | bash)我遇到以下错误:

- 寻找QT_MAC_USE_COCOA - 在/usr/local/Cellar/cmake/2.8.12.2/share/cmake/Modules/FindPackageHandleStandardArgs.cmake:108找到CMake错误(消息):找不到Qt4(缺少:QT_MOC_EXECUTABLE QT_RCC_EXECUTABLE QT_UIC_EXECUTABLE)(找到合适的版本"4.7.4",最低要求是"4.3.0")调用堆栈(最近一次调用的第一个):/ usr/local/Cellar/cmake/2.8d.2/share/cmake/Module/ActionPackageHandleStandardArgs.cmake: 315(_FPHSA_FAILURE_MESSAGE)/usr/local/Cellar/cmake/2.8.12.2/share/cmake/Modules/FindQt4.cmake:1393(FIND_PACKAGE_HANDLE_STANDARD_ARGS)CMakeLists.txt:27(FIND_PACKAGE)

你以前遇到过这个问题吗?谢谢

c python macos data-analysis

2
推荐指数
1
解决办法
1088
查看次数

直方图拟合与python

我一直在冲浪,但没有找到正确的方法来执行以下操作.

我用matplotlib完成了直方图:

hist, bins, patches = plt.hist(distance, bins=100, normed='True')
Run Code Online (Sandbox Code Playgroud)

从图中,我可以看到分布或多或少是指数(泊松分布).考虑到我的hist和bin数组,我怎样才能做到最佳拟合

UPDATE

我使用以下方法:

x = np.float64(bins) # Had some troubles with data types float128 and float64
hist = np.float64(hist)
myexp=lambda x,l,A:A*np.exp(-l*x)
popt,pcov=opt.curve_fit(myexp,(x[1:]+x[:-1])/2,hist)
Run Code Online (Sandbox Code Playgroud)

但我明白了

---> 41 plt.plot(stats.expon.pdf(np.arange(len(hist)),popt),'-')

ValueError: operands could not be broadcast together with shapes (100,) (2,)
Run Code Online (Sandbox Code Playgroud)

python matplotlib data-analysis scipy pandas

2
推荐指数
1
解决办法
5672
查看次数

Pandas和Python数据帧以及条件转换函数

数据框中是否存在条件"移位"参数?

例如,

假设我拥有一辆二手车,我的数据如下

SaleDate    Car
12/1/2016   Wrangler
12/2/2016   Camry
12/3/2016   Wrangler
12/7/2016   Prius
12/10/2016  Prius
12/12/2016  Wrangler
Run Code Online (Sandbox Code Playgroud)

我想从这个列表中找到两件事 -

1)对于每次销售,汽车售出的最后一天是什么时候?这在Pandas中很简单,只是一个简单的转变如下

df['PriorSaleDate'] = df['SaleDate'].shift()
Run Code Online (Sandbox Code Playgroud)

2)对于每次销售,同一类型汽车的销售日期是什么时候?因此,例如,12/3处的牧马人销售将指向两行返回到12/1(最后一次第3行中的"汽车"值等于前一行中的"汽车"值).

对于12/12年出售的牧马人,我希望价值12/3

是否有一个条件移位参数,允许我在那里得到行df ['Car']等于该行中df ['Car']的值?

非常感谢你的帮助

python data-analysis pandas

2
推荐指数
1
解决办法
1371
查看次数

如何用其他系列替换pandas数据帧的子集

我认为这是一个微不足道的问题,但我不能让它发挥作用.

d = {   'one': pd.Series([1,2,3,4], index=['a', 'b', 'c', 'd']),
            'two': pd.Series([np.nan,6,np.nan,8], index=['a', 'b', 'c', 'd']),
            'three': pd.Series([10,20,30,np.nan], index = ['a', 'b', 'c', 'd'])}         
   ?    
df = pd.DataFrame(d)
df

    one     three   two
a   1       10.0    NaN
b   2       20.0    6.0
c   3       30.0    NaN
d   4       NaN     8.0
Run Code Online (Sandbox Code Playgroud)

我的系列:

?fill = pd.Series([30,60])
Run Code Online (Sandbox Code Playgroud)

我想替换一个特定的列,让它成为'两个'.我的系列名为fill,其中'two'列符合条件:是Nan.残友对我有帮助吗?我想要的结果:

df

    one     three   two
a   1       10.0    30
b   2       20.0    6.0
c   3       30.0    60
d   4       NaN     8.0
Run Code Online (Sandbox Code Playgroud)

python data-analysis missing-data pandas

2
推荐指数
1
解决办法
2758
查看次数

Removing duplicates with ignoring case sensitive and adding the next column values with the first one in pandas dataframe in python

I have a df,

Name    Count
Ram     1
ram     2
raM     1
Arjun   3
arjun   4
Run Code Online (Sandbox Code Playgroud)

My desired output df,

Name    Count
Ram     4
Arjun   7
Run Code Online (Sandbox Code Playgroud)

I tried groupby but I cannot achieve the desired output, please help

python data-analysis dataframe pandas

2
推荐指数
1
解决办法
2582
查看次数

Seaborn图书馆中的直方图,计数图和distplot有什么主要区别?

我认为它们看起来都一样,但必须有所区别。

它们全部以一列作为输入,并且y轴具有所有图的计数。

python visualization matplotlib data-analysis seaborn

2
推荐指数
1
解决办法
2719
查看次数