小编Tim*_*Tim的帖子

如何从具有特定分区的配置单元中选择数据?

大家.这是与蜂巢的互动:

hive> show partitions TABLENAME
pt=2012.07.28.08/is_complete=1
pt=2012.07.28.09/is_complete=1
pt=2012.07.28.10/is_complete=1
pt=2012.07.28.11/is_complete=1
hive> select * from TABLENAME where pt='2012.07.28.10/is_complete=1' limit 1;
OK
Time taken: 2.807 seconds
hive> select * from TABLENAME where pt='2012.07.28.10' limit 1;
OK
61806fd3-5535-42a1-9ca5-91676d0e783f    1.160.243.215.1343401203879.1   2012-07-28 23:36:37
Time taken: 3.8 seconds
hive>
Run Code Online (Sandbox Code Playgroud)

我的问题是为什么第一个选择无法获取数据?

hadoop hive

14
推荐指数
1
解决办法
5万
查看次数

计算ctr时如何避免印象偏差?

当我们训练ctr(点击率)模型时,有时我们需要从历史数据中计算出真实的ctr,就像这样


                 #(click)
    ctr   =  ----------------
              #(impressions)

我们知道,如果展示次数太少,则计算的ctr不是真实的.因此,我们始终设置一个阈值来过滤掉足够大的展示次数.

但我们知道更高的印象,对中国的信心更高.然后我的问题是:是否有一个印象规范化的统计方法来计算ctr?

谢谢!

statistics ads machine-learning

9
推荐指数
2
解决办法
3523
查看次数

如何从这么多的ID中找到异常的id

我们运营联盟计划.注册用户在成功招募其他用户时可获得积分.但是,垃圾邮件发送者滥用此程序,并自动注册大量帐户.我们希望通过关闭机器生成的帐户来防止这种情况发生.我的想法是编写一个程序来识别机器生成的帐户名,或者至少选择一个子集进行手动检查.

到目前为止,我们发现有两种类型的异常ID:

  1. 第一个是有些ID看起来与其他ID非常相似,例如:

    • wss12345
    • wss12346
    • wss12347
    • TEST1
    • TEST2
    • ...
  2. 第二个是有些ID看似随机生成的规则,例如:

    • MiDjiSxxiDekiE
    • NiMjKhJixLy
    • DAFDAB7643
    • ...

对于第一个,我使用Levenshtein(编辑)距离.这个方法可以找出一些id,这在类型1中有说明.(我已经完成了这个,并且可以获得良好的性能)

对于第二个,我可以计算id的概率,就像:

id = "DAFDAB7643:
p(id) = p(D)*p(A|D)*p(F|A)*p(D|F)*...*p(3|4)
Run Code Online (Sandbox Code Playgroud)

所以我可以使用概率来过滤掉异常的id.(只是一个想法;我还没试过.)

谁能给我关于这个话题的其他建议?我怎么能解决这个问题呢?你能否在我的尝试中看到瑕疵或遗漏?

machine-learning spam-prevention spam

5
推荐指数
1
解决办法
114
查看次数

shell中的"无效算术运算符"

猫test.sh

#!/bin/bash
key="index";
arr[$key]="val"
echo ${arr[${key}]}
Run Code Online (Sandbox Code Playgroud)

/ bin/bash-x test.sh

+ key=index
+ arr[$key]=val
+ echo val
val
Run Code Online (Sandbox Code Playgroud)

然后我修改test.sh:

#!/bin/bash
key="index.index";
arr[$key]="val"
echo ${arr[${key}]}
Run Code Online (Sandbox Code Playgroud)

/ bin/bash -x test.sh

+ key=index.index
+ arr[$key]=val
test.sh: line 3: index.index: syntax error: invalid arithmetic operator (error token is ".index")
test.sh: line 4: index.index: syntax error: invalid arithmetic operator (error token is ".index")
Run Code Online (Sandbox Code Playgroud)

为什么会出现此错误,任何建议都会受到欢迎!

unix linux bash shell

5
推荐指数
2
解决办法
5794
查看次数

预测误差指标的差距是什么:MAPE和WMAPE?

我知道MAPE和WMAPE作为预测误差指标,它们有一些好处.但差距是什么?有人说:

For MAPE:
"Combinations with very small or zero volumes can cause large skew in results"

And for WMAPE:
"Combinations with large weights can skew the results in their favor" 

我无法理解,任何人都可以解释这两个指标弱点的两个陈述吗?谢谢.

machine-learning forecasting

4
推荐指数
1
解决办法
8000
查看次数

在bash shell中使用cp命令时如何获取已经复制的文件列表?

当我在bash shell中使用带有--update选项的cp命令时,仅当源文件比目标文件更新时才复制.

我不知道如何获取已经复制的文件列表.

任何建议将不胜感激.谢谢.

linux bash shell

0
推荐指数
1
解决办法
589
查看次数