小编Don*_*ner的帖子

Redis管理小组

Redis是否有标准或事实上的标准GUI管理面板?我想通过Web界面查看Redis实例的一般健康状况和状态.诸如访问日志,内存使用趋势等高级内容会很好但不是必需的.我在Hadoop集群上运行Redis,我喜欢在其中使用JobTracker,NameNode,Ganglia等页面.

有一些,但乍一看他们似乎没有准备黄金时间.

redis

74
推荐指数
6
解决办法
6万
查看次数

将带有十六进制的文本字符串作为bytea插入到PostgreSQL中

我有一个文本文件,其中包含几个十六进制字符串:

013d7d16d7ad4fefb61bd95b765c8ceb
007687fc64b746569616414b78c81ef1
Run Code Online (Sandbox Code Playgroud)

我想将它们作为bytea存储在数据库中,而不是varchar.也就是说,我希望数据库将01存储为单字节00000001,而不是字符'0'和'1'.

我可以通过sed轻松运行这个文件,以任何方式格式化/转义它.

这是我尝试过的:

create table mytable (testcol BYTEA);
Run Code Online (Sandbox Code Playgroud)

这有效:

insert into mytable (testcol) values (E'\x7f\x7f');
Run Code Online (Sandbox Code Playgroud)

但是,只要我的字节超过\ x7f,我就会收到此错误:

insert into mytable (testcol) values (E'\x7f\x80');
ERROR:  invalid byte sequence for encoding "UTF8": 0x80
Run Code Online (Sandbox Code Playgroud)

任何想法,还是我接近错误?

sql postgresql

45
推荐指数
4
解决办法
6万
查看次数

如何在Pig Latin中的两列上进行外连接

我像这样在Pig中的单列上进行外连接

result = JOIN A by id LEFT OUTER, B by id;
Run Code Online (Sandbox Code Playgroud)

我如何加入两列,如:

WHERE A.id=B.id AND A.name=B.name
Run Code Online (Sandbox Code Playgroud)

什么是猪的等价物?我在猪手册中找不到任何例子......有什么帮助吗?

hadoop apache-pig

21
推荐指数
2
解决办法
2万
查看次数

大量摄入Redis

我正在尝试尽快将大量数据加载到Redis中.

我的数据如下:

771240491921 SOME;STRING;ABOUT;THIS;LENGTH
345928354912 SOME;STRING;ABOUT;THIS;LENGTH
Run Code Online (Sandbox Code Playgroud)

左侧有一个~12位数字,右侧有一个可变长度字符串.键将是左侧的数字,数据将是右侧的字符串.

在我刚刚开箱即用的Redis实例中,以及带有此数据的未压缩纯文本文件,我可以在一分钟内获得大约一百万条记录.我需要做大约4500万,这需要大约45分钟.45分钟太长了.

我是否存在一些标准的性能调整来进行这种类型的优化?通过分割不同的实例,我会获得更好的性能吗?

redis

16
推荐指数
1
解决办法
6008
查看次数

将数据从HDFS导入HBase(cdh3u2)

我已经安装了hadoop和hbase cdh3u2.在hadoop我有一个文件在路径上/home/file.txt.它有像这样的数据

one,1
two,2
three,3
Run Code Online (Sandbox Code Playgroud)

我想将此文件导入hbase.在那里,第一个字段应解析为String,第二个字段解析为整数,然后它应推入hbase.帮我这样做

athanks in dvance ....

hadoop hbase hdfs cloudera sqoop

12
推荐指数
1
解决办法
1万
查看次数

使用PIG加载文件

我对PIG很新,我感觉自己是一个非常基本的问题.我有一行代码如下:

A = load 'Sites/trial_clustering/shortdocs/*'
      AS (word1:chararray, word2:chararray, word3:chararray, word4:chararray);
Run Code Online (Sandbox Code Playgroud)

其中每个文件基本上是一行4个逗号分隔的单词.然而,PIG并没有把它分成4个单词.当我转储时A,我得到:(Money, coins, loans, debt,,,) 我已经尝试了谷歌搜索,我似乎无法找到我的文件需要的格式,以便PIG将正确解释它.请帮忙!

hadoop apache-pig

9
推荐指数
1
解决办法
3万
查看次数

MapReduce中的交叉产品

我想使用Java MapReduce在Hadoop中跨两个数据集执行昂贵的跨产品操作.

例如,我有来自数据集A和数据集B的记录,并且我希望数据集A中的每个记录与输出中的数据集B中的每个记录匹配.我意识到这个的输出大小是|A| * |B|,但是无论如何都要这样做.

我看到猪有,CROSS但我不知道它是如何在高层实施的.也许我会去看看源代码.

不寻找任何代码,只想知道如何处理这个问题.

hadoop mapreduce

9
推荐指数
1
解决办法
2093
查看次数

使用部分参数创建Python函数

我想将Python函数传递给另一个函数,其中一些参数提前"填写".

这简化了我正在做的事情:

def add(x, y):
    return x + y

def increment_factory(i):  # create a function that increments by i
    return (lambda y: add(i, y))

inc2 = increment_factory(2)

print inc2(3) # prints 5
Run Code Online (Sandbox Code Playgroud)

我不想使用某种传递args然后将其爆炸,*args因为我传入的函数inc2不知道传递args给它.

对于一个团队项目来说,这感觉有点过于聪明......有没有更简单或pythonic的方式来做到这一点?

谢谢!

python lambda

8
推荐指数
1
解决办法
3214
查看次数

查询时间统计(PostgreSQL)

我有一个十亿行的表格,我想确定表格的几个查询的平均时间和标准时间偏差:

select * from mytable where col1 = '36e2ae77-43fa-4efa-aece-cd7b8b669043';
select * from mytable where col1 = '4b58c002-bea4-42c9-8f31-06a499cabc51';
select * from mytable where col1 = 'b97242ae-9f6c-4f36-ad12-baee9afae194';

....
Run Code Online (Sandbox Code Playgroud)

我有一千个col1存储在另一个表中的随机值.

有没有办法在一个单独的表中存储每个查询花费的时间(以毫秒为单位),以便我可以对它们运行一些统计信息?类似于:对于随机表中的每个col1,执行查询,记录时间,然后将其存储在另一个表中.

一个完全不同的方法就可以了,只要我可以留在PostgreSQL中(即,我不想编写外部程序来执行此操作).

sql postgresql performance

7
推荐指数
2
解决办法
8886
查看次数

用python编写的最好的搜索引擎

我想建立一个信息支持系统,这是一个网络应用程序.我们将使用Django作为框架,但我不知道使用哪个搜索引擎?你能给我一些关于我们可以在项目中使用的搜索引擎的建议吗,它必须用python编写.谢谢

python django search-engine

7
推荐指数
1
解决办法
7133
查看次数