标签: hadoop

没有加入的生活......理解和共同的实践

很多"BAW"(大屁股网站)正在使用数据存储和检索技术,这些技术依赖于带有索引的巨大表,并使用在查询中不会/不能使用JOIN的查询(BigTable,HQL等)处理可伸缩性和分片数据库.当你有大量和非常相关的数据时,它是如何工作的?

我只能推测,这种加入的大部分必须在应用程序方面完成,但这不会开始变得昂贵吗?如果您必须对几个不同的表进行多次查询以获取要编译的信息,该怎么办?是不是多次开始变得比仅仅使用连接更昂贵的数据库?我想这取决于你有多少数据?

对于常用的ORM,它们如何处理无法使用连接?今天在大量使用的ORM中是否有对此的支持?或者大多数必须接近这一级别数据的项目是否倾向于自行推出?

所以这不适用于我现在正在进行的任何项目,但现在已经有几个月了,我只能猜测"最佳实践"是什么.我从来没有必要在任何项目中解决这个问题,因为他们从未达到过需要的规模.希望这个问题能帮助其他人......

如下所述,ORM在没有连接的情况下"无法正常工作".是否有其他数据访问层已经可供处理此级别数据的开发人员使用?

编辑: 有些澄清,Vinko Vrsalovic说:

"我相信窃笑者想要讨论NO-SQL,其中事务数据被非规范化并在Hadoop或BigTable或Cassandra方案中使用."

这正是我所说的.

抓住xkcd参考的人的奖励积分.

orm hadoop join bigtable nosql

59
推荐指数
3
解决办法
3122
查看次数

Hadoop中的内存不足错误

我尝试按照http://hadoop.apache.org/common/docs/stable/single_node_setup.html文档安装Hadoop .当我尝试执行此操作时

bin/hadoop jar hadoop-examples-*.jar grep input output 'dfs[a-z.]+' 
Run Code Online (Sandbox Code Playgroud)

我得到以下例外

java.lang.OutOfMemoryError: Java heap space
Run Code Online (Sandbox Code Playgroud)

请建议一个解决方案,以便我可以尝试这个例子.下面列出了整个例外情况.我是Hadoop的新手,我可能做了一些愚蠢的事情.任何建议将受到高度赞赏.

anuj@anuj-VPCEA13EN:~/hadoop$ bin/hadoop jar hadoop-examples-*.jar grep input output 'dfs[a-z.]+'
11/12/11 17:38:22 INFO util.NativeCodeLoader: Loaded the native-hadoop library
11/12/11 17:38:22 INFO mapred.FileInputFormat: Total input paths to process : 7
11/12/11 17:38:22 INFO mapred.JobClient: Running job: job_local_0001
11/12/11 17:38:22 INFO util.ProcessTree: setsid exited with exit code 0
11/12/11 17:38:22 INFO mapred.Task:  Using ResourceCalculatorPlugin : org.apache.hadoop.util.LinuxResourceCalculatorPlugin@e49dcd
11/12/11 17:38:22 INFO mapred.MapTask: numReduceTasks: 1
11/12/11 17:38:22 INFO mapred.MapTask: io.sort.mb …
Run Code Online (Sandbox Code Playgroud)

java hadoop

59
推荐指数
5
解决办法
9万
查看次数

如何删除和更新Hive中的记录

我已经安装了Hadoop,Hive,Hive JD BC.这对我来说运行良好.但我还是有问题.如何使用Hive删除或更新单个记录,因为MySQL的删除或更新命令在配置单元中不起作用.

谢谢

hive> delete from student where id=1;
Usage: delete [FILE|JAR|ARCHIVE] <value> [<value>]*
Query returned non-zero code: 1, cause: null
Run Code Online (Sandbox Code Playgroud)

hadoop hive sql-delete

59
推荐指数
6
解决办法
25万
查看次数

Hive:如何显示表的所有分区?

我有一个包含1000多个分区的表.

" Show partitions"命令仅列出少量分区.

我该如何显示所有分区?

更新:

  1. 我发现" show partitions"命令只列出了500个分区.

  2. " select ... where ..."只处理500个分区!

hadoop hive

58
推荐指数
2
解决办法
13万
查看次数

OSX上的Hadoop"无法从SCDynamicStore加载领域信息"

我在OSX 10.7上启动Hadoop时收到此错误:

无法从SCDynamicStore加载域信息put:org.apache.hadoop.hdfs.server.namenode.SafeModeException:无法创建目录/ user/travis/input/conf.名称节点处于安全模式.

它似乎没有引起Hadoop功能的任何问题.

macos hadoop osx-lion

57
推荐指数
5
解决办法
4万
查看次数

为什么没有'hadoop fs -head'hell命令?

在HDFS上检查文件的快速方法是使用tail:

~$ hadoop fs -tail /path/to/file
Run Code Online (Sandbox Code Playgroud)

这将显示文件中的最后一千字节数据,这非常有用.但是,相反的命令head似乎不是shell命令集合的一部分.我发现这非常令人惊讶.

我的假设是,由于HDFS是为非常大的文件上的非常快速的流读取而构建的,因此存在一些影响访问的问题head.这让我对做头脑的事情犹豫不决.有人有答案吗?

hadoop hdfs

57
推荐指数
2
解决办法
4万
查看次数

Hive与HBase相比如何?

我有兴趣了解最近发布的(http://mirror.facebook.com/facebook/hive/hadoop-0.17/)Hive在性能方面与HBase的比较.Hive使用的类似SQL的接口比我们实现的HBase API要好得多.

hadoop hbase hive

56
推荐指数
4
解决办法
4万
查看次数

如何修复损坏的HDFS FIles

有人如何修复腐败的HDFS?我查看了Apache/Hadoop网站,它说它的fsck命令,但没有解决它.希望之前遇到此问题的人可以告诉我如何解决这个问题.

与用于本机文件系统的传统fsck实用程序不同,此命令不会更正它检测到的错误.通常,NameNode会自动更正大多数可恢复的故障.

当我运行时bin/hadoop fsck / -delete,它列出了损坏或丢失块的文件.我如何让它不腐败?这是在练习机器上,所以我可以把所有东西吹走,但是当我们上线时,我将无法通过吹掉所有东西来"修复"它,所以我现在想要解决它.

hadoop hdfs

56
推荐指数
2
解决办法
11万
查看次数

什么是Hive:从org.apache.hadoop.hive.ql.exec.MapRedTask返回代码2

我正进入(状态:

FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask
Run Code Online (Sandbox Code Playgroud)

尝试使用hive控制台中的命令创建分区表的副本​​时:

CREATE TABLE copy_table_name LIKE table_name;
INSERT OVERWRITE TABLE copy_table_name PARTITION(day) SELECT * FROM table_name;
Run Code Online (Sandbox Code Playgroud)

我最初得到一些语义分析错误,不得不设置:

set hive.exec.dynamic.partition=true
set hive.exec.dynamic.partition.mode=nonstrict
Run Code Online (Sandbox Code Playgroud)

虽然我不确定上面的属性是做什么的?

蜂巢控制台的全部输出:

Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set …
Run Code Online (Sandbox Code Playgroud)

hadoop hive mapreduce

55
推荐指数
2
解决办法
17万
查看次数

Hive插入查询,如SQL

我是hive的新手,想要知道是否有像我们在SQL中那样将数据插入到hive表中.我想将我的数据插入到hive中

INSERT INTO tablename VALUES (value1,value2..)
Run Code Online (Sandbox Code Playgroud)

我已经读过你可以将数据从一个文件加载到hive表,或者你可以将数据从一个表导入到hive表中,但有没有办法在SQL中附加数据?

sql hadoop hive hiveql

55
推荐指数
7
解决办法
21万
查看次数

标签 统计

hadoop ×10

hive ×5

hdfs ×2

bigtable ×1

hbase ×1

hiveql ×1

java ×1

join ×1

macos ×1

mapreduce ×1

nosql ×1

orm ×1

osx-lion ×1

sql ×1

sql-delete ×1