标签: hbase

使用像HDFS这样的(分布式)文件系统,并将专用的Web服务器准备为"文件系统客户端",以便保存上传的图像和服务请求.图像元数据保存在附加数据库中,包括每个图像的文件路径信息.
在HDFS之上使用像HBase这样的面向BigTable的系统,并将图像和元数据保存在一起.同样,Web服务器桥接图像上传和请求.
使用像CouchDB这样的完全无模式数据库来存储图像和元数据.此外,使用基于HTTP的RESTful API将数据库本身用于上载和发送.(附加问题:CouchDB确实通过Base64保存blob.但它能否以image/jpeg等形式返回数据)？

storage hadoop hbase couchdb hdfs

b_e*_*erb

2015 08-16

53
推荐指数

3
解决办法

3万
查看次数

Hbase快速计算行数

现在我ResultScanner像这样实现行计数

for (Result rs = scanner.next(); rs != null; rs = scanner.next()) {
    number++;
}

Run Code Online (Sandbox Code Playgroud)

如果数据达到数百万计算时间很大.我想实时计算我不想使用Mapreduce

如何快速计算行数.

hadoop hbase bigdata

cld*_*ldo

2015 10-06

49
推荐指数

6
解决办法

10万
查看次数

像HBase中的SQL LIMIT一样的命令

HBase有没有像SQL LIMIT查询一样的命令？

我可以通过setStart和setEnd,但我不想迭代所有行.

hbase nosql

Moh*_*mad

2014 09-18

47
推荐指数

3
解决办法

5万
查看次数

Hive在引用字段中使用逗号加载CSV

我正在尝试将CSV文件加载到Hive表中,如下所示:

CREATE TABLE mytable
(
num1 INT,
text1 STRING,
num2 INT,
text2 STRING
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ",";

LOAD DATA LOCAL INPATH '/data.csv'
OVERWRITE INTO TABLE mytable;

Run Code Online (Sandbox Code Playgroud)

csv由逗号(,)分隔,如下所示:

1, "some text, with comma in it", 123, "more text"

Run Code Online (Sandbox Code Playgroud)

这将返回损坏的数据,因为第一个字符串中有一个','.
有没有办法设置文本分隔符或让Hive忽略字符串中的','？

我无法更改csv的分隔符,因为它是从外部源中提取的.

hadoop hbase hive delimiter hdfs

Mar*_*ink

2016 02-11

46
推荐指数

3
解决办法

10万
查看次数

如何使用spark从hbase读取

下面的代码将从hbase读取,然后将其转换为json结构并转换为schemaRDD,但问题是我using List要存储json字符串然后传递给javaRDD,对于大约100 GB的数据,master将被加载内存中的数据.从hbase加载数据然后执行操作然后转换为JavaRDD的正确方法是什么.

package hbase_reader;


import java.io.IOException;
import java.io.Serializable;
import java.util.ArrayList;
import java.util.List;

import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.rdd.RDD;
import org.apache.spark.sql.api.java.JavaSQLContext;
import org.apache.spark.sql.api.java.JavaSchemaRDD;
import org.apache.commons.cli.ParseException;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.KeyValue;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.ResultScanner;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableInputFormat;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.Text;
import org.apache.spark.SparkConf;

import scala.Function1;
import scala.Tuple2;
import scala.runtime.AbstractFunction1;

import com.google.common.collect.Lists;

public class hbase_reader {

    public static void main(String[] args) throws IOException, ParseException {

        List<String> jars = Lists.newArrayList("");

        SparkConf spconf = new …

Run Code Online (Sandbox Code Playgroud)

hbase apache-spark rdd

mad*_*ram

2014 09-12

44
推荐指数

4
解决办法

7万
查看次数