标签: hadoop2

在 Apache Drill 中使用 TO_DATE 将 UNIXTIMESTAMP 转换为人类可读的时间格式

我的 JSON 文件是一个时间戳字段,它采用 UNIX 上传时间戳格式,如1501580484655. 这将转换为格林威治标准时间:01-08-2017 9:41:24.655AM

我尝试将此时间戳转换为人类可读的时间格式,直到毫秒不起作用。

到目前为止,我已经尝试过以下方法:

1- select TO_DATE(1501580484655) from (VALUES(1));

O/P 2017-08-01到目前为止还可以,但我想要到毫秒。

2- select TO_DATE(1501580484655,'yyyy-MM-dd HH:mm:ss.SSS') from (VALUES(1));

O/P 是: Error: SYSTEM ERROR: IllegalArgumentException: Invalid format: "1501580484655" is malformed at "4655"

3- select TO_DATE(1501580484,'yyyy-MM-dd HH:mm:ss.SSS') from (VALUES(1));

O/P 是: Error: SYSTEM ERROR: IllegalArgumentException: Invalid format: "1501580484" is malformed at "4"

4- select TO_DATE(150158048,'yyyy-MM-dd HH:mm:ss.SSS') from (VALUES(1));

O/P 是: Error: SYSTEM ERROR: IllegalArgumentException: Invalid format: "150158048" is too short

5- SELECT TO_TIMESTAMP(1501580484655) …

hdfs hadoop2 apache-drill

1
推荐指数
1
解决办法
1875
查看次数

理解 mapreduce.framework.name wrt Hadoop

我正在学习 Hadoop 并知道该框架有两个版本,即:Hadoop1 和 Hadoop2。

如果我的理解是正确的,在 Hadoop1 中,执行环境基于两个守护进程即TaskTrackerJobTracker而在 Hadoop2(又名 yarn)中,执行环境基于“新守护进程”即ResourceManager, NodeManager, ApplicationMaster.

如果这不正确,请纠正我。

我开始知道以下配置参数:

mapreduce.framework.name
可以采用的可能值:local, classic,yarn

我不明白它们到底是什么意思;例如,如果我安装 Hadoop 2 ,那么它怎么会有旧的执行环境(有TaskTracker, JobTracker)。

谁能帮助我这些值是什么意思?

hadoop mapreduce mrv2 hadoop-yarn hadoop2

1
推荐指数
1
解决办法
786
查看次数

HDFS 和 ADLS 有什么区别?

我对 Azure 数据湖存储与 HDFS 的不同之处感到困惑。有人可以用简单的术语解释一下吗?

hadoop hadoop2 azure-data-lake

1
推荐指数
1
解决办法
6506
查看次数

在hadoop 2.4.1中启动namenode时出错

当我尝试使用以下命令启动dfs时:

start-dfs.sh
Run Code Online (Sandbox Code Playgroud)

我收到一个错误说:

14/07/03 11:03:21 WARN util.NativeCodeLoader: Unable to load
native-hadoop library for your platform... using builtin-java classes
where applicable Starting namenodes on [OpenJDK 64-Bit Server VM
warning: You have loaded library
/usr/local/hadoop/lib/native/libhadoop.so.1.0.0 which might have
disabled stack guard. The VM will try to fix the stack guard now. It's
highly recommended that you fix the library with 'execstack -c
<libfile>', or link it with '-z noexecstack'. localhost] sed: -e
expression #1, char 6: unknown option to `s' Server: ssh: …
Run Code Online (Sandbox Code Playgroud)

hadoop jvm-arguments hadoop2

0
推荐指数
1
解决办法
7792
查看次数

在hadoop中阻塞池

我正在阅读Hadoop教程,我对hadoop中的Block pool有疑问.

块池 - 基本上每个块池彼此独立管理,每个块池都是属于单个命名空间的一组块.

该块池是虚拟概念还是类似于内存中维护的块上的metadat?

java hadoop hdfs hadoop-yarn hadoop2

0
推荐指数
1
解决办法
1516
查看次数

无法连接到http:// localhost:50030/ - Hadoop 2.6.0 Ubuntu 14.04 LTS

我在我的Ubuntu 14.04 LTS机器上安装了Hadoop 2.6.0.我能够成功连接到http://localhost:50070/.

我正在尝试连接到http://locahost:50030/我有以下内容mapred-site.xml

<configuration>
    <property>
        <name>mapred.job.tracker</name>
        <value>localhost:9001</value>
    </property>
</configuration>
Run Code Online (Sandbox Code Playgroud)

然而,我继续得到一个无法连接的错误.我运行了jps命令并得到以下输出:

12272 Jps
10059 SecondaryNameNode
6675 org.eclipse.equinox.launcher_1.3.100.v20150511-1540.jar
10233 ResourceManager
9867 DataNode
9745 NameNode
10362 NodeManager
Run Code Online (Sandbox Code Playgroud)

所以我的名字和数据节点都在运行.

如果我需要发布更多信息,请告诉我.

谢谢

ubuntu hadoop hadoop2

0
推荐指数
1
解决办法
4301
查看次数

现有CDH 5.5.2集群上的Kafka配置

我在现有的CDH 5.5.2集群上安装Kafka-2.0,这是我遵循的程序

  1. 从CM添加服务
  2. 选定的Kafka(在此之前,我在所有节点上下载并分发并激活了kafka parcel)
  3. 为KafkaBroker选择1个节点,为Kafka MirrorMaker选择4个节点
  4. 然后我用一个Mirror Maker节点以及具有相同节点的Source Broker List(source.bootstrap.servers)更新了我的目标代理列表(bootstrap.servers)属性
  5. 我得到的错误(日志文件)

    Fatal error during KafkaServerStartable startup. Prepare to shutdown 
    java.lang.OutOfMemoryError: Java heap space
        at java.nio.HeapByteBuffer.<init>(HeapByteBuffer.java:57)
        at java.nio.ByteBuffer.allocate(ByteBuffer.java:331)
        at kafka.log.SkimpyOffsetMap.<init>(OffsetMap.scala:43)
        at kafka.log.LogCleaner$CleanerThread.<init>(LogCleaner.scala:186)
        at kafka.log.LogCleaner$$anonfun$1.apply(LogCleaner.scala:83)
        at kafka.log.LogCleaner$$anonfun$1.apply(LogCleaner.scala:83)
        at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:245)
        at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:245)
        at scala.collection.immutable.Range.foreach(Range.scala:166)
        at scala.collection.TraversableLike$class.map(TraversableLike.scala:245)
        at scala.collection.AbstractTraversable.map(Traversable.scala:104)
        at kafka.log.LogCleaner.<init>(LogCleaner.scala:83)
        at kafka.log.LogManager.<init>(LogManager.scala:64)
        at kafka.server.KafkaServer.createLogManager(KafkaServer.scala:601)
        at kafka.server.KafkaServer.startup(KafkaServer.scala:180)
        at kafka.server.KafkaServerStartable.startup(KafkaServerStartable.scala:37)
        at kafka.Kafka$.main(Kafka.scala:67)
        at com.cloudera.kafka.wrap.Kafka$.main(Kafka.scala:76)
        at com.cloudera.kafka.wrap.Kafka.main(Kafka.scala)
    
    Run Code Online (Sandbox Code Playgroud)

hadoop rhel apache-kafka hadoop2 cloudera-cdh

0
推荐指数
1
解决办法
2108
查看次数

如何在HIVE HQL中将HEX值转换为Decimal

我有Hive 1.1,我在将HEX值转换为Decimal或BIGINT时遇到问题.

使用UNHEX('2BD1BCAE0501250E')应返回= 3157512269357720846

但相反,我得到像WingDings = +Ѽ %的东西

我尝试过DECODE,ENCODE,BASE64 ......但似乎没有任何工作.有没有其他人试过这样做?谢谢

hadoop hive hiveql hadoop2

0
推荐指数
1
解决办法
6684
查看次数

如何使用spark比较两个文件?

我想比较两个文件,如果不匹配的额外记录加载到具有不匹配记录的另一个文件.比较文件和记录计数中的每个字段.

scala bigdata hadoop-streaming apache-spark hadoop2

0
推荐指数
1
解决办法
5963
查看次数

纱线:hadoop-2.7.3中的yarn-default.xml位置

我们试图在hadoop-2.7.3中找到yarn-default.xml位置,有人可以指向它所在的位置......我能够找到yarn-site.xml但不能找到yarn-default.如果有人能指出它可能位于何处,xml会非常感激.

hadoop hadoop-yarn hadoop2

0
推荐指数
1
解决办法
2102
查看次数

查询HIVE元数据

我需要查询下表并查看我的 Apache HIVE 集群中的信息:

每行需要包含以下内容:

表模式

表名

表说明

列名称

列数据类型

柱长

立柱精度

柱标尺

空或非空

主要关键指标

这可以很容易地从大多数 RDBMS(元数据表/视图)中查询,但我很难找到有关 HIVE 中等效元数据表/视图的大量信息。

请帮忙 :)

hadoop hive hiveql hortonworks-data-platform hadoop2

0
推荐指数
1
解决办法
1万
查看次数

写入 hdfs 路径时出现错误 java.io.IOException: Failed to rename

我使用的是使用 hadoop-2.6.5.jar 版本的 spark-sql-2.4.1v。我需要先将数据保存在 hdfs 上,然后再转移到 cassandra。因此,我试图将数据保存在 hdfs 上,如下所示:

String hdfsPath = "/user/order_items/";
cleanedDs.createTempViewOrTable("source_tab");

givenItemList.parallelStream().forEach( item -> {   
    String query = "select $item  as itemCol , avg($item) as mean groupBy year";
    Dataset<Row> resultDs = sparkSession.sql(query);

    saveDsToHdfs(hdfsPath, resultDs );   
});


public static void saveDsToHdfs(String parquet_file, Dataset<Row> df) {
    df.write()                                 
      .format("parquet")
      .mode("append")
      .save(parquet_file);
    logger.info(" Saved parquet file :   " + parquet_file + "successfully");
}
Run Code Online (Sandbox Code Playgroud)

当我在集群上运行我的工作时,它无法抛出此错误:

java.io.IOException: Failed to rename FileStatus{path=hdfs:/user/order_items/_temporary/0/_temporary/attempt_20180626192453_0003_m_000007_59/part-00007.parquet; isDirectory=false; length=952309; replication=1; blocksize=67108864; modification_time=1530041098000; access_time=0; owner=; group=; permission=rw-rw-rw-; isSymlink=false} to hdfs:/user/order_items/part-00007.parquet …
Run Code Online (Sandbox Code Playgroud)

hadoop hdfs apache-spark hadoop2 apache-spark-sql

0
推荐指数
1
解决办法
1744
查看次数