我的 JSON 文件是一个时间戳字段,它采用 UNIX 上传时间戳格式,如1501580484655. 这将转换为格林威治标准时间:01-08-2017 9:41:24.655AM
我尝试将此时间戳转换为人类可读的时间格式,直到毫秒不起作用。
到目前为止,我已经尝试过以下方法:
1- select TO_DATE(1501580484655) from (VALUES(1));
O/P 2017-08-01到目前为止还可以,但我想要到毫秒。
2- select TO_DATE(1501580484655,'yyyy-MM-dd HH:mm:ss.SSS') from (VALUES(1));
O/P 是: Error: SYSTEM ERROR: IllegalArgumentException: Invalid format: "1501580484655" is malformed at "4655"
3- select TO_DATE(1501580484,'yyyy-MM-dd HH:mm:ss.SSS') from (VALUES(1));
O/P 是: Error: SYSTEM ERROR: IllegalArgumentException: Invalid format: "1501580484" is malformed at "4"
4- select TO_DATE(150158048,'yyyy-MM-dd HH:mm:ss.SSS') from (VALUES(1));
O/P 是: Error: SYSTEM ERROR: IllegalArgumentException: Invalid format: "150158048" is too short
5- SELECT TO_TIMESTAMP(1501580484655) …
我正在学习 Hadoop 并知道该框架有两个版本,即:Hadoop1 和 Hadoop2。
如果我的理解是正确的,在 Hadoop1 中,执行环境基于两个守护进程即TaskTracker,JobTracker而在 Hadoop2(又名 yarn)中,执行环境基于“新守护进程”即ResourceManager, NodeManager, ApplicationMaster.
如果这不正确,请纠正我。
mapreduce.framework.name
可以采用的可能值:local,classic,yarn
我不明白它们到底是什么意思;例如,如果我安装 Hadoop 2 ,那么它怎么会有旧的执行环境(有TaskTracker, JobTracker)。
谁能帮助我这些值是什么意思?
我对 Azure 数据湖存储与 HDFS 的不同之处感到困惑。有人可以用简单的术语解释一下吗?
当我尝试使用以下命令启动dfs时:
start-dfs.sh
Run Code Online (Sandbox Code Playgroud)
我收到一个错误说:
14/07/03 11:03:21 WARN util.NativeCodeLoader: Unable to load
native-hadoop library for your platform... using builtin-java classes
where applicable Starting namenodes on [OpenJDK 64-Bit Server VM
warning: You have loaded library
/usr/local/hadoop/lib/native/libhadoop.so.1.0.0 which might have
disabled stack guard. The VM will try to fix the stack guard now. It's
highly recommended that you fix the library with 'execstack -c
<libfile>', or link it with '-z noexecstack'. localhost] sed: -e
expression #1, char 6: unknown option to `s' Server: ssh: …Run Code Online (Sandbox Code Playgroud) 我正在阅读Hadoop教程,我对hadoop中的Block pool有疑问.
块池 - 基本上每个块池彼此独立管理,每个块池都是属于单个命名空间的一组块.
该块池是虚拟概念还是类似于内存中维护的块上的metadat?
我在我的Ubuntu 14.04 LTS机器上安装了Hadoop 2.6.0.我能够成功连接到http://localhost:50070/.
我正在尝试连接到http://locahost:50030/我有以下内容mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
Run Code Online (Sandbox Code Playgroud)
然而,我继续得到一个无法连接的错误.我运行了jps命令并得到以下输出:
12272 Jps
10059 SecondaryNameNode
6675 org.eclipse.equinox.launcher_1.3.100.v20150511-1540.jar
10233 ResourceManager
9867 DataNode
9745 NameNode
10362 NodeManager
Run Code Online (Sandbox Code Playgroud)
所以我的名字和数据节点都在运行.
如果我需要发布更多信息,请告诉我.
谢谢
我在现有的CDH 5.5.2集群上安装Kafka-2.0,这是我遵循的程序
我得到的错误(日志文件)
Fatal error during KafkaServerStartable startup. Prepare to shutdown
java.lang.OutOfMemoryError: Java heap space
at java.nio.HeapByteBuffer.<init>(HeapByteBuffer.java:57)
at java.nio.ByteBuffer.allocate(ByteBuffer.java:331)
at kafka.log.SkimpyOffsetMap.<init>(OffsetMap.scala:43)
at kafka.log.LogCleaner$CleanerThread.<init>(LogCleaner.scala:186)
at kafka.log.LogCleaner$$anonfun$1.apply(LogCleaner.scala:83)
at kafka.log.LogCleaner$$anonfun$1.apply(LogCleaner.scala:83)
at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:245)
at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:245)
at scala.collection.immutable.Range.foreach(Range.scala:166)
at scala.collection.TraversableLike$class.map(TraversableLike.scala:245)
at scala.collection.AbstractTraversable.map(Traversable.scala:104)
at kafka.log.LogCleaner.<init>(LogCleaner.scala:83)
at kafka.log.LogManager.<init>(LogManager.scala:64)
at kafka.server.KafkaServer.createLogManager(KafkaServer.scala:601)
at kafka.server.KafkaServer.startup(KafkaServer.scala:180)
at kafka.server.KafkaServerStartable.startup(KafkaServerStartable.scala:37)
at kafka.Kafka$.main(Kafka.scala:67)
at com.cloudera.kafka.wrap.Kafka$.main(Kafka.scala:76)
at com.cloudera.kafka.wrap.Kafka.main(Kafka.scala)
Run Code Online (Sandbox Code Playgroud)我有Hive 1.1,我在将HEX值转换为Decimal或BIGINT时遇到问题.
使用UNHEX('2BD1BCAE0501250E')应返回= 3157512269357720846
但相反,我得到像WingDings = +Ѽ %的东西
我尝试过DECODE,ENCODE,BASE64 ......但似乎没有任何工作.有没有其他人试过这样做?谢谢
我想比较两个文件,如果不匹配的额外记录加载到具有不匹配记录的另一个文件.比较文件和记录计数中的每个字段.
我们试图在hadoop-2.7.3中找到yarn-default.xml位置,有人可以指向它所在的位置......我能够找到yarn-site.xml但不能找到yarn-default.如果有人能指出它可能位于何处,xml会非常感激.
我需要查询下表并查看我的 Apache HIVE 集群中的信息:
每行需要包含以下内容:
表模式
表名
表说明
列名称
列数据类型
柱长
立柱精度
柱标尺
空或非空
主要关键指标
这可以很容易地从大多数 RDBMS(元数据表/视图)中查询,但我很难找到有关 HIVE 中等效元数据表/视图的大量信息。
请帮忙 :)
我使用的是使用 hadoop-2.6.5.jar 版本的 spark-sql-2.4.1v。我需要先将数据保存在 hdfs 上,然后再转移到 cassandra。因此,我试图将数据保存在 hdfs 上,如下所示:
String hdfsPath = "/user/order_items/";
cleanedDs.createTempViewOrTable("source_tab");
givenItemList.parallelStream().forEach( item -> {
String query = "select $item as itemCol , avg($item) as mean groupBy year";
Dataset<Row> resultDs = sparkSession.sql(query);
saveDsToHdfs(hdfsPath, resultDs );
});
public static void saveDsToHdfs(String parquet_file, Dataset<Row> df) {
df.write()
.format("parquet")
.mode("append")
.save(parquet_file);
logger.info(" Saved parquet file : " + parquet_file + "successfully");
}
Run Code Online (Sandbox Code Playgroud)
当我在集群上运行我的工作时,它无法抛出此错误:
java.io.IOException: Failed to rename FileStatus{path=hdfs:/user/order_items/_temporary/0/_temporary/attempt_20180626192453_0003_m_000007_59/part-00007.parquet; isDirectory=false; length=952309; replication=1; blocksize=67108864; modification_time=1530041098000; access_time=0; owner=; group=; permission=rw-rw-rw-; isSymlink=false} to hdfs:/user/order_items/part-00007.parquet …Run Code Online (Sandbox Code Playgroud) hadoop2 ×12
hadoop ×10
hadoop-yarn ×3
hdfs ×3
apache-spark ×2
hive ×2
hiveql ×2
apache-drill ×1
apache-kafka ×1
bigdata ×1
cloudera-cdh ×1
java ×1
mapreduce ×1
mrv2 ×1
rhel ×1
scala ×1
ubuntu ×1