在HDFS上检查文件的快速方法是使用tail:
~$ hadoop fs -tail /path/to/file
Run Code Online (Sandbox Code Playgroud)
这将显示文件中的最后一千字节数据,这非常有用.但是,相反的命令head似乎不是shell命令集合的一部分.我发现这非常令人惊讶.
我的假设是,由于HDFS是为非常大的文件上的非常快速的流读取而构建的,因此存在一些影响访问的问题head.这让我对做头脑的事情犹豫不决.有人有答案吗?
最近,开始研究对话聊天机器人的想法,并一直在思考将自然语言查询转换为 SQL 的不同方法。这些是我在从头开始编写之前要评估的一些库。任何其他想法或建议?
AWS EMR 是否有自己的 EMR Hadoop/Spark/Others 的 maven 存储库,类似于
问题:
如果有,它的网址是什么?
如果情况并非如此,社区建议如何构建要在 EMR 实例上执行的 Spark jar?
提前致谢。