我是码头工人的新手.我有一个shell脚本将数据加载到impala中,我想要一个运行的docker文件构建一个映像并运行容器.我在mac上,安装了boot2docker并DOCKER_HOST
设置了env.
bash-3.2$ docker info
Containers: 0
Images: 0
Storage Driver: aufs
Root Dir: /mnt/sda1/var/lib/docker/aufs
Dirs: 0
Execution Driver: native-0.2
Kernel Version: 3.15.3-tinycore64
Debug mode (server): true
Debug mode (client): false
Fds: 10
Goroutines: 10
EventsListeners: 0
Init Path: /usr/local/bin/docker
Sockets: [unix:///var/run/docker.sock tcp://0.0.0.0:2375]
Run Code Online (Sandbox Code Playgroud)
我试图使用以下方法安装预先构建的图像:
sudo docker pull busybox
Run Code Online (Sandbox Code Playgroud)
我收到此错误:
sudo docker pull busybox
2014/08/18 17:56:19 Post http:///var/run/docker.sock/images/create?fromImage=busybox&tag=: dial unix /var/run/docker.sock: no such file or directory
我的码头设置有问题吗?
当我这样做时docker pull busybox
,它会拉动图像并完成下载.
bash-3.2$ docker pull busybox
Pulling repository busybox
a9eb17255234: …
Run Code Online (Sandbox Code Playgroud) 我正在使用MySQL工作台 - 运行查询时持续时间和获取时间之间有什么区别?
还有一种方法可以在MySQL中启用微秒选项吗?
我有一个拉链文件(new.txt
)的Python脚本.
tofile = "/root/files/result/"+file
targetzipfile = new.zip # This is how I want my zip to look like
zf = zipfile.ZipFile(targetzipfile, mode='w')
try:
#adding to archive
zf.write(tofile)
finally:
zf.close()
Run Code Online (Sandbox Code Playgroud)
当我这样做时,我得到了zip文件.但是当我尝试解压缩文件时,我得到的文件文件位于与文件路径对应的一系列目录中,即我看到目录root
中有一个文件夹result
,里面有更多目录,即我有
/root/files/result/new.zip
当我解压缩时,new.zip
我有一个看起来像的目录结构
/root/files/result/root/files/result/new.txt.
Run Code Online (Sandbox Code Playgroud)
有没有一种方法可以拉链,这样当我解压缩时我才会得到new.txt
.
换句话说,我有/root/files/result/new.zip
,当我解压缩时new.zip
,它应该看起来像
/root/files/results/new.txt
Run Code Online (Sandbox Code Playgroud) 我创建了自己的docker文件(运行一个打印"helloworld"的shell脚本).图像是"hellodocker",标签是"mytag"我现在有:
bash-3.2$ docker images
REPOSITORY TAG IMAGE ID CREATED VIRTUAL SIZE
hellodocker mytag 3514c8dc11a8 39 minutes ago 2.433 MB
busybox buildroot-2013.08.1 d200959a3e91 10 weeks ago 2.489 MB
busybox ubuntu-14.04 37fca75d01ff 10 weeks ago 5.609 MB
busybox ubuntu-12.04 fd5373b3d938 10 weeks ago 5.455 MB
busybox buildroot-2014.02 a9eb17255234 10 weeks ago 2.433 MB
busybox latest a9eb17255234 10 weeks ago 2.433 MB
docker ps -a
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
97c29510069e hellodocker:mytag /bin/sh -c /Users/in 33 minutes ago Exited (127) …
Run Code Online (Sandbox Code Playgroud) 我正在尝试创建案例类对象的RDD.例如.,
// sqlContext from the previous example is used in this example.
// createSchemaRDD is used to implicitly convert an RDD to a SchemaRDD.
import sqlContext.createSchemaRDD
val people: RDD[Person] = ... // An RDD of case class objects, from the previous example.
// The RDD is implicitly converted to a SchemaRDD by createSchemaRDD, allowing it to be stored using Parquet.
people.saveAsParquetFile("people.parquet")
Run Code Online (Sandbox Code Playgroud)
我试图通过给出来完成上一个例子中的部分
case class Person(name: String, age: Int)
// Create an RDD of Person objects and register it as a …
Run Code Online (Sandbox Code Playgroud) 我正在尝试构建一个Hive Context,它继承自SQLContext.
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
Run Code Online (Sandbox Code Playgroud)
我收到以下错误:
error: object hive is not a member of package org.apache.spark.sql
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
Run Code Online (Sandbox Code Playgroud)
我可以从自动完成中清楚地看到蜂巢不存在.关于如何解决这个问题的任何想法?这是来自sparkSQL文档的示例.
谢谢
我需要编写一个python脚本,我需要在其中调用一些awk命令.
#!/usr/bin/python
import os, sys
input_dir = '/home/abc/data'
os.chdir(input_dir)
#wd=os.getcwd()
#print wd
os.system ("tail -n+2 ./*/*.tsv|cat|awk 'BEGIN{FS="\t"};{split($10,arr,"-")}{print arr[1]}'|sort|uniq -c")
Run Code Online (Sandbox Code Playgroud)
它在第8行给出错误:SyntaxError:行继续符后的意外字符
有没有办法让awk命令在python脚本中运行?谢谢
我有一个用例,我需要在PARTITION上使用ROW_NUMBER():类似于:
SELECT
Column1 , Column 2
ROW_NUMBER() OVER (
PARTITION BY ACCOUNT_NUM
ORDER BY FREQ, MAN, MODEL) as LEVEL
FROM
TEST_TABLE
Run Code Online (Sandbox Code Playgroud)
我需要在Impala中解决这个问题.不幸的是,Impala不支持子查询,也不支持ROW_NUMBER()OVER功能.谢谢您的帮助.
我在Python中计算每个键的不同值时遇到问题.
我有一本字典
[{"abc":"movies"}, {"abc": "sports"}, {"abc": "music"}, {"xyz": "music"}, {"pqr":"music"}, {"pqr":"movies"},{"pqr":"sports"}, {"pqr":"news"}, {"pqr":"sports"}]
Run Code Online (Sandbox Code Playgroud)
我需要分别为每个键打印不同值的数量.
这意味着我想要打印
abc 3
xyz 1
pqr 4
Run Code Online (Sandbox Code Playgroud)
请帮忙.
谢谢
我有一个有分区的表,我使用avro文件或文本文件来创建和插入表.
桌子完成后,有没有办法转换成实木复合地板.我的意思是我知道我们CREATE TABLE default.test( name_id STRING)
PARTITIONED BY ( year INT, month INT, day INT ) STORED AS PARQUET
最初可以在创建表本身时说完.
在我的用例中,我最初必须使用文本文件.这是因为我想避免每次插入或更新时在分区文件夹中创建多个文件.我的表具有非常多的插入和更新,这会导致性能下降.在创建表格并插入数据后,有没有办法可以转换成镶木地板?
python ×3
apache-spark ×2
boot2docker ×2
docker ×2
impala ×2
avro ×1
awk ×1
dictionary ×1
mysql ×1
parquet ×1
scala ×1
sql ×1
text-files ×1
zip ×1