小编Eli*_*Eli的帖子

如何让猪与lzo文件一起使用?

所以,我在网上看过几个这方面的教程,但每个人似乎都说要做一些与众不同的事情.此外,它们中的每一个似乎都没有指定您是在尝试让事情在远程集群上工作,还是在本地与远程集群交互等等......

也就是说,我的目标只是让我的本地计算机(一台Mac)使用lzo压缩文件进行处理,这些文件存在于已经设置为使用lzo文件的Hadoop集群上.我已经在本地安装了Hadoop,可以从群集中获取文件 hadoop fs -[command].

当我运行脚本或者只是通过grunt运行时,我也已经在本地安装了pig并与hadoop集群通信.我可以加载和玩非lzo文件就好了.我的问题只是找出一种加载lzo文件的方法.也许我可以通过集群的ElephantBird实例来处理它们?我不知道,只在网上找到最少的信息.

所以,任何类型的简短教程或答案都会很棒,希望能帮助更多的人而不仅仅是我.

hadoop apache-pig lzo

6
推荐指数
1
解决办法
5021
查看次数

BigQuery减去两个表的计数?

在MySQL中,我可以做到SELECT (SELECT COUNT(*) FROM table1) - (SELECT COUNT(*) FROM table2)两个表之间的计数差异.当我在BigQuery中尝试这个时,我得到:Subselect not allowed in SELECT clause.如何在BigQuery中运行这样的查询?

google-bigquery

6
推荐指数
1
解决办法
1536
查看次数

Nginx早期切断静态文件下载

我有一个Flask应用程序,通过x-accel-redirect将应该提供静态文件的请求重定向到NGINX.有时,这些下载将在完成之前被切断.例如,通过cURL,我会看到:

curl http://my_server/some_static_file.tar > temp.tar
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
 77 14.4G   77 11.2G    0     0  55.8M      0  0:04:24  0:03:25  0:00:59 58.9M
curl: (18) transfer closed with 3449105332 bytes remaining to read
Run Code Online (Sandbox Code Playgroud)

这似乎更常见于非常大的文件(10gb +),但我已经看到它也发生在~90mb的较小文件上.Nginx访问日志显示来自和提供不同,不完整数据量的请求:

1.2.3.4 - - [18/Apr/2017:01:16:26 +0000] "GET /some/flask/static/file/path HTTP/1.1" 200 15146008576 "-" "curl/7.38.0" "5.6.7.8"
1.2.3.5 - - [18/Apr/2017:01:16:29 +0000] "GET /some/flask/static/file/path HTTP/1.1" 200 15441739776 "-" "curl/7.38.0" "6.7.8.9"
Run Code Online (Sandbox Code Playgroud)

errors.log 没什么用的.

我的相关烧瓶配置如下:

response = make_response('')
response.headers.set('X-Accel-Redirect', …
Run Code Online (Sandbox Code Playgroud)

python nginx flask uwsgi x-accel-redirect

6
推荐指数
1
解决办法
441
查看次数

在 Git Pull 上 Pip install -r requirements.txt?

我现在通过 pip 对 Python 进行了包管理,但是我一直让我的团队中的人在重新运行我们的代码库时忘记重做 pip install -r requirements.txt,然后对为什么东西不起作用感到困惑。就是说,有什么方法可以将该命令与他们无论如何都必须做的其他事情联系起来,例如git pull为他们完成并且他们不需要考虑它?

python git pip

5
推荐指数
1
解决办法
1683
查看次数

在 Redis 上将 Nil 参数传递给 Lua 脚本?

我有一个 lua redis 脚本,我想在 ARGV 中向其传递一些 nil 参数。我认为以下内容会起作用:

redis-cli EVAL "$(cat some_script.lua)" 3 key1 key2 key 3 nil nil 4
Run Code Online (Sandbox Code Playgroud)

在这种情况下,我期望 ARGV[1] = ARGV[2] = nil。相反,它们似乎被设置为'nil'lua 内部的(字符串),所以当我执行以下操作时:

if ARGV[1] then return ARGV[1] end
Run Code Online (Sandbox Code Playgroud)

我会'nil'回到我身边。

我如何正确地将 nils 传递给 Lua?

lua redis

5
推荐指数
1
解决办法
2427
查看次数

访问Dockerfile中构建所需的秘密/私有文件?

我正在尝试在Docker中构建一个图像,它需要一些秘密文件来执行诸如从私有git repo中提取的内容.我见过很多人用这样的代码:

ADD id_rsa /root/.ssh/id_rsa
RUN chmod 700 /root/.ssh/id_rsa
RUN touch /root/.ssh/known_hosts
RUN ssh-keyscan github.com >> /root/.ssh/known_hosts
RUN git clone git@github.com:some/repo.git /usr/local/some_folder
Run Code Online (Sandbox Code Playgroud)

虽然这有效,但这意味着我必须将我的私人id_rsa与我的图像存储在一起,这对我来说是一个坏主意.我宁愿做的是将我的秘密文件保存在像s3这样的云存储中,只需将凭据作为环境变量传递,以便能够将其他所有内容都删除.

我知道我可以docker run-e交换机中传递环境变量,但是如果我在构建时需要一些文件(比如id_rsa来执行git克隆),我该怎么办?理想情况下,我能够传递环境变量docker build,但这是不可能的(我无法理解为什么).

那么,想法?在这里做什么是规范/正确的事情?我不能成为这个问题的第一人.

security build docker

5
推荐指数
1
解决办法
952
查看次数

在 Python 中检测字母字符属于哪些字母

有没有库或其他简单的方法来检测Python中哪些字母字符属于?我知道我可以为此使用 unicode 代码范围,但如果已经有内置方法或库或某些提供映射的类库,我宁愿不重新发明轮子。

\n\n

注意:我问的是字母表而不是语言。“hello”和“hola”都将映射到拉丁字母,而“\xd0\x9f\xd0\xbe\xd0\xb8\xd1\x81\xd0\xba”将映射到西里尔字母。

\n

python nlp

5
推荐指数
1
解决办法
1505
查看次数

在RQ中列出实例方法或对象?

所以,RQ明确指出我可以在这里排队一个对象的实例方法,所以我一直试图这样做,但得到一个PicklingError:

q.enqueue(some_obj.some_func, some_data)
*** PicklingError: Can't pickle <type 'function'>: attribute lookup __builtin__.function failed
Run Code Online (Sandbox Code Playgroud)

真的,我只需要在我的方法中访问SQL连接,所以我试着让它成为一个明确接受SQL连接的函数.那也失败了:

q.enqueue(some_func, sql_sess, some_data)
*** PicklingError: Can't pickle <class 'sqlalchemy.orm.session.Session'>: it's not the same object as sqlalchemy.orm.session.Session
Run Code Online (Sandbox Code Playgroud)

我该如何解决这个问题?我做错了什么,或者图书馆坏了吗?

python python-rq

5
推荐指数
1
解决办法
929
查看次数

我可以点安装cython模块并将其pxds用于cimport吗?

我正在尝试pip install使用Cython库(例如https://github.com/kmike/marisa-trie/tree/master/src),然后通过从pxds中导入cthon来对其进行子类化。有什么办法可以使库中的相关pxds对我可用,以便我可以从中导入?我检查了一堆地用Cython文档,例如相关的信息这样,但是这一切与在PXD文件相对文件夹可用的情况下交易,而不是PIP安装的地方。

python pip cython

5
推荐指数
1
解决办法
365
查看次数

在 csv.reader 中获取原始行?

我正在制作一个包装器csv.reader,即使读者遇到格式错误的行(即具有 NULL 字节的行),它也可以让读者继续工作。看起来像:

def error_ignoring_csv_reader(csv_reader):
    while True:
        try:
            yield next(csv_reader)
        except csv.Error, e:
            logger.warning("Got badly formed line with error [%s]" % e)
Run Code Online (Sandbox Code Playgroud)

我真正想做的是将原始有问题的行作为记录的警告“格式错误[actual_raw_line]”的一部分包含在内,但是阅读 csv 的源代码,我还没有找到任何访问它的方法。是否可以访问 csv.reader 中原始的、未处理的当前行?

python csv

5
推荐指数
1
解决办法
1675
查看次数