小编Ash*_*lor的帖子

TCP与 Http基准

我正在使用IIS上的Web应用程序,并与[remote] Service-Machine交谈.我不确定是选择TCP还是Http作为主协议.

更多细节:

  1. 我将有多个服务\端点
  2. 其中一些将是单向的
  3. 另一种是双向的
  4. 网页将在服务面前工作
  5. 我们正在谈论高规模的网站

我非常了解差异,但我正在寻找一个好的基准测试,它显示了TCP的速度有多快?

tcp http

49
推荐指数
3
解决办法
5万
查看次数

PySpark SQL中的日期时间范围过滤器

按时间戳字段过滤数据帧的正确方法是什么?

我尝试了不同的日期格式和过滤形式,没有任何帮助:pyspark返回0个对象,或者抛出一个错误,它不理解日期时间格式

这是我到目前为止所得到的:

from pyspark import SparkContext
from pyspark.sql import SQLContext

from django.utils import timezone
from django.conf import settings

from myapp.models import Collection

sc = SparkContext("local", "DjangoApp")
sqlc = SQLContext(sc)
url = "jdbc:postgresql://%(HOST)s/%(NAME)s?user=%(USER)s&password=%(PASSWORD)s" % settings.DATABASES['default']
sf = sqlc.load(source="jdbc", url=url, dbtable='myapp_collection')
Run Code Online (Sandbox Code Playgroud)

时间戳字段的范围:

system_tz = timezone.pytz.timezone(settings.TIME_ZONE)
date_from = datetime.datetime(2014, 4, 16, 18, 30, 0, 0, tzinfo=system_tz)
date_to = datetime.datetime(2015, 6, 15, 18, 11, 59, 999999, tzinfo=system_tz)
Run Code Online (Sandbox Code Playgroud)

尝试1

date_filter = "my_col >= '%s' AND my_col <= '%s'" % (
    date_from.isoformat(), date_to.isoformat()
)
sf …
Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark

22
推荐指数
2
解决办法
3万
查看次数

木偶 - 用绑定装载

我有一个500个linux盒子的集群,现在需要使用带有bind选项的mount资源(参见man 8 mount)来支持chroot jail.引导后需要强制执行和维护挂载点.我不确定如何用木偶描述这种状态.是这样的吗?

mount { "/gpfs20/home":
  ensure  => mounted,
  name    => "/chroot/centos5/home",
  fstype  => "none",
  options => "(rw,bind)",
}
Run Code Online (Sandbox Code Playgroud)

TIA - 查尔斯

puppet

13
推荐指数
1
解决办法
3317
查看次数

运营商之间的气流和数据传输

我是气流新手,对Airflow及其处理器有疑问.当处理器产生输出时,该输出如何在输入中移动到下一个处理器?有一个名为nifi的软件,它将中间输出存储到流文件中,afaik在气流中没有这样的东西.那么这是怎么发生的呢?

提前致谢.

airflow

7
推荐指数
1
解决办法
5306
查看次数

为Airflow添加额外的芹菜配置

谁知道我可以在哪里添加额外的芹菜配置到气流芹菜执行器?例如,我想http://docs.celeryproject.org/en/latest/userguide/configuration.html#worker-pool-restarts这个属性,但我如何允许额外的芹菜属性..

celery airflow

4
推荐指数
1
解决办法
2270
查看次数

ConcourseCI:从获取资源的映射/重命名输出运行任务

我有一个存储库,我正在查看其中的各个文件夹并在每个存储库中构建不同的内容。

由于很多步骤都是相似的,我试图稍微简化一下事情并使用输出映射将目录“重命名”为通用名称,但它似乎没有表现出来。我所能得到的只是一个错误:“未知工件来源:repo

(片段)我的管道是:

resources:
# I have more of these, one for each path I'm interested in but not shown here.
- name: repo-folder--11.1--common
  type: git
  source:
    uri: git@github.com:myorg/project
    branch: concourse-pipeline
    private_key: {{github_private_key}}
    paths:
      - 11.1/common

jobs:
- name: common-image-build
  plan:
  - get: repo-folder--11.1--common
    output_mapping:
      repo-folder--11.1--common: repo
    trigger: true
  - get: centos-docker-image
  - task: generate-tag
    file: repo/task-generate-tag.yml
    params:
      prefix: "1.11-"
Run Code Online (Sandbox Code Playgroud)

我希望我的output_mappingon myget能让我在这个构建计划中通过一个更简单的名称(“repo”)来引用 git repo,但似乎没有。

我是否缺少某种实现此目标的方法,或者这是一个错误/设计决策?

concourse

3
推荐指数
1
解决办法
2012
查看次数

标签 统计

airflow ×2

apache-spark ×1

celery ×1

concourse ×1

http ×1

puppet ×1

pyspark ×1

python ×1

tcp ×1