小编rom*_*nio的帖子

带有Airflow的AWS Batch执行程序

我目前正在使用EC2实例在Amazon Web服务上使用airflow.最大的问题是实例的平均使用率约为2%......

我想使用可扩展的架构并仅在作业期间创建实例并将其终止.我在路线图上看到,AWS BATCH在2017年被认为是执行者,但没有新的内容.

您是否知道是否可以将AWS BATCH用作所有气流作业的执行程序?

此致,罗曼.

airflow

18
推荐指数
2
解决办法
1788
查看次数

在pig脚本中定义元组数据

我正在调试一个猪脚本.我想直接在Pig文件中定义一个元组(而不是基本的"加载"函数).

有办法吗?

我正在寻找类似的东西:

A= ('name#bob'','age#29';'name#paul','age#12')
Run Code Online (Sandbox Code Playgroud)

转储将返回:

('bob',29)
('paul',12)
Run Code Online (Sandbox Code Playgroud)

hadoop apache-pig

14
推荐指数
1
解决办法
2268
查看次数

如何在气流中处理DAG lib?

我有一个关于python运算符中使用的包的依赖管理的问题

我们正在以工业化模式使用气流来运行预定的python作业.它运行良好,但我们面临着处理每个DAG所需的不同python库的问题.

您是否知道如何让开发人员为自己的工作安装自己的依赖项而不是管理员,并确保这些依赖项不会与其他工作发生冲突?

您是否建议使用bash任务在作业开始时加载虚拟环境?任何官方的建议去做吗?

谢谢 !罗曼.

python airflow apache-airflow

8
推荐指数
1
解决办法
1170
查看次数

拍摄包含iframe的页面的屏幕截图

我们有一个nodeJS / angular 4网站,该网站显示来自第三方的iframe(powerBI Emebdded)。我们正在尝试开发一种功能,以允许最终用户对包含iframe内容的页面进行截图。

我们尝试了iframe2image库:https//github.com/twolfson/iframe2image

但是我们面临着同一个原产地政策的问题:

ERROR DOMException: Blocked a frame with origin http://localhost:4200
from accessing a cross-origin frame
Run Code Online (Sandbox Code Playgroud)

由于我们无权访问iframe(这是PowerBI iframe生成的带有专用库的第三方内容)。我们无法通过将iframe中的window.document.domain设置为同一域来绕过该策略。

您有建议的解决方案吗?

html javascript dom node.js angular

7
推荐指数
1
解决办法
2937
查看次数

IAM AWS S3限制到特定的子文件夹

我正在使用AWS S3组件来存储文件.

我有一个名为" mybucket " 的存储桶,其中包含以下文件夹:

+---Mybucket
\---toto1
\---toto2
+---toto3
|   \--- subfolder
|       \---subsubfolder
\---toto4
Run Code Online (Sandbox Code Playgroud)

我有AWS控制台用户,只需要访问"toto3"文件夹.

我试图限制对此文件夹的访问,但用户必须有权列出存储桶的根目录.如果我提供额外的权限来访问根文件夹,用户可以浏览"toto1"和"toto2"文件夹,我不想要.

我想配置类似的东西:

  • 授权列出我的S3帐户的所有存储桶(listAllBuckets策略)
  • 自动化以列出存储桶的根目录(如果用户看到目录名称,则对我来说没问题)
  • 拒绝所有前缀桶与"toto3"不同的访问权限
  • 在toto3文件夹中自动调整用户的每个操作
  • 我不想写一个包容性的规则

我尝试了这个IAM策略但没有成功:

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "s3:ListBucket",
                "s3:PutObject",
                "s3:GetObject"
            ],
            "Resource": ["arn:aws:s3:::mybucket/toto3/*"]
        },
        {
            "Sid": "Stmt1457617383000",
            "Effect": "Allow",
            "Action": [
                "s3:GetBucketLocation",
                "s3:ListBucket"
            ],
            "Resource": ["arn:aws:s3:::mybucket"]
        },
        {
            "Sid": "Stmt1457617230000",
            "Effect": "Deny",
            "Action": ["s3:*"],
            "Condition": {
                "StringNotLike": {
                    "s3:prefix": "toto3*"
                }
            },
            "Resource": [
                "arn:aws:s3:::mybucket/*"
            ]
        },
        {
            "Effect": "Allow",
            "Action": [ …
Run Code Online (Sandbox Code Playgroud)

amazon-s3 amazon-web-services

5
推荐指数
1
解决办法
4307
查看次数

MarkLogic - 集合和索引之间的最佳解决方案

我有几个这样的JSON:

[{
    "type": "car",
    "field1": "test"
}, {
    "type": "bike",
    "field1": "test"
}]
Run Code Online (Sandbox Code Playgroud)

我将它们存储在MarkLogic 8.4中,我想对它们执行一些搜索查询以根据类型检索文档(例如:查找类型为"car"的所有文档).

我有两个可能的解决方案:

  • 将Marklogic集合设置为每个文档.示例:在示例文档中放置"car"和"bike"集合.在我的搜索查询中,我可以添加集合限制.
  • 在每个JSON的"type"字段上放置一个索引

在表现和/或最佳实践方面,一种方法是否优于另一种方法?

谢谢,罗曼.

collections json marklogic marklogic-8

2
推荐指数
1
解决办法
112
查看次数

增加 xquery 请求的 Marklogic 超时

我正在使用 Marklogic 8.0.6 和 xquery 请求。

我通过应用程序服务器执行那些 xquery 请求,但似乎巨大的请求已达到超时并返回以下错误:

eval XQuery on server: cannot process response with 504 status
Run Code Online (Sandbox Code Playgroud)

您能否给出要修改的设置以增加此超时?

谢谢,罗曼:)

xquery marklogic marklogic-8

2
推荐指数
1
解决办法
651
查看次数

Marklogic 8:对每个集合和/或目录的文档计数

我的marklogic数据库中有5000万个文档。我想分析内容以便知道哪些是文档的主要类别。

我的每个文档都位于一个特定的文件夹(即:“ / books /”)中,并具有一个特定的集合(“ / type / books”)。

我想生成一个包含两列的CSV:name_of_the_collection; count_distinct_value

范例:

Collection;count
books;437438
cars;46565
cats;457373
Run Code Online (Sandbox Code Playgroud)

与目录相同:

directory;count
/animals/cats/;437438
/animals/dogs;46565
/animals/cow;457373
Run Code Online (Sandbox Code Playgroud)

我试图列出所有不同的类别/集合并计算文档的数量,但无法将两者结合起来。

请你帮助我好吗 ?

谢谢,罗曼。

marklogic marklogic-8

2
推荐指数
1
解决办法
81
查看次数

数据导入Bigquery的定价

我正在寻找从云存储到大查询的数据输入价格(通过"bq import").

BigQuery中没有"update"语句,所以我想放弃我的表并从头开始重新创建它.

谢谢,罗曼.

google-bigquery

1
推荐指数
1
解决办法
83
查看次数

添加通过角色在MarkLogic中删除文档的权限

我有一个名为"监控"的角色,能够在MarkLogic中插入/查看文档.我想添加删除文档的权限,但我不知道是否需要赋予它"执行"权限.

我的角色如下:

<role>
  <role-name>moderators-role</role-name>
  <description>The role assigned to the zabbix user that monitor all server apps</description>
  <permissions>
    <permission>
      <capability>read</capability>
      <role-name>moderators-role</role-name>
    </permission>
    <permission>
      <capability>update</capability>
      <role-name>moderators-role</role-name>
    </permission>
  </permissions>
  <privileges>
    <privilege>
      <privilege-name>rest-writer</privilege-name>
    </privilege>
    <privilege>
      <privilege-name>rest-reader</privilege-name>
    </privilege>
  </privileges>
</role>
Run Code Online (Sandbox Code Playgroud)

marklogic marklogic-8

1
推荐指数
1
解决办法
58
查看次数