小编NYC*_*yes的帖子

使用Python计算Spark中的Pairwise(K,V)RDD中每个KEY的平均值

我想与Python解决方案共享这个特定的Apache Spark,因为它的文档很差.

我想用KEY计算K/V对(存储在Pairwise RDD中)的平均值.以下是示例数据的样子:

>>> rdd1.take(10) # Show a small sample.
[(u'2013-10-09', 7.60117302052786),
(u'2013-10-10', 9.322709163346612),
(u'2013-10-10', 28.264462809917358),
(u'2013-10-07', 9.664429530201343),
(u'2013-10-07', 12.461538461538463),
(u'2013-10-09', 20.76923076923077),
(u'2013-10-08', 11.842105263157894),
(u'2013-10-13', 32.32514177693762),
(u'2013-10-13', 26.249999999999996),
(u'2013-10-13', 10.693069306930692)]

Run Code Online (Sandbox Code Playgroud)

现在,下面的代码序列不是最佳的方法,但它确实有效.在我找到更好的解决方案之前,我正在做的事情.这并不可怕但是 - 正如你在答案部分看到的那样 - 有一种更简洁,有效的方式.

>>> import operator
>>> countsByKey = sc.broadcast(rdd1.countByKey()) # SAMPLE OUTPUT of countsByKey.value: {u'2013-09-09': 215, u'2013-09-08': 69, ... snip ...}
>>> rdd1 = rdd1.reduceByKey(operator.add) # Calculate the numerators (i.e. the SUMs).
>>> rdd1 = rdd1.map(lambda x: (x[0], x[1]/countsByKey.value[x[0]])) # Divide each SUM by …

Run Code Online (Sandbox Code Playgroud)

python average aggregate apache-spark rdd

NYC*_*yes

2016 05-12

28
推荐指数

3
解决办法

3万
查看次数

在 PostgreSQL 13 上更改“wal_level”（通过客户端会话）未得到尊重

在正在运行的 PostgreSQL 13 实例上，我尝试按如下方式修改其wal_level系统设置，但它没有得到尊重：

postgres@localhost:postgres> SHOW wal_level
+-------------+
| wal_level   |
|-------------|
| replica     |
+-------------+
SHOW
Time: 0.021s

postgres@localhost:postgres> ALTER SYSTEM SET wal_level = logical;
ALTER SYSTEM
Time: 0.007s

postgres@localhost:postgres> SHOW wal_level
+-------------+
| wal_level   |
|-------------|
| replica     |
+-------------+
SHOW
Time: 0.021s

postgres@localhost:postgres>

Run Code Online (Sandbox Code Playgroud)

不幸的是，这是由 Postgres 人员在 DockerHub 映像中设置的，因此仅修改配置文件并重新启动并不简单。事实上，解决方法是可以完成的，但我希望社区能够建议一种通过 Postgres 客户端会话实时完成此操作的方法。

编辑（下面的评论补充）：

postgres@localhost:postgres> select * from pg_settings where name ='wal_level';
--+-----------------------------------+------------+-------------+--------------+--------------+-------------------+
  | enumvals                          | boot_val   | reset_val   | sourcefile   | sourceline   | pending_restart   |
--+-----------------------------------+------------+-------------+--------------+--------------+-------------------| …

Run Code Online (Sandbox Code Playgroud)

sql postgresql wal

NYC*_*yes

2021 05-12

13
推荐指数

3
解决办法

4万
查看次数

Spring Bean属性'xxx'不可写或具有无效的setter方法

我是一个看似简单的Spring问题的Spring新手.我工作了几个小时没有运气.这是例外,后面是代码(提前谢谢):

Exception in thread "main" org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'graphiteWriterSession' defined in file [/home/user/resources/jmxtrans.graphite.xml]: Error setting property values; nested exception is org.springframework.beans.NotWritablePropertyException: Invalid property 'host' of bean class [com.example.ExampleClass]: Bean property 'host' is not writable or has an invalid setter method. Does the parameter type of the setter match the return type of the getter?

Run Code Online (Sandbox Code Playgroud)

我的bean定义:

<bean id="graphiteWriterSession" class="com.example.ExampleClass">
    <property name="host" value="host.example.com" />
    <property name="port" value="2023" />
    <property name="namespacePrefix" value="apps.foo.bar" />
    <property name="debug" value="true" />
</bean>

<bean id="jmxtransSession" …

Run Code Online (Sandbox Code Playgroud)

java spring javabeans

NYC*_*yes

lucky-day

11
推荐指数

2
解决办法

8万
查看次数

在 ROOTLESS podman 设置中，如何在不同 pod 中的容器之间进行通信

我阅读了我能找到的所有内容，但关于这种情况的文档很少或不清楚podman。我有以下（人为的）ROOTLESS podman设置：

pod-1 名称：pod1

容器名称pod1：
- p1c1 -- 这也是它hostname在内部分配的pod1
- p1c2 -- 这也是它hostname在内部分配的pod1
- p1c3 -- 这也是它hostname在内部分配的pod1
pod-2 名称：pod2

容器名称pod2：
- p2c1 -- 这也是它hostname在内部分配的pod2
- p2c2 -- 这也是它hostname在内部分配的pod2
- p2c3 -- 这也是它hostname在内部分配的pod2

我将某些容器放在不同的pods位置，以避免出现这种情况port conflict，并将容器作为组进行管理。

问题：

给出上面的拓扑，我如何在p1c1和之间进行通信p2c1？换句话说，我应该逐步podman(1)发出哪些命令来收集和的addressing information必要信息，然后使用该信息来配置其中的应用程序，以便它们可以相互通信？pod1:p1c1pod2:p2c1

先感谢您！

编辑：对于搜索者，可以在此处找到更多信息。

containers redhat-containers podman podman-compose

NYC*_*yes

2021 04-17

9
推荐指数

1
解决办法

2万
查看次数

IAM 用户上的 lambda ListFunctions 的 AWS AccessDeniedException

注意：我通过 IAM 用户控制台帐户执行所有 AWS 配置，该帐户基本上拥有 AWS/Amazon 帐户所有者的所有权限。我将此 IAM 用户称为根帐户。

问题描述：

我从根帐户创建了以下 IAM 用户，仅具有编程访问权限：lambda-test
我在~/.aws/*文件中添加了它的 IAM 访问密钥（作为配置文件条目）。
现在，对于该lambda 测试帐户，我接下来创建了一个内联/嵌入式策略，该策略允许以下 AWS-Lamdba 操作：ListFunctions、GetFunction、UpdateFunctionCode、UpdateFunctionConfiguration

经正确验证的政策声明如下所示：

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "Stmt1111111111111",  # <--- Altered for this post.
            "Effect": "Allow",
            "Action": [
                "lambda:GetFunction",
                "lambda:ListFunctions",
                "lambda:UpdateFunctionCode",
                "lambda:UpdateFunctionConfiguration"
            ],
            "Resource": [
                "arn:aws:lambda:*"
            ]
        }
    ]
}

Run Code Online (Sandbox Code Playgroud)

回到笔记本电脑 CLI，我发出以下命令，该命令生成 AccessDeniedException：

user@linux$ aws lambda list-functions --profile lambda-test

Run Code Online (Sandbox Code Playgroud)

这是例外情况：

An error occurred (AccessDeniedException) when calling the ListFunctions operation: User: …

Run Code Online (Sandbox Code Playgroud)

lambda access-denied amazon-web-services amazon-iam aws-lambda

NYC*_*yes

lucky-day

6
推荐指数

1
解决办法

1万
查看次数

PySpark 2.x：以编程方式将 Maven JAR 坐标添加到 Spark

以下是我的 PySpark 启动片段，它非常可靠（我已经使用了很长时间）。今天我添加了spark.jars.packages选项中显示的两个 Maven 坐标（有效地“插入”了 Kafka 支持）。现在通常会触发依赖项下载（由 Spark 自动执行）：

import sys, os, multiprocessing
from pyspark.sql import DataFrame, DataFrameStatFunctions, DataFrameNaFunctions
from pyspark.conf import SparkConf
from pyspark.sql import SparkSession
from pyspark.sql import functions as sFn
from pyspark.sql.types import *
from pyspark.sql.types import Row
  # ------------------------------------------
  # Note: Row() in .../pyspark/sql/types.py
  # isn't included in '__all__' list(), so
  # we must import it by name here.
  # ------------------------------------------
 
num_cpus = multiprocessing.cpu_count()        # Number of CPUs for SPARK Local mode.
os.environ.pop('SPARK_MASTER_HOST', None) …

Run Code Online (Sandbox Code Playgroud)

python maven apache-kafka apache-spark pyspark

NYC*_*yes

2021 06-01

6
推荐指数

1
解决办法

1554
查看次数

Sublime Text 2 :: Python代码完成

我正在尝试使用Code建议(下拉框)来正确建议.

现在它没有.它只或多或少地暗示了正在编辑的文件中的标识符和模块(意味着文件内范围).例如,如果我试试这个:

我输入numpy <--- numpy不建议.

numpy.a <---在这里,建议不要以'a'开头.

我已经在各个网站上实施了大量建议,包括以下内容,但没有成功获得正确的代码完整建议,或者有时会出现:

- Installed SublimeRope
- "use_simple_completion": true  (in SublimeRope.sublime-settings)
- "auto_complete_triggers": [ {"selector": "source.python - string - comment - constant.numeroc", "characters": "."} ]  (in Pyhon.sublime-settings)
- etc.

Run Code Online (Sandbox Code Playgroud)

我错过了什么(当然我是:)).感谢建议.

python ide sublimetext sublimetext2

NYC*_*yes

2013 07-31

5
推荐指数

1
解决办法

2万
查看次数

支持多个Python模块版本（具有相同的Python版本）

我环顾四周，但找不到明确的答案。

我非常需要支持同一Python模块的N版本。

如果它们存储在相同的包/目录中，则它们必须具有唯一的名称，如以下示例所示：

      .../some/package/my_module_1.0.py
      .../some/package/my_module_1.1.py
      .../some/package/my_module_2.0.py
              -- etc. --

Run Code Online (Sandbox Code Playgroud)

然后，每个人都将通过“ version ”属性存储其版本号。

然后，使用程序将导入所需的正确版本（例如：import my_module_1.1）。

这是完成此多模块版本需求的最佳方法（也是最Python的方法）吗？

谢谢！

python import module version multi-module

NYC*_*yes

2016 03-15

5
推荐指数

1
解决办法

1373
查看次数

协助 Python 的 ast.literal_eval('a_string')

我一直在尝试让 Python3s ast.literal_eval () 函数工作（在交互式 Python 会话中）但是 - 我阅读了它的文档描述 - 我不能。

我的目标是替换这个：

>>> import logging
>>> eval('logging.DEBUG')
10

Run Code Online (Sandbox Code Playgroud)

有了更安全的选择，这个：

>>> import logging, ast
>>> ast.literal_eval('logging.DEBUG')
Traceback (most recent call last):
...
ValueError: malformed node or string: <_ast.Attribute object at 0x7f1ccc55eeb8>

Run Code Online (Sandbox Code Playgroud)

但后者不起作用（至少不是我如何使用它）。请注意，我也尝试了三引号和原始字符串变体。

我相信我只是在这里遗漏了一个细微差别（例如，它可能不喜欢评估模块中的常量）。来自关于ast.literal_eval ()的 Python-3 文档：

安全地计算包含 Python 文字或容器显示的表达式节点或字符串。提供的字符串或节点只能由以下 Python 文字结构组成：字符串、字节、数字、元组、列表、字典、集合、布尔值和无。

这可用于安全地评估包含来自不受信任来源的 Python 值的字符串，而无需自己解析这些值。它不能评估任意复杂的表达式，例如涉及运算符或索引。

任何帮助表示赞赏。=:) 提前谢谢你！

python eval string-literals

NYC*_*yes

lucky-day

5
推荐指数

1
解决办法

2139
查看次数

如何将 HIVE 访问集成到源自 pip 和 conda（而不是来自 Spark 发行版或包）的 PySpark

我通过 pyspark 从头开始构建并以编程方式使用我的环境PySpark（就像我在此处演示的那样）；而不是从可下载的 Spark 发行版中使用。正如您在上面 URL 的第一个代码片段中看到的，我通过 SparkSession 启动脚本中的 k/v conf-pairs（除其他外）来完成此操作。（顺便说一句，这种方法使我能够在各种 REPL、IDE 和 JUPYTER 中工作）。condapipPySpark

然而，关于配置 Spark 支持访问 HIVE 数据库和元数据存储，该手册是这样说的：