小编Ale*_*o A的帖子

将本地 CSV 上传到远程 Postgre (AWS)

我面临以下问题：我在 AWS 上有一个实例 (RDS) 来存储一些数据，我想将一些数据从我的本地电脑上传到它！使用 PgAdmin 似乎是一项简单的任务，但我必须成为超级用户才能使用互联网上随处可见的命令“COPY”！

遗憾的是，出于安全原因，AWS 阻止您获得这些权限，这让我的任务变得困难。

我正在寻找是否有人可以提出任何解决方案，因为将文件获取到数据库正在运行的同一个实例对我来说是不可能的。

谢谢！

rds amazon-web-services amazon-rds

Ale*_*o A

lucky-day

3
推荐指数

1
解决办法

1314
查看次数

Pyspark UDF - 类型错误：“模块”对象不可调用

我正在尝试根据我在网上找到的一些教程运行以下代码：

import pandas as pd
from pyspark.sql import SparkSession
from pyspark.sql import functions
from pyspark.sql import udf
df_pd = pd.DataFrame(
data={'integers': [1, 2, 3],
 'floats': [-1.0, 0.5, 2.7],
 'integer_arrays': [[1, 2], [3, 4, 5], [6, 7, 8, 9]]}
)

df = spark.createDataFrame(df_pd)
df.show()

def square(x):
    return x**2
from pyspark.sql.types import IntegerType
square_udf_int = udf(lambda z: square(z), IntegerType())

Run Code Online (Sandbox Code Playgroud)

但是当我运行最后一行时，出现以下错误：

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: 'module' object is not callable

Run Code Online (Sandbox Code Playgroud)

我在 Hadoop 2.7 上使用 Spark …

python user-defined-functions pyspark

Ale*_*o A

lucky-day

3
推荐指数

1
解决办法

3936
查看次数

Pyspark - 拆分一列并获取 n 个元素

我想取一列并使用一个字符分割一个字符串。像往常一样，我知道 split 方法会返回一个列表，但是在编码时，我发现返回的对象只有 getItem 或 getField 方法，并具有 API 中的以下描述：

@since(1.3)   
def getItem(self, key):
    """
    An expression that gets an item at position ``ordinal`` out of a list,
    or gets an item by key out of a dict.


@since(1.3)
def getField(self, name):
    """
    An expression that gets a field by name in a StructField.

Run Code Online (Sandbox Code Playgroud)

显然这不符合我的要求，例如对于“A_B_C_D”列中的文本，我想将“A_B_C_”和“D”拆分为两个不同的列。

这是我正在使用的代码

from pyspark.sql.functions import regexp_extract, col, split
df_test=spark.sql("SELECT * FROM db_test.table_test")
#Applying the transformations to the data

split_col=split(df_test['Full_text'],'_')
df_split=df_test.withColumn('Last_Item',split_col.getItem(3))

Run Code Online (Sandbox Code Playgroud)

找个例子：

from pyspark.sql import Row
from pyspark.sql.functions …

Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-sql pyspark

Ale*_*o A

2019 03-13

3
推荐指数

1
解决办法

2万
查看次数

Pandas 转换数据框以根据行条件获取列名称

我有一个包含汽车和特定区域速度的数据框。

我想转换数据帧，这样我就知道每个区域哪辆车的速度大于 100，因此我为每辆车获取一行和两列，根据 100 值区分区域。

输入：

\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n\n\n\n\n\n\n\n\n

车号	\xc2\xa0speed_t1	\xc2\xa0speed_t2	速度_t3	速度_t4
1.	90	80	120	34
2.	110	130	140	99
3.	40	110	20	110

预期输出：

\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n

车号	正常速度	高速_t
1.	速度_t1,速度_t2,速度_t4	速度_t3
2.	速度_t4	速度_t1,速度_t2,速度_t3
3.	速度_t1,速度_t3	速度_t2,速度_t4

python pandas

Ale*_*o A

2021 08-23

1
推荐指数

1
解决办法

220
查看次数

标签统计

pyspark ×2

python ×2

amazon-rds ×1

amazon-web-services ×1

apache-spark ×1

apache-spark-sql ×1

pandas ×1

rds ×1

user-defined-functions ×1

将本地 CSV 上传到远程 Postgre (AWS)

Pyspark UDF - 类型错误：“模块”对象不可调用

Pyspark - 拆分一列并获取 n 个元素

Pandas 转换数据框以根据行条件获取列名称

标签 统计

小编Ale_o A的帖子

标签统计