小编AK9*_*K91的帖子

PySpark 在终端中执行时出现“非法反射访问操作”

我已经在本地安装了 Spark 和组件，并且能够在 Jupyter、iPython 中以及通过 Spark-submit 执行 PySpark 代码 - 但是收到以下警告：

WARNING: An illegal reflective access operation has occurred
WARNING: Illegal reflective access by org.apache.spark.unsafe.Platform (file:/Users/ayubk/spark-3.0.1-bin-hadoop3.2/jars/spark-unsafe_2.12-3.0.1.jar) to constructor java.nio.DirectByteBuffer(long,int)
WARNING: Please consider reporting this to the maintainers of org.apache.spark.unsafe.Platform
WARNING: Use --illegal-access=warn to enable warnings of further illegal reflective access operations
WARNING: All illegal access operations will be denied in a future release
20/12/27 07:54:01 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable …

Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark

AK9*_*K91

2020 12-27

14
推荐指数

1
解决办法

1万
查看次数

简单的 Python 方法需要永远执行/运行

我的代码卡在clean_up()方法上MyClass()

my_class.py：

import os
import pandas as pd
import psycopg2, pymysql, pyodbc
from db_credentials_dict import db_credentials

class MyClass():

    def __init__(self, from_database, to_table_name, report_name):
        ...

    def get_sql(self):
        ...

    def get_connection(self):
        ...

    def query_to_csv(self):
        ...

    def csv_to_postgres(self):
        ...

    def extract_and_load(self):
        self.query_to_csv()
        self.csv_to_postgres()

    def get_final_sql(self):
        ...

    def postgres_to_csv(self):
        ...

    def clean_up(self):
        print('\nTruncating {}...'.format(self.to_table_name), end='')
        with self.postgres_connection.cursor() as cursor:
            cursor.execute("SELECT NOT EXISTS (SELECT 1 FROM %s)" % self.to_table_name)
            empty = cursor.fetchone()[0]
            if not empty:
                cursor.execute("TRUNCATE TABLE %s" % self.to_table_name)
        self.postgres_connection.commit()
        print('DONE') …

Run Code Online (Sandbox Code Playgroud)

python sql postgresql python-3.x

AK9*_*K91

2020 02-09

8
推荐指数

1
解决办法

478
查看次数

如何在 Pandas 中计算分区 BY

下面的窗口函数在 pandas 中相当于什么

COUNT(order_id) OVER(PARTITION BY city)

Run Code Online (Sandbox Code Playgroud)

我可以获得 row_number 或排名

df['row_num'] = df.groupby('city').cumcount() + 1

Run Code Online (Sandbox Code Playgroud)

但是像示例中那样按城市计数分区正是我正在寻找的

python window-functions pandas

AK9*_*K91

2019 09-11

5
推荐指数

1
解决办法

1万
查看次数

为什么LEFT JOIN在一个字段上然后在WHERE子句中将其过滤掉？

询问

SELECT ID, Name, Phone 
FROM Table1 
LEFT JOIN Table2 ON Table1.ID = Table2.ID
WHERE Table2.ID IS NULL

Run Code Online (Sandbox Code Playgroud)

问题

发现很难理解为什么有人会在ID上留下联接然后在where子句中将其设置为NULL？
我在这里错过了什么吗？这有什么意义吗？
我们可以Table2完全省略吗？因为根本没有加入？

任何帮助将非常感激.

sql t-sql sql-server left-join where-clause

AK9*_*K91

2018 11-19

2
推荐指数

1
解决办法

113
查看次数

BigQuery 正则表达式从字符串中删除/替换文本列表

我将如何删除字符串中的文本列表？本质上有一个 URL 列，并且希望避免过长的正则表达式和多个嵌套替换函数。

有没有一种方法可以声明“http”、“www.”等文本列表，并将它们一次性从列中删除？

regex sql google-bigquery

AK9*_*K91

lucky-day

2
推荐指数

1
解决办法

4651
查看次数

PySpark3 从 https url 读取文件

.tsv.gzPySpark 有没有办法从 URL读取 a ？

from pyspark.sql import SparkSession

def create_spark_session():
    return SparkSession.builder.appName("wikipediaClickstream").getOrCreate()

spark = create_spark_session()
url = "https://dumps.wikimedia.org/other/clickstream/2017-11/clickstream-jawiki-2017-11.tsv.gz"
# df = spark.read.csv(url, sep="\t") # doesn't work
df = spark.read.option("sep", "\t").csv(url) # doesn't work either
df.show(10)

Run Code Online (Sandbox Code Playgroud)

得到以下错误：

Py4JJavaError: An error occurred while calling o65.csv.
: java.lang.UnsupportedOperationException
---------------------------------------------------------------------------
Py4JJavaError                             Traceback (most recent call last)
/var/folders/sn/4dk4tbz9735crf4npgcnlt8r0000gn/T/ipykernel_1443/4137722240.py in <module>
      1 url = "https://dumps.wikimedia.org/other/clickstream/2017-11/clickstream-jawiki-2017-11.tsv.gz"
      2 # df = spark.read.csv(url, sep="\t")
----> 3 df = spark.read.option("sep", "\t").csv(url)
      4 df.show(10)

Run Code Online (Sandbox Code Playgroud)

spark.version是3.1.2

python apache-spark pyspark

AK9*_*K91

lucky-day

1
推荐指数

1
解决办法

5032
查看次数