小编Chi*_*ode的帖子

删除 pandas df 中每一行的字符串中的最后一个字符

我有一个带有 column 的 pandas 数据框keys，我需要从每个字符串中删除最后一个字符。

id       keys     
123      "https://www.cosmopolitan.com/entertainment/tv/a46533/"
124      "https://www.bazaar.com/entertainment/tv/a46533/"

Run Code Online (Sandbox Code Playgroud)

目前，我正在尝试创建一个返回干净字符串的函数，稍后我会将该函数应用于 df 。我尝试了以下方法：

url_test = "https://www.cosmopolitan.com/entertainment/tv/"

def clean_string(url):
    for string in url:
        new_string = string[:-1]
        return new_string
clean_string(url_test)

Run Code Online (Sandbox Code Playgroud)

它返回一个空字符串。我希望它回来"url_test = "https://www.cosmopolitan.com/entertainment/tv"

python

Chi*_*ode

lucky-day

11
推荐指数

2
解决办法

4万
查看次数

如何读取扩展名为 .snappy.parquet 的文件

我有扩展名为 .snappy.parquet 的文件，需要将其读入 Jupyter 笔记本，并将其转换为 pandas 数据帧。

import numpy
import pyarrow.parquet as pq

filename = "part-00000-tid-2430471264870034304-5b82f32f-de64-40fb-86c0-fb7df2558985-1598426-1-c000.snappy.parquet" 
df = pq.read_table(filename).to_pandas()

Run Code Online (Sandbox Code Playgroud)

错误是：

ArrowNotImplementedError：不支持具有结构的列表

pandas snappy parquet

Chi*_*ode

2022 09-16

5
推荐指数

1
解决办法

2万
查看次数

NameError：名称“split”未用 Spark 定义

我一直在用 Spark 处理一个大数据集。上周，当我运行以下代码行时，它运行良好，现在它抛出一个错误：NameError: name 'split' is not defined。有人可以解释为什么这不起作用，我该怎么办？名称拆分未定义...我应该定义方法吗？它是我应该导入的依赖项吗？文档没有说我必须导入任何东西才能使用 split 方法。下面的代码。

test_df = spark_df.withColumn(
  "Keywords", 
   split(col("Keywords"), "\\|")
)

Run Code Online (Sandbox Code Playgroud)

split apache-spark pyspark pyspark-sql

Chi*_*ode

2020 01-23

5
推荐指数

1
解决办法

1999
查看次数

获取 pandas 中特定日期范围的平均值

我需要按网站对数据进行分组，并获取特定日期范围内的平均浏览量。我的数据如下所示：

date        website         amount_views
1/1/2021        a               23
1/2/2021        a               17
1/3/2021        a               10
1/4/2021        a               25
1/5/2021        a               2
1/1/2021        b               12
1/2/2021        b               7
1/3/2021        b               5
1/4/2021        b               17
1/5/2021        b               2

Run Code Online (Sandbox Code Playgroud)

所以我需要看看 a 和 b 网站在两个日期范围（1/1/2021 - 1/3/2021（前）和 1/3/2021 - 1/5/2021（后））的平均值是多少期望的输出是：

date        website         avg_amount_views
pre            a                 31.5
post           a                 35.6
pre            b                 15.5
post           b                 22.6

Run Code Online (Sandbox Code Playgroud)

python average date-range pandas

Chi*_*ode

lucky-day

4
推荐指数

1
解决办法

4128
查看次数

替换所有列中的多个字符 pandas df

我的 df 有 200 多列。某些列名称包含特殊字符，例如：() []我需要将所有 3 个替换为_. 我还需要替换空白区域...这是我的代码：

import pandas as pd

df = pd.read_csv('./pred_results.csv') 

df.columns = df.columns.str.replace(r"[()]", "_")

Run Code Online (Sandbox Code Playgroud)

使用上面的代码我只能替换()

python regex replace dataframe pandas

Chi*_*ode

2021 04-07

3
推荐指数

1
解决办法

2258
查看次数

在 Athena 视图中将 bigint 更改为字符串

我需要更改 Athena VIEW 中某一列的数据类型。它当前设置为bigint，当我尝试将我的视图与另一个视图连接时，出现以下错误：'=' cannot be applied to varchar, bigint。我需要转换bigint为string. 尝试了以下方法：

ALTER VIEW db.my_view MODIFY COLUMN my_column varchar(50)

Run Code Online (Sandbox Code Playgroud)

错误信息：no viable alternative at input 'alter view'

mysql sql string amazon-web-services amazon-athena

Chi*_*ode

lucky-day

0
推荐指数

1
解决办法

2万
查看次数

标签统计

pandas ×3

python ×3

amazon-athena ×1

amazon-web-services ×1

apache-spark ×1

average ×1

dataframe ×1

date-range ×1

mysql ×1

parquet ×1

pyspark ×1

pyspark-sql ×1

regex ×1

replace ×1

snappy ×1

split ×1

sql ×1

string ×1

删除 pandas df 中每一行的字符串中的最后一个字符

如何读取扩展名为 .snappy.parquet 的文件

NameError：名称“split”未用 Spark 定义

获取 pandas 中特定日期范围的平均值

替换所有列中的多个字符 pandas df

在 Athena 视图中将 bigint 更改为字符串

标签 统计

小编Chi_ode的帖子

标签统计