小编Chi*_*ode的帖子

删除 pandas df 中每一行的字符串中的最后一个字符

我有一个带有 column 的 pandas 数据框keys,我需要从每个字符串中删除最后一个字符。

id       keys     
123      "https://www.cosmopolitan.com/entertainment/tv/a46533/"
124      "https://www.bazaar.com/entertainment/tv/a46533/"
Run Code Online (Sandbox Code Playgroud)

目前,我正在尝试创建一个返回干净字符串的函数,稍后我会将该函数应用于 df 。我尝试了以下方法:

url_test = "https://www.cosmopolitan.com/entertainment/tv/"

def clean_string(url):
    for string in url:
        new_string = string[:-1]
        return new_string
clean_string(url_test) 
Run Code Online (Sandbox Code Playgroud)

它返回一个空字符串。我希望它回来"url_test = "https://www.cosmopolitan.com/entertainment/tv"

python

11
推荐指数
2
解决办法
4万
查看次数

如何读取扩展名为 .snappy.parquet 的文件

我有扩展名为 .snappy.parquet 的文件,需要将其读入 Jupyter 笔记本,并将其转换为 pandas 数据帧。

import numpy
import pyarrow.parquet as pq

filename = "part-00000-tid-2430471264870034304-5b82f32f-de64-40fb-86c0-fb7df2558985-1598426-1-c000.snappy.parquet" 
df = pq.read_table(filename).to_pandas()
Run Code Online (Sandbox Code Playgroud)

错误是:

ArrowNotImplementedError:不支持具有结构的列表

pandas snappy parquet

5
推荐指数
1
解决办法
2万
查看次数

NameError:名称“split”未用 Spark 定义

我一直在用 Spark 处理一个大数据集。上周,当我运行以下代码行时,它运行良好,现在它抛出一个错误:NameError: name 'split' is not defined。有人可以解释为什么这不起作用,我该怎么办?名称拆分未定义...我应该定义方法吗?它是我应该导入的依赖项吗?文档没有说我必须导入任何东西才能使用 split 方法。下面的代码。

test_df = spark_df.withColumn(
  "Keywords", 
   split(col("Keywords"), "\\|")
)
Run Code Online (Sandbox Code Playgroud)

split apache-spark pyspark pyspark-sql

5
推荐指数
1
解决办法
1999
查看次数

获取 pandas 中特定日期范围的平均值

我需要按网站对数据进行分组,并获取特定日期范围内的平均浏览量。我的数据如下所示:

date        website         amount_views
1/1/2021        a               23
1/2/2021        a               17
1/3/2021        a               10
1/4/2021        a               25
1/5/2021        a               2
1/1/2021        b               12
1/2/2021        b               7
1/3/2021        b               5
1/4/2021        b               17
1/5/2021        b               2
Run Code Online (Sandbox Code Playgroud)

所以我需要看看 a 和 b 网站在两个日期范围(1/1/2021 - 1/3/2021(前)和 1/3/2021 - 1/5/2021(后))的平均值是多少期望的输出是:

date        website         avg_amount_views
pre            a                 31.5
post           a                 35.6
pre            b                 15.5
post           b                 22.6
Run Code Online (Sandbox Code Playgroud)

python average date-range pandas

4
推荐指数
1
解决办法
4128
查看次数

替换所有列中的多个字符 pandas df

我的 df 有 200 多列。某些列名称包含特殊字符,例如:() []我需要将所有 3 个替换为_. 我还需要替换空白区域...这是我的代码:

import pandas as pd

df = pd.read_csv('./pred_results.csv') 

df.columns = df.columns.str.replace(r"[()]", "_")
Run Code Online (Sandbox Code Playgroud)

使用上面的代码我只能替换()

python regex replace dataframe pandas

3
推荐指数
1
解决办法
2258
查看次数

在 Athena 视图中将 bigint 更改为字符串

我需要更改 Athena VIEW 中某一列的数据类型。它当前设置为bigint,当我尝试将我的视图与另一个视图连接时,出现以下错误:'=' cannot be applied to varchar, bigint。我需要转换bigintstring. 尝试了以下方法:

ALTER VIEW db.my_view MODIFY COLUMN my_column varchar(50)
Run Code Online (Sandbox Code Playgroud)

错误信息:no viable alternative at input 'alter view'

mysql sql string amazon-web-services amazon-athena

0
推荐指数
1
解决办法
2万
查看次数