我有一个带有 column 的 pandas 数据框keys,我需要从每个字符串中删除最后一个字符。
id keys
123 "https://www.cosmopolitan.com/entertainment/tv/a46533/"
124 "https://www.bazaar.com/entertainment/tv/a46533/"
Run Code Online (Sandbox Code Playgroud)
目前,我正在尝试创建一个返回干净字符串的函数,稍后我会将该函数应用于 df 。我尝试了以下方法:
url_test = "https://www.cosmopolitan.com/entertainment/tv/"
def clean_string(url):
for string in url:
new_string = string[:-1]
return new_string
clean_string(url_test)
Run Code Online (Sandbox Code Playgroud)
它返回一个空字符串。我希望它回来"url_test = "https://www.cosmopolitan.com/entertainment/tv"
我有扩展名为 .snappy.parquet 的文件,需要将其读入 Jupyter 笔记本,并将其转换为 pandas 数据帧。
import numpy
import pyarrow.parquet as pq
filename = "part-00000-tid-2430471264870034304-5b82f32f-de64-40fb-86c0-fb7df2558985-1598426-1-c000.snappy.parquet"
df = pq.read_table(filename).to_pandas()
Run Code Online (Sandbox Code Playgroud)
错误是:
ArrowNotImplementedError:不支持具有结构的列表
我一直在用 Spark 处理一个大数据集。上周,当我运行以下代码行时,它运行良好,现在它抛出一个错误:NameError: name 'split' is not defined。有人可以解释为什么这不起作用,我该怎么办?名称拆分未定义...我应该定义方法吗?它是我应该导入的依赖项吗?文档没有说我必须导入任何东西才能使用 split 方法。下面的代码。
test_df = spark_df.withColumn(
"Keywords",
split(col("Keywords"), "\\|")
)
Run Code Online (Sandbox Code Playgroud) 我需要按网站对数据进行分组,并获取特定日期范围内的平均浏览量。我的数据如下所示:
date website amount_views
1/1/2021 a 23
1/2/2021 a 17
1/3/2021 a 10
1/4/2021 a 25
1/5/2021 a 2
1/1/2021 b 12
1/2/2021 b 7
1/3/2021 b 5
1/4/2021 b 17
1/5/2021 b 2
Run Code Online (Sandbox Code Playgroud)
所以我需要看看 a 和 b 网站在两个日期范围(1/1/2021 - 1/3/2021(前)和 1/3/2021 - 1/5/2021(后))的平均值是多少期望的输出是:
date website avg_amount_views
pre a 31.5
post a 35.6
pre b 15.5
post b 22.6
Run Code Online (Sandbox Code Playgroud) 我的 df 有 200 多列。某些列名称包含特殊字符,例如:() []我需要将所有 3 个替换为_. 我还需要替换空白区域...这是我的代码:
import pandas as pd
df = pd.read_csv('./pred_results.csv')
df.columns = df.columns.str.replace(r"[()]", "_")
Run Code Online (Sandbox Code Playgroud)
使用上面的代码我只能替换()
我需要更改 Athena VIEW 中某一列的数据类型。它当前设置为bigint,当我尝试将我的视图与另一个视图连接时,出现以下错误:'=' cannot be applied to varchar, bigint。我需要转换bigint为string. 尝试了以下方法:
ALTER VIEW db.my_view MODIFY COLUMN my_column varchar(50)
Run Code Online (Sandbox Code Playgroud)
错误信息:no viable alternative at input 'alter view'