tldextract 用于从 URL 中提取域名。这里,“url”是数据框“df”中的列名称之一。可以将“url”的一个值作为参数传递。但是,我无法将整个列作为参数传递。此处传递的网址是“ https://www.google.com/search?source=hp&ei=7iE ”
listed = tldextract.extract(df['url'][0])
dom_name = listed.domain
print(dom_name)
Run Code Online (Sandbox Code Playgroud)
输出:谷歌
我想要的是在名为“Domain”的数据框中创建一个新列,其中包含从 URL 中提取的域名。
就像是:
df['Domain'] = tldextract.extract(df['url'])
Run Code Online (Sandbox Code Playgroud)
但这不起作用
这是代码:
# IMPORTING PANDAS
import pandas as pd
from IPython.display import display
import tldextract
# Read data sample
df = pd.read_csv("bookcsv.csv")
df['Domain'] = df['url'].apply(lambda url: tldextract.extract(url).domain)
Run Code Online (Sandbox Code Playgroud)
这是输入数据:
数据框看起来像这样 我无法将数据直接放在这里。所以,我发布一个快照。