小编mdi*_*002的帖子

将 html 保存到文件以便稍后使用 Beautiful Soup 进行使用

我在 Beautiful Soup 上做了很多工作。然而,我的主管不希望我通过网络“实时”完成工作。相反,他希望我从网页下载所有文本,然后再处理。他希望避免网站被重复点击。

这是我的代码:

import requests
from bs4 import BeautifulSoup

url = 'https://scholar.google.com/citations?user=XpmZBggAAAAJ' 
page = requests.get(url)
soup = BeautifulSoup(page.text, 'lxml')
Run Code Online (Sandbox Code Playgroud)

我不确定是否应该将“页面”保存为文件,然后将其导入到 Beautiful Soup,或者是否应该将“汤”保存为文件以便稍后打开。我也不知道如何将其另存为文件,以便可以像从互联网“实时”访问一样。我对 Python 几乎一无所知,所以我需要最简单的过程。

html python file save

2
推荐指数
1
解决办法
2万
查看次数

使用不需要指定输出文件名的可选参数运行 argparse

我已经通读了一堆已经回答的问题,但我没有看到这一点——至少我没有意识到。

我正在使用 argparse 来获取一个文件并将其转换为不同的类型。输入文件名是必需的。输出文件名不是必需的,因为可选参数应该处理它。这是到目前为止的代码:

import sys
import argparse
parser = argparse.ArgumentParser(description='Convert file to new type')
parser.add_argument('--json', type=str, help='Converts to json format')
parser.add_argument('--bibtex', type=str, help='Converts to bibtex format')
parser.add_argument('--html', type=str, help='Converts to html format')
parser.add_argument('inputfilename', type=str, help='enter the original filename')
args = parser.parse_args()
filename=args.filename
if args.json:
    print('Converting to json ...')
    #conversion code here
elif args.bibtex:
    print('Converting to bibtex ...')
    #conversion code here
elif args.html:
    print('Converting to html ...')
    #conversion code here
else:
    print('No conversion type indicated')
Run Code Online (Sandbox Code Playgroud)

问题是,每当我使用这些标志之一。如果我做

$ ./orsconvert.py --json inputfilename …
Run Code Online (Sandbox Code Playgroud)

python arguments optional-arguments argparse

1
推荐指数
1
解决办法
39
查看次数

标签 统计

python ×2

argparse ×1

arguments ×1

file ×1

html ×1

optional-arguments ×1

save ×1