将 html 表转换为 CSV 的脚本(最好是 python)

sel*_*lar 1 html python html-table export-to-csv

我有大量想要转换为 CSV 的 html 表格。将单个表格粘贴到 excel 并将它们另存为 .csv 的工作原理,就像将 html 表格粘贴到简单的在线转换器一样。但是我有数千个单独的表,所以我需要一个可以自动化转换过程的脚本。

我想知道是否有人对我如何去做这件事有任何建议?Python 是我唯一熟悉的语言,因此某种 Python 脚本将是理想的选择。我搜索过类似的问题,但我发现的所有 python 示例对我来说都非常复杂,超出了我的基本理解水平。

任何建议将不胜感激。

The*_*Cat 5

使用pandas. 它具有将 html 表读入数据结构的功能,然后是将该数据结构写入 csv 文件的功能。

import pandas as pd
url = 'http://myurl.com/mypage/'

for i, df in enumerate(pd.read_html(url)):
    df.to_csv('myfile_%s.csv' % i)
Run Code Online (Sandbox Code Playgroud)

请注意,由于一个 html 页面可能有多个表格,因此获取表格的函数始终返回一个表格列表(即使只有一个表格)。这就是我在这里使用循环的原因。