Mar*_*tin 2 python parsing web-scraping
您是否知道任何可以解析 SEC 10-K 文件各个部分的 API(付费或免费)、工具或 Python 包?
我正在寻找与整个 10-K 归档分开的 10-K 归档的各个部分(例如,第 1 项:业务、第 1A 项:风险因素等),最好清除任何页眉(公司名称)、页脚(页码)和主要包含数字数据的表格。我已经使用 BeautifulSoup 在 python 中为整个 10-K 语句编写了一个解析器,但将它们分成单独的部分看起来相当具有挑战性 - 但并非不可能。
我想,在重新发明轮子之前,我首先询问社区是否知道任何现有的解决方案。我发现https://jodie.ai/hi/其中 10-K 语句分为几个部分,但只能追溯到 2009 年。
谢谢您的帮助!
我必须解决同样的问题,并为 10-K 和 10-Q 申请开发了项目提取算法。该算法支持所有项目类型,并且可以返回标准化的明文和每个项目的原始 HTML:
\n您可以使用 API 通过提供 10-K 或 10-Q 归档的 URL、要提取的项目和类型来检索任何项目:
\nurl(必填) - 10-K 或 10-Q 备案的 URL,例如 TSLA 10-K https://www.sec.gov/Archives/edgar/data/1318605/000156459021004599/tsla-10k_20201231.htmitems(必需)- 要提取的一个或多个项目。提供多个以逗号分隔的项目,例如1,1A,1B,2,5type(可选)- 可以是text或html。text返回清晰的格式化文本,不带任何 XBRL、XML 或 HTML 标签。所有表均被删除。html返回项目的原始、经过清理的 HTML 版本,包括表格。默认:texttoken(必填)- 您的 API 密钥。如果您需要生成最近 10-K/Q 申请的列表,可以使用查询 API ( https://sec-api.io/docs/query-api )。
\nhttps://api.sec-api.io/extractor?\nurl=https://www.sec.gov/Archives/edgar/data/1318605/000156459021004599/tsla-10k_20201231.htm&\nitem=1A&\ntype=text&\ntoken=YOUR_API_KEY\nRun Code Online (Sandbox Code Playgroud)\nhttps://api.sec-api.io/extractor?\nurl=https://www.sec.gov/Archives/edgar/data/1318605/000156459021004599/tsla-10k_20201231.htm&\nitem=1A&\ntype=text&\ntoken=YOUR_API_KEY\nRun Code Online (Sandbox Code Playgroud)\n文档: https: //sec-api.io/docs/sec-filings-item-extraction-api
\n