EDGAR SEC 10-K 各个部分解析器

Question

EDGAR SEC 10-K 各个部分解析器

您是否知道任何可以解析 SEC 10-K 文件各个部分的 API（付费或免费）、工具或 Python 包？

我正在寻找与整个 10-K 归档分开的 10-K 归档的各个部分（例如，第 1 项：业务、第 1A 项：风险因素等），最好清除任何页眉（公司名称）、页脚（页码）和主要包含数字数据的表格。我已经使用 BeautifulSoup 在 python 中为整个 10-K 语句编写了一个解析器，但将它们分成单独的部分看起来相当具有挑战性 - 但并非不可能。

我想，在重新发明轮子之前，我首先询问社区是否知道任何现有的解决方案。我发现https://jodie.ai/hi/其中 10-K 语句分为几个部分，但只能追溯到 2009 年。

谢谢您的帮助！

Answer 1

Jay*_*Jay 5

我必须解决同样的问题，并为 10-K 和 10-Q 申请开发了项目提取算法。该算法支持所有项目类型，并且可以返回标准化的明文和每个项目的原始 HTML：

\n

1 - 商务
1A - 风险因素
1B - 未解决的员工意见
2 - 属性
3 - 法律诉讼
4 - 矿山安全披露
5 - 注册人\xe2\x80\x99s普通股、相关股东事务\n和发行人购买股本证券的市场
6 - 部分财务数据（2021 年 2 月之前）
7 - 管理\xe2\x80\x99s财务状况和运营结果的讨论和分析
7A - 有关市场风险的定量和定性披露
8 - 财务报表和补充数据
9 - 会计师关于会计和财务披露的变更和分歧
9A - 控制和程序
9B - 其他信息
10 - 董事、执行官和公司治理
11 - 高管薪酬
12 - 某些受益所有人和管理层的担保所有权以及相关股东事项
13 - 某些关系和关联交易以及董事独立性
14 - 首席会计师费用和服务
15 - 证据、财务报表附表

\n

请求参数

\n

您可以使用 API 通过提供 10-K 或 10-Q 归档的 URL、要提取的项目和类型来检索任何项目：

\n

url（必填） - 10-K 或 10-Q 备案的 URL，例如 TSLA 10-K https://www.sec.gov/Archives/edgar/data/1318605/000156459021004599/tsla-10k_20201231.htm
items（必需）- 要提取的一个或多个项目。提供多个以逗号分隔的项目，例如1,1A,1B,2,5
type（可选）- 可以是text或html。text返回清晰的格式化文本，不带任何 XBRL、XML 或 HTML 标签。所有表均被删除。html返回项目的原始、经过清理的 HTML 版本，包括表格。默认：text
token（必填）- 您的 API 密钥。

\n

如果您需要生成最近 10-K/Q 申请的列表，可以使用查询 API ( https://sec-api.io/docs/query-api )。

\n

请求示例 - 第 1A 项风险因素，文本

\n

https://api.sec-api.io/extractor?\nurl=https://www.sec.gov/Archives/edgar/data/1318605/000156459021004599/tsla-10k_20201231.htm&\nitem=1A&\ntype=text&\ntoken=YOUR_API_KEY\n

Run Code Online (Sandbox Code Playgroud)\n

响应示例 - 第 1A 项风险因素，文本

\n

https://api.sec-api.io/extractor?\nurl=https://www.sec.gov/Archives/edgar/data/1318605/000156459021004599/tsla-10k_20201231.htm&\nitem=1A&\ntype=text&\ntoken=YOUR_API_KEY\n

Run Code Online (Sandbox Code Playgroud)\n

文档： https: //sec-api.io/docs/sec-filings-item-extraction-api

\n

归档时间：	5 年，5 月前
查看次数：	5442 次
最近记录：	2 年，4 月前