EDGAR SEC 10-K 各个部分解析器

Mar*_*tin 2 python parsing web-scraping

您是否知道任何可以解析 SEC 10-K 文件各个部分的 API(付费或免费)、工具或 Python 包?

我正在寻找与整个 10-K 归档分开的 10-K 归档的各个部分(例如,第 1 项:业务、第 1A 项:风险因素等),最好清除任何页眉(公司名称)、页脚(页码)和主要包含数字数据的表格。我已经使用 BeautifulSoup 在 python 中为整个 10-K 语句编写了一个解析器,但将它们分成单独的部分看起来相当具有挑战性 - 但并非不可能。

我想,在重新发明轮子之前,我首先询问社区是否知道任何现有的解决方案。我发现https://jodie.ai/hi/其中 10-K 语句分为几个部分,但只能追溯到 2009 年。

谢谢您的帮助!

Jay*_*Jay 5

我必须解决同样的问题,并为 10-K 和 10-Q 申请开发了项目提取算法。该算法支持所有项目类型,并且可以返回标准化的明文和每个项目的原始 HTML:

\n
    \n
  • 1 - 商务
  • \n
  • 1A - 风险因素
  • \n
  • 1B - 未解决的员工意见
  • \n
  • 2 - 属性
  • \n
  • 3 - 法律诉讼
  • \n
  • 4 - 矿山安全披露
  • \n
  • 5 - 注册人\xe2\x80\x99s普通股、相关股东事务\n和发行人购买股本证券的市场
  • \n
  • 6 - 部分财务数据(2021 年 2 月之前)
  • \n
  • 7 - 管理\xe2\x80\x99s财务状况和运营结果的讨论和分析
  • \n
  • 7A - 有关市场风险的定量和定性披露
  • \n
  • 8 - 财务报表和补充数据
  • \n
  • 9 - 会计师关于会计和财务披露的变更和分歧
  • \n
  • 9A - 控制和程序
  • \n
  • 9B - 其他信息
  • \n
  • 10 - 董事、执行官和公司治理
  • \n
  • 11 - 高管薪酬
  • \n
  • 12 - 某些受益所有人和管理层的担保所有权以及相关股东事项
  • \n
  • 13 - 某些关系和关联交易以及董事独立性
  • \n
  • 14 - 首席会计师费用和服务
  • \n
  • 15 - 证据、财务报表附表
  • \n
\n

请求参数

\n

您可以使用 API 通过提供 10-K 或 10-Q 归档的 URL、要提取的项目和类型来检索任何项目:

\n
    \n
  • url(必填) - 10-K 或 10-Q 备案的 URL,例如 TSLA 10-K https://www.sec.gov/Archives/edgar/data/1318605/000156459021004599/tsla-10k_20201231.htm
  • \n
  • items(必需)- 要提取的一个或多个项目。提供多个以逗号分隔的项目,例如1,1A,1B,2,5
  • \n
  • type(可选)- 可以是texthtmltext返回清晰的格式化文本,不带任何 XBRL、XML 或 HTML 标签。所有表均被删除。html返回项目的原始、经过清理的 HTML 版本,包括表格。默认:text
  • \n
  • token(必填)- 您的 API 密钥。
  • \n
\n

如果您需要生成最近 10-K/Q 申请的列表,可以使用查询 API ( https://sec-api.io/docs/query-api )。

\n

请求示例 - 第 1A 项风险因素,文本

\n
https://api.sec-api.io/extractor?\nurl=https://www.sec.gov/Archives/edgar/data/1318605/000156459021004599/tsla-10k_20201231.htm&\nitem=1A&\ntype=text&\ntoken=YOUR_API_KEY\n
Run Code Online (Sandbox Code Playgroud)\n

响应示例 - 第 1A 项风险因素,文本

\n
https://api.sec-api.io/extractor?\nurl=https://www.sec.gov/Archives/edgar/data/1318605/000156459021004599/tsla-10k_20201231.htm&\nitem=1A&\ntype=text&\ntoken=YOUR_API_KEY\n
Run Code Online (Sandbox Code Playgroud)\n

文档: https: //sec-api.io/docs/sec-filings-item-extraction-api

\n