使用Apache Any23从HTML中提取JSON-LD

Abh*_*hek 7 java extract json-ld any23

我的目标是从网页中提取结构化数据.我正在使用这个SO问题中提到的代码.我在Spring项目中使用Apache Any23 CLI库依赖项.

通过使用它,我能够从网页中提取HTML5微数据(Schema.org).但是,我无法提取网页中存在的JSON-LD格式.当我检查Apache Any23的文档时,它支持JSON-LD格式.没有找到任何进一步的文件.

irc*_*cho 0

通常,如果您使用它创建一个新的 Any23 提取器,new Any23()它应该可以开箱即用。如果您使用其他构造函数,例如Any23(String... extractorNames)您必须确保为嵌入式 JSON LD 添加正确的构造函数,即"html-embedded-jsonld".

现在,如果提取过程中出现任何错误,Any23 会默默地删除它们。(这太棒了,我知道!)

我发现可以在org.apache.any23.extractorExtractionResultImpl方法中设置断点notifyIssue。这样您也许能够找到问题的更详细原因。