微数据模式解析器

Min*_*yen 1 c# html-parsing microdata

我想以编程方式从 html 内容中解析微数据模式(就像Google 结构化数据测试工具所做的那样)

例如,给定包含JobPostingWebsite schema 的 html,该工具将检测并返回 2 个对象JobPosting以及Website相关属性信息。

对此最好的方法是什么?我应该创建XSD模式来验证 Html 内容还是只是使用 进行正常的 Html 处理XPath?有没有什么好的库可以做到这一点?

Min*_*yen 5

我创建了一个库来完成这项任务。图书馆是以HtmlAgilityPack图书馆为基础的。代码已放在Github上: https: //github.com/minhnguyenlinknode/MicroSchemaParser

用法:

var microSchemaParser = new MicroSchemaParser(yourHtmlString);

// Detect all supported schemas
List<ISchema> allSupportedSchemas = microSchemaParser.Parse();

// Find a specific schema
var schema = microSchemaParser.Find<ItemListSchema>();

// Check the schema validation
var validateResult = itemListSchema.Validate();
Run Code Online (Sandbox Code Playgroud)