搜索引擎如何从html页面中获取结构化数据?

Uğu*_*han 3 html seo search semantic-web search-engine

系统如何确定哪个html元素包含有关哪个变量的数据?

HTML5允许人们标记他们的元素

<div data-productname=BMW>BMW</div>
Run Code Online (Sandbox Code Playgroud)

但搜索引擎如何利用旧网站做到这一点?

Juk*_*ela 5

这些data-属性供作者用于他们自己的目的,用于"私人使用".浏览器,搜索引擎和其他软件应该忽略这些属性,除了专门根据分配给他们的私有含义使用它们的软件. .

所以任何使用它们的搜索引擎都会被破坏.

通常,搜索引擎不会尝试确定哪个html元素包含有关哪个变量的数据.它们对页面的文本内容进行操作,并在某种程度上对某些标记元素进行操作(例如h1,可以假设它们具有比其他文本更高的相对相关性).

已经并且正在开发用于低级元数据的系统,其可以使用例如具有特殊名称或一些新属性的类属性.一些主要的搜索引擎在某些方面表达了对此的支持,尤其是http://www.schema.org.但实际上,根据尚未公开披露的原则,他们似乎主要是针对非常大的网站.