获取网页的"摘要"

Hom*_*mde 2 html c# regex

我有一些毛茸茸的问题,我想生成一段给定网址的"描述"段落,通常是文章的开头.元描述字段是一种可行的方法,但它并不总是好的或设置得当.

可以说,从屏幕编写的HTML中实现这一点有点问题.我有一个大致的想法,也许人们可以扫描HTML的第一个"适当的"部分,但很难说是什么,也许像第一段包含一定数量的文本......

有人有什么好主意吗?:)它不一定是万无一失的

Luc*_*Luc 6

所以,你想成为一个新的谷歌,嘿?:-)

如今,许多网站都是"SEO友好".这使您可以查找标题,然后查找下面的段落.

另外,查找列表.在使用有序或无序列表完成的某种类似标签(制表符,手风琴......)界面中有很多内容.

如果失败了,可能会找一个带有"内容"或"主要"类别或组合的div,然后从那里开始.

如果您使用不同的方法,请确保记录哪些有效,哪些无效(甚至可以保存整页),以便您查看和调整解析和搜索方法.

作为旁注,我已经使用htmlagilitypack来解析并成功搜索html.好吧,至少它用正则表达式解析:-)