我可以使用哪些算法来识别网页上的内容

VoY*_*VoY 9 algorithm webpage html-content-extraction

我在浏览器中加载了一个网页(即我的DOM和元素定位都可以访问),我想找到块元素(或这些元素的排序列表),它们可能包含最多内容(如连续的文本块).目标是排除菜单,页眉,页脚等内容.