Phi*_*hil 6 webpage reverse-engineering
我希望将任何网页逆向工程化为页面的逻辑表示.例如,如果一个网页有一个菜单,那么我想要一个逻辑菜单结构,也许是XML.如果网页上有一篇文章,我想要一篇文章XML节点,如果它有文章的标题我想要一个标题XML节点.基本上,我想要没有任何用户界面的网页的逻辑形式.
这个逻辑模型既可以是代码中的对象,也可以是XML无关紧要,重要的是它已经识别出页面上的所有内容.
听起来你想要的东西需要人类对页面内容进行分类。
这可以是自动化的,但它会出现误报,并且并非在所有情况下都有效。
例如,如果一个页面使用 aul作为菜单,而另一个页面使用表格单元格怎么办?
您是否希望针对某个特定网站或 Internet 上的任何网站进行此操作?