为Android应用程序刮取此HTML的最佳方法是什么?

ale*_*exD 5 java android screen-scraping web-scraping jsoup

从网页中删除以下HTML的最佳方法是什么?我想拉出Apple,Orange和Grape并将它们放入我的Android应用程序的下拉菜单中.我应该使用Jsoup,如果是这样,最好的方法是什么?我应该使用正则表达式吗?

<select name="fruit" id="fruit" >
<option value="APPLE">Apple</option>
<option value="ORANGE">Orange</option>
<option value="GRAPE">Grape</option>
</select>
Run Code Online (Sandbox Code Playgroud)

sky*_*uzo 14

取决于,但我会使用XML/HTML解析器.不要使用正则表达式.

jsoup示例:

Document doc = Jsoup.connect(someUrl).get();
Elements options = doc.select("select#fruit option");
Run Code Online (Sandbox Code Playgroud)

有关jsoup选择器语法的更多信息.


最好的办法?

我会使用内置的DOM解析器或SAX解析器.如果您要解析大型文档,SAX会更快.如果文件很小,那就没什么区别了.有关SAX与DOM的更多信息.