12 programming-languages screen-scraping web-scraping
嗨,我想创建一个桌面应用程序(c#prob),用于在第三方网页上搜索或操作表单.基本上我在桌面应用程序的表单中输入我的数据,它转到第三方网站,并使用脚本或后台的任何内容,在那里输入我的数据(包括我的登录)并点击我的提交按钮.我只是想避免加载浏览器!
在这个领域没有做太多(任何!)工作我想知道像perl,python,ruby等脚本语言是否允许我这样做?或者只是使用c#和.net完成所有的抓取工作?哪一个是最好的IYO?
我想脚本可能需要从不同平台上的应用程序挂钩到相同的脚本(例如,我无法在c#中开发它的symbian mobile,就像桌面版本一样).
它不是一个网络应用程序,否则我也可以使用原始网站.我意识到这一切听起来毫无意义,但这种特定形式的自动化对我来说将是一个真正的节省时间.
gim*_*mel 26
别忘了看看BeautifulSoup,强烈推荐.
例如,请参阅options-for-html-scraping.如果您需要为此任务选择编程语言,我会说Python
.
更直接的问题解决方案,请参阅twill,一种用于Web浏览的简单脚本语言.
我使用C#进行抓取.请参阅有用的HtmlAgilityPack包.对于解析页面,我要么使用XPATH,要么使用正则表达式.如果您需要,.NET也可以轻松处理cookie.
我写了一个小类,它包含了创建WebRequest,发送,等待响应,保存cookie,处理网络错误和重新发送等所有细节 - 最终结果是在大多数情况下我可以调用"GetRequest\PostRequest"并返回一个HtmlDocument.