使用mechanize lib时,我在某些网页上遇到了Iconv :: IllegalSequence错误.有没有办法让机械化只是省略不良编码字符并返回"剪切"页面?我知道相关的线程,但我宁愿丢弃页面上的一些字符,然后重新实现编码猜测.TIA
我正在寻找一种工具来记录python中的web应用程序测试脚本,类似于ruby watirrecorder.后者基本上是一个生成watir脚本(ruby中的Web应用程序测试)的工具,它使用IE来测试Web应用程序.
我正在做一个大学项目,必须收集和组合用户提供的主题数据.我遇到的问题是许多术语的Google搜索结果都被低质量的自动生成页面污染,如果我使用它们,我最终会得到错误的事实.如何评估页面的质量/可信度?
您可能会认为"不,Google工程师正在解决这个问题已有10年了,他正在寻求解决方案",但如果您考虑一下,SE必须提供最新的内容,如果它标记为一个好的页面是一个坏的一,用户会不满意.我没有这样的限制,所以如果算法意外地将某些好页面标记为坏,那就不会有问题了.
这是一个例子:说输入是buy aspirin in south la.尝试谷歌搜索它.前三个结果已从网站中删除,但第四个结果很有趣:( radioteleginen.ning.com/profile/BuyASAAspirin我不想创建一个活动链接)
这是文本的第一段:
目前,在美国购买加拿大处方药的情况很少.这是因为在美国,处方药价格飙升,使那些收入有限或集中收入的人购买他们急需的药物变得艰难.美国人为他们的药物支付的费用高于班上的任何人.
文本的其余部分类似,然后是相关关键字列表.这就是我认为的低质量页面.虽然这个特定的文本似乎有意义(除了它太可怕了),我见过的其他例子(现在还找不到)只是一些垃圾,其目的是让一些用户从谷歌获得并在创作后一天被禁止.
我觉得这个问题已经被问到并回答了,但我找不到任何关于主题的内容,所以请原谅我是否如此.我想在应用于类时定义[]括号的行为,类似于def []=()ruby中的构造,因此调用Python obj['foo']实际上会调用某个[](self, what)方法.我怎样才能做到这一点?
根据这个页面,一个不能使用代码
if variable = something():
#do something with variable, whose value is the result of something() and is true
Run Code Online (Sandbox Code Playgroud)
所以如果我想拥有以下代码结构:
if a = something():
#do something with a
elif a = somethingelse():
#...
#5 more elifs
Run Code Online (Sandbox Code Playgroud)
其中something()函数是计算密集型的(我的意思是使用该函数然后再次执行它以便在第一个函数为true的情况下为变量赋值),我应该在Python中编写什么?再添加7个变量而不是1个?
有一个Python机械化对象,其表单几乎都设置了所有值,但尚未提交.现在我想使用来自mechanize实例的cookie来获取另一个页面,但是没有重置页面,表单等,例如,以便值保持设置(我只需要获取另一个页面的正文字符串,没有别的).有没有办法:
UserAgentBase)?urllib2使用机械化的饼干罐?NB:urllib2.HTTPCookieProcessor(self.br._ua_handlers["_cookies"].cookiejar)不起作用urllib?我正在尝试向字段添加自定义验证器.它应该考虑另一个领域的价值.例如,字段A最多应为B + 50%.
我已经实现了一个类Zend_Validate_Interface,但显然Zend Form只将当前字段的值发送给验证器.如何让验证器接收所有内容?
有一个像这样的字符串:
HTTP/1.1 200 OK
Date: Thu, 15 Dec 2011 12:23:25 GMT
Server: Microsoft-IIS/6.0
Content-Length: 2039
Content-Type: text/html
<!DOCTYPE html>
...
Run Code Online (Sandbox Code Playgroud)
是否可以使用一个命令将其作为标题 + 正文发送?我知道您可以使用headerecho/print/printf 来输出正文,但是由于我拥有的字符串与我编写的格式完全相同,因此要使用这些函数,我必须将其解析为标题和正文。
我试过写信给php://output,但它似乎认为标题是正文。
我正在获取一个gzip网页的内容,并希望在收到后立即解压缩,所以我正在尝试(为了可读性而剥离的东西):
var decompress = function(string, callback) {
zlib.gunzip(string, callback);
};
decompress(chunk, function(data) {
console.log(data);
});
Run Code Online (Sandbox Code Playgroud)
但是我只是null登录到控制台.我的节点版本是0.6.2并且zlib是内置版本.我应该如何解压缩?