小编use*_*864的帖子

BeautifulSoup抓住可见的网页文本

基本上,我想使用BeautifulSoup严格抓取网页上的可见文字.例如,这个网页是我的测试用例.而且我主要想在这里和那里获得正文(文章)甚至几个标签名称.我在这个SO问题中尝试过这个建议,它返回了许多<script>我不想要的标签和HTML注释.我无法找出函数所需的参数findAll(),以便在网页上获取可见文本.

那么,我应该如何找到除脚本,评论,CSS等之外的所有可见文本?

python text beautifulsoup html-content-extraction

115
推荐指数
5
解决办法
10万
查看次数

强制CherryPy Child Threads

好吧,我希望cherrypy在自动重载时杀死所有子线程,而不是"等待子线程终止",因为我的程序有自己的线程,我不知道如何通过它.CherryPy一直挂在那一行上,我不知道如何让"子线程"终止......

`

[05/Jan/2010:01:14:24] ENGINE HTTP Server cherrypy._cpwsgi_server.CPWSGIServer(('127.0.0.1', 8080)) shut down
[05/Jan/2010:01:14:24] ENGINE Stopped thread '_TimeoutMonitor'.
[05/Jan/2010:01:14:24] ENGINE Bus STOPPED
[05/Jan/2010:01:14:24] ENGINE Bus EXITING
[05/Jan/2010:01:14:24] ENGINE Bus EXITED
[05/Jan/2010:01:14:05] ENGINE Waiting for child threads to terminate...
Run Code Online (Sandbox Code Playgroud)

`

它永远不会继续..所以我想强迫孩子线程关闭...

我知道这是因为我的应用程序正在使用它自己的线程,我想cherrypy希望这些线程与CherryPy一起退出....我可以克服这个吗?

python multithreading cherrypy

9
推荐指数
1
解决办法
3564
查看次数

Web2py每个会话导入一次

我正在使用Web2Py,我想每个会话只导入一次我的程序...不是每次加载页面时都是如此.这可能吗 ?例如在页面上使用的"导入客户端",但每次会话只导入一次.

python web2py

4
推荐指数
1
解决办法
943
查看次数

防止RegEx在大型比赛中挂起

这是日期的一个很好的正则表达式...但它在我尝试的这一页上无限期挂起...我想尝试这个页面(http://pleac.sourceforge.net/pleac_python/datesandtimes.html)它确实有很多日期,我想抓住所有这些日期.我不明白为什么它在其他页面上没有悬挂...为什么我的正则表达式挂起和/或我怎么能清理它以使它更好/更有效?

Python代码:

monthnames = "(?:Jan\w*|Feb\w*|Mar\w*|Apr\w*|May|Jun\w?|Jul\w?|Aug\w*|Sep\w*|Oct\w*|Nov(?:ember)?|Dec\w*)"

pattern1 = re.compile(r"(\d{1,4}[\/\\\-]+\d{1,2}[\/\\\-]+\d{2,4})")

pattern4 = re.compile(r"(?:[\d]*[\,\.\ \-]+)*%s(?:[\,\.\ \-]+[\d]+[stndrh]*)+[:\d]*[\ ]?(PM)?(AM)?([\ \-\+\d]{4,7}|[UTCESTGMT\ ]{2,4})*"%monthnames, re.I)

patterns = [pattern4, pattern1]

for pattern in patterns:
    print re.findall(pattern, s)
Run Code Online (Sandbox Code Playgroud)

顺便说一句...当我说我试图反对这个网站..我正在尝试它反对网页来源.

python regex

3
推荐指数
1
解决办法
3401
查看次数

Web2Py工作目录

好吧,我想使用WEb2Py,因为它非常好..我只需要将工作目录更改为我所有模块/库/应用程序所在的目录,以便我可以使用它们.我希望能够在使用web2py接口/应用程序时导入我的真实程序.我需要这样做,而不是把我的所有应用程序和东西放在Web2Py文件夹中...我试图给我的程序一个Web前端而不将程序放在Web2Py文件夹中...抱歉,如果这很难理解.

python directory web2py

3
推荐指数
1
解决办法
1612
查看次数