小编dem*_*mos的帖子

Python中的HTML标签云

我正在寻找一个简单的库,可以给它一组项:值对,它可以生成标签云作为输出.

库最好是python

html python tag-cloud

6
推荐指数
1
解决办法
2736
查看次数

使用谷歌查找域的电子邮件地址?

问题陈述:

我想要包含给定域的电子邮件地址的所有页面。我不确定查询应该是什么?

我试过类似 -

@cnn.com

但这不起作用....有什么想法吗?

email google-search

5
推荐指数
1
解决办法
8972
查看次数

Python作为PDF编辑和处理框架

我正在寻找使用Python作为PDF编辑和处理框架.

有什么建议?寻找一个开源和维护良好的库

python pdf

5
推荐指数
0
解决办法
8803
查看次数

App Engine中的自定义任务队列?

我创建了一个新的任务队列,并在queue.yaml中定义了它

我不确定如何开始向此队列添加任务?

使用默认队列,这是简单的taskqueue.add(...)

我们如何为自定义队列执行此操作?

google-app-engine task-queue

4
推荐指数
1
解决办法
1148
查看次数

使用Python从HTML中提取可读文本?

我知道像html2text,BeautifulSoup等的utils,但问题是他们也提取javascript并将其添加到文本中,因此很难将它们分开.

htmlDom = BeautifulSoup(webPage)

htmlDom.findAll(text=True)
Run Code Online (Sandbox Code Playgroud)

交替,

from stripogram import html2text
extract = html2text(webPage)
Run Code Online (Sandbox Code Playgroud)

这两个都提取了页面上的所有javascript,这是不受欢迎的.

我只是想要提取您可以从浏览器中复制的可读文本.

html python text-extraction

4
推荐指数
1
解决办法
4508
查看次数

Word中使用Python的文本频率,但忽略了停用词

这给了我文本中单词的频率:

 fullWords = re.findall(r'\w+', allText)

 d = defaultdict(int)

 for word in fullWords :
          d[word] += 1

 finalFreq = sorted(d.iteritems(), key = operator.itemgetter(1), reverse=True)

 self.response.out.write(finalFreq)
Run Code Online (Sandbox Code Playgroud)

这也给了我无用的话,比如"the""an""a"

我的问题是,python中是否有一个停用词库可以删除所有这些常用词?我想在谷歌应用引擎上运行它

python google-app-engine frequency-analysis word-frequency

4
推荐指数
1
解决办法
4554
查看次数

在Google App Engine上创建大型站点地图?

我有一个大约有100,000个独特页面的网站.

(1)如何为所有这些链接创建Sitemap?我应该在大型站点地图协议兼容文件中列出它们吗?

(2)需要在Google App Engine上实现此功能,其中有1000个项目查询限制,并且我的所有单个站点URL都存储为单独的条目.我该如何解决这个问题?

sitemap google-app-engine large-data-volumes

4
推荐指数
1
解决办法
1355
查看次数

应用引擎任务能否获得运行次数的计数?

我每小时在 Google App Engine 中运行数千个任务,即使经过多次重试,其中仍有大约 0.1% 的任务失败。理想情况下,我希望他们停止尝试并退出。然而,由于应用引擎的设计,他们似乎只是一次又一次地尝试。我知道有一个退避时间,它会随着每次不成功的执行而增加,但我希望它们在 n 次完全重试后退出。

我能以某种方式完成这个吗?一个任务可以得到它运行失败的次数吗?

google-app-engine task-queue

4
推荐指数
1
解决办法
546
查看次数

接收应用引擎中的电子邮件地址计数限制

我的邮件是关于接收电子邮件到任何地址的选项,如下所示:xxx@appid.appspotmail.com:http://code.google.com/appengine/docs/python/mail/receivingmail.html

我的问题是:

  1. 是否可以使用上述格式创建并在应用程序内使用的电子邮件地址数量有限制?作为一个例子,我可能有一百万用户,并且可能有某种"邮件内"设施,其中每个用户被分配一个唯一的"xxx"id.

  2. 上述格式的地址可以接收的电子邮件数量是否有限制?我没有看到任何指定的配额限制?

email google-app-engine limit quota

4
推荐指数
1
解决办法
650
查看次数

在App Engine中将文件附加到电子邮件?

如何使用谷歌应用引擎(Python)将位于Web URL上的文件附加到电子邮件中?

我的文件位于:http://www.abc.com/files/file.pdf

我想将此附加到电子邮件中并将其发送给应用引擎上的用户.我该怎么做呢?

email url google-app-engine attachment

4
推荐指数
1
解决办法
1306
查看次数