小编sea*_*ieb的帖子

在Python中简单实现N-Gram,tf-idf和余弦相似性

我需要比较存储在数据库中的文档,并得出0到1之间的相似性得分.

我需要使用的方法必须非常简单.实现n-gram的vanilla版本(可以定义要使用的克数),以及tf-idf和余弦相似度的简单实现.

有没有可以做到这一点的程序?或者我应该从头开始写这个?

python document tf-idf n-gram vsm

52
推荐指数
3
解决办法
4万
查看次数

使用Beautiful Soup剥离HTML时保留空间

from BeautifulSoup import BeautifulSoup

html = "<html><p>Para 1. Words</p><p>Merge. Para 2<blockquote>Quote 1<blockquote>Quote 2</p></html>"
print html
soup = BeautifulSoup(html)
print u''.join(soup.findAll(text=True))
Run Code Online (Sandbox Code Playgroud)

这段代码的输出是"Para 1 WordsMerge.Para 2Quote 1Quote 2".

我不希望第一段的最后一句与第二段的第一个词合并.例如."Para 1 Words Merge.Para 2引用1引用2".可以使用BeautifulSoup库实现吗?

html python beautifulsoup

7
推荐指数
2
解决办法
2533
查看次数

计算30天垃圾箱中的行数

我表中的每一行都有一个日期时间戳,我希望从现在起查询数据库,计算过去30天内的行数,前30天的行数等等.直到有30天的垃圾箱回到桌子的开头.

我已经成功地使用Python并进行了多次查询来执行此查询.但我几乎可以肯定它可以在一个MySQL查询中完成.

mysql select datediff count

6
推荐指数
1
解决办法
1594
查看次数

标签 统计

python ×2

beautifulsoup ×1

count ×1

datediff ×1

document ×1

html ×1

mysql ×1

n-gram ×1

select ×1

tf-idf ×1

vsm ×1