小编sea*_*ieb的帖子

在Python中简单实现N-Gram,tf-idf和余弦相似性

我需要比较存储在数据库中的文档,并得出0到1之间的相似性得分.

我需要使用的方法必须非常简单.实现n-gram的vanilla版本(可以定义要使用的克数),以及tf-idf和余弦相似度的简单实现.

有没有可以做到这一点的程序？或者我应该从头开始写这个？

python document tf-idf n-gram vsm

sea*_*ieb

2012 10-26

52
推荐指数

3
解决办法

4万
查看次数

使用Beautiful Soup剥离HTML时保留空间

from BeautifulSoup import BeautifulSoup

html = "<html><p>Para 1. Words</p><p>Merge. Para 2<blockquote>Quote 1<blockquote>Quote 2</p></html>"
print html
soup = BeautifulSoup(html)
print u''.join(soup.findAll(text=True))

Run Code Online (Sandbox Code Playgroud)

这段代码的输出是"Para 1 WordsMerge.Para 2Quote 1Quote 2".

我不希望第一段的最后一句与第二段的第一个词合并.例如."Para 1 Words Merge.Para 2引用1引用2".可以使用BeautifulSoup库实现吗？

html python beautifulsoup

sea*_*ieb

lucky-day

7
推荐指数

2
解决办法

2533
查看次数

计算30天垃圾箱中的行数

我表中的每一行都有一个日期时间戳,我希望从现在起查询数据库,计算过去30天内的行数,前30天的行数等等.直到有30天的垃圾箱回到桌子的开头.

我已经成功地使用Python并进行了多次查询来执行此查询.但我几乎可以肯定它可以在一个MySQL查询中完成.

mysql select datediff count

sea*_*ieb

2013 01-07

6
推荐指数

1
解决办法

1594
查看次数

标签统计

python ×2

beautifulsoup ×1

count ×1

datediff ×1

document ×1

html ×1

mysql ×1

n-gram ×1

select ×1

tf-idf ×1

vsm ×1

在Python中简单实现N-Gram,tf-idf和余弦相似性

使用Beautiful Soup剥离HTML时保留空间

计算30天垃圾箱中的行数

标签 统计

小编sea_ieb的帖子

标签统计