在上一个问题中,我向社区询问如何计算句子中每个连续两个单词的频率,我得到了一个很好的答案!现在我正在尝试使用包pytagcloud从结果中构建一个词云.
我所遇到的问题是所产生的图片很拥挤,而且文字也在一起扫描.任何想法是否有一个功能来分离单词并使它们可读或如果有任何替代方法在python中这样做.
谢谢!
我的代码是吼叫.这是我用于测试的文本的链接我尝试使用较少数量的单词组合,但这并没有改变图片中文本的拥挤度.
我还添加了一些功能,如玩"布局"和"大小"和"fontname ='龙虾'和fontzoom = 1",但没有一个给出最佳结果,这是一个干净的词云图片,其中的单词不拥挤.
import operator
import urllib2
from roundup.backends.indexer_common import STOPWORDS
import requests, collections, bs4
Data = "TEXT FROM The link above- TEXT file"
two_words = [' '.join(ws) for ws in zip(Data, Data[1:])]
wordscount = {w:f for w, f in Counter(two_words).most_common() if f > 12}
sorted_wordscount = sorted(wordscount.iteritems(), key=operator.itemgetter(1))
print sorted_wordscount;
from pytagcloud import create_tag_image, create_html_data, make_tags, LAYOUT_HORIZONTAL, LAYOUTS, LAYOUT_MIX, LAYOUT_VERTICAL, LAYOUT_MOST_HORIZONTAL, LAYOUT_MOST_VERTICAL
from pytagcloud.colors import COLOR_SCHEMES
from pytagcloud.lang.counter import get_tag_counts …Run Code Online (Sandbox Code Playgroud) 我正在尝试在 Windows 上运行的 Python 中创建词云。我已经尝试过以下软件包,但它们似乎对我不起作用:
如果有人能指出我正确的方向,我将不胜感激。