小编fds*_*yre的帖子

确定特定术语的词频

我是一名非计算机科学专业的学生,​​正在撰写历史论文,涉及确定多个文本中特定术语的频率,然后随着时间的推移绘制这些频率以确定变化和趋势.虽然我已经想出如何确定给定文本文件的单词频率,但我正在处理(相对来说,对我来说)大量文件(> 100),并且为了一致性,我希望限制频率计数中包含的单词到一组特定的术语(有点像"停止列表"的反面)

这应该保持非常简单.最后,我需要的是我处理的每个文本文件的特定单词的频率,最好是电子表格格式(制表符描述文件),这样我就可以使用该数据创建图形和可视化.

我日常使用Linux,使用命令行很舒服,并且喜欢开源解决方案(或者我可以用WINE运行的东西).但这不是一个要求:

我看到两种解决这个问题的方法:

  1. 找到一种方法去除文本文件中的所有单词除了预定义列表,然后从那里进行频率计数,或者:
  2. 找到一种方法,仅使用预定义列表中的术语进行频率计数.

有任何想法吗?

linux text analysis frequency word-frequency

14
推荐指数
1
解决办法
5181
查看次数

标签 统计

analysis ×1

frequency ×1

linux ×1

text ×1

word-frequency ×1