Tyl*_*ker 5 algorithm statistics text cluster-analysis
假设我在一段aprox期间有一个对话的文本记录.1小时.我想知道在彼此密切接近的情况下会发生什么样的话.我将使用什么类型的统计技术来确定哪些词聚集在一起以及它们彼此之间的接近程度如何?
我怀疑某种聚类分析或PCA.
要确定单词的邻近度,您必须构建一个图表:
所以“我喜欢狗”有 2 个边和 3 个顶点。
现在,下一步将根据此模型决定“关闭”的定义是什么。
这就是统计数据的用武之地。
确定相关词的“组”
MCL 聚类 - 这将为您提供许多聚类,这些聚类在算法上被看到在一起的可能性很高。
K MEANS 聚类 - 这将为您提供“k”组单词。
阈值——这是最可靠、最直观的方法。绘制您理解的一小部分数据(例如,您读过的新闻剪辑或文章中的段落)的所有关系,并运行您的方法来生成图表,并使用 graphviz 或 cytoscape 等工具可视化该图表。一旦你看到了相关性,你就可以计算出清楚地聚集在一起的不同单词之间通常有多少条边。例如,您可能会发现,聚集在一起的两个单词每 5 个实例就会有一条边。使用它作为截止点并编写您自己的图形分析脚本,该脚本输出的单词对在顶点图中每 5 个单词实例至少有 1 个边。