Openrefine：通过计数对文本进行分面

Question

我有一个巨大的文件，主要由书籍元数据（作者、标题、日期、网址）组成。我的问题是，我想对作者姓名（经常重复：一个作者可以有数百条记录）进行操作，并且我想对这些作者中拥有超过 X 条记录的子集进行操作。

例如，我有 200 条与“William Shakespeare”相关的记录，但只有一条 1 记录“John Black”等。重点是，作为一个经典的幂律，我有数十万个作者，其中大多数为 1 -2条记录。

使用“文本方面”>“计数”是不可能的，因为我的计算机死机了。

是否有一个查询仅根据某些记录的计数来获取其文本方面？

Answer 1

使用以下 GREL 表达式创建自定义文本构面（替换COLUMNS_NAME为您的实际列名称）：

facetCount(value, "value", "COLUMN_NAME") > 100

您可以编辑比较（在示例中，每个计数都大于 100）。

要仅显示精确的计数匹配，您需要使用两个，==如下所示：

facetCount(value, "value", "COLUMN_NAME") == 100

有关此视频的更多详细信息+ 逐个面计数的教程