Lar*_* M. 2 openrefine clusterize
我有一个巨大的文件,主要由书籍元数据(作者、标题、日期、网址)组成。我的问题是,我想对作者姓名(经常重复:一个作者可以有数百条记录)进行操作,并且我想对这些作者中拥有超过 X 条记录的子集进行操作。
例如,我有 200 条与“William Shakespeare”相关的记录,但只有一条 1 记录“John Black”等。重点是,作为一个经典的幂律,我有数十万个作者,其中大多数为 1 -2条记录。
使用“文本方面”>“计数”是不可能的,因为我的计算机死机了。
是否有一个查询仅根据某些记录的计数来获取其文本方面?
使用以下 GREL 表达式创建自定义文本构面(替换COLUMNS_NAME为您的实际列名称):
facetCount(value, "value", "COLUMN_NAME") > 100
您可以编辑比较(在示例中,每个计数都大于 100)。
要仅显示精确的计数匹配,您需要使用两个,==如下所示:
facetCount(value, "value", "COLUMN_NAME") == 100
有关此视频的更多详细信息+ 逐个面计数的教程