标签: openrefine

Grel适用于所有列或当前列

我有一个转置,我想应用于多列.生成的Grel显示columnName或Base名称,但这意味着我必须编辑每列的代码.以为有一种方法可以找到列索引,并且具有适用于"当前"列的代码,按索引或所有列的列列表.

具体来说,我想修剪空格并有20多列.

探索了foreach和row.index但找不到像列索引这样的东西.

openrefine

9
推荐指数
1
解决办法
195
查看次数

使用带URL和Google Refine/OpenRefine的POST方法

OpenRefine http://openrefine.org/允许使用GREL作为令牌生成URL.我想连接到只支持POST方法的API.我可以格式化URL,以便使用POST调用REST API吗?参考:https://github.com/OpenRefine/OpenRefine/wiki/Fetching-URLs-From-Web-Services

rest openrefine

8
推荐指数
1
解决办法
510
查看次数

Google Refine中的Value.match()正则表达式

我试图从Google Refine的列中提取一系列数字.这是我的代码:

value.match(/[\d]+/)[0]
Run Code Online (Sandbox Code Playgroud)

我的专栏中的数据格式为

abcababcabc 1234566 abcabcbacdf
Run Code Online (Sandbox Code Playgroud)

结果为"null".我不知道为什么!!如果不是\d我尝试,它也是null \w.

regex openrefine

7
推荐指数
1
解决办法
4127
查看次数

openrefine标志改变了行

我正在使用openrefine来清理excel数据集.我有大约70个操作,我一直在剪切和粘贴不同的数据集.我保持记录ID并导出到新的Excel工作表.然后我使用记录ID重新加载工作表.

它运行良好,但即使只有少数记录发生变化,我也必须重新加载整个数据库.是否有一种简单的方法来标记更改的记录,因此我只将已更改的记录导出/导入应用程序?

我可以轻松地在70个操作中添加标记以仅标记已更改的记录吗?

opendata openrefine data-cleaning

6
推荐指数
1
解决办法
93
查看次数

如何解决 IncompleteClassChangeError 接口未实现

我知道这个问题已经被问到了,但不知何故,在谷歌搜索大约一个小时后我找不到任何令人信服的解决方案。

我正在使用 apache-jena 从 url 加载 RDF 模型。我收到IncompatibleClassChangeError以下消息

Class org.apache.http.impl.client.SystemDefaultHttpClient does not implement the requested interface org.apache.http.client.HttpClient
Run Code Online (Sandbox Code Playgroud)

有人可以指点我如何解决这个错误。

问候阿山

java jena openrefine apache-jena

6
推荐指数
1
解决办法
1万
查看次数

Google Refine:迭代JSON字典

我在Google Refine中有一些JSON - 完整版的http://mapit.mysociety.org/point/4326/0.1293497,51.5464828,但缩写为:

{1234: {'name': 'Barking', 'type': 'WMC'},
 5678: {'name': 'England', 'type': 'EUR'} }
Run Code Online (Sandbox Code Playgroud)

我只想用(假定的唯一)类型提取对象的名称WMC.

在Google Refine解析JSON没有帮助,这与数组有关,而不是说.

有什么建议我应该考虑解决这个问题吗?


编辑:我不知道初始密钥是什么:我相信它们是我无法提前预测的唯一标识符.

json dictionary openrefine

5
推荐指数
1
解决办法
869
查看次数

提取包含在openrefine中的字符串的html标签?

标题中没有太多添加。这就是我想要做的。有什么建议么?

我在github上查看了文档,并在Google上进行了广泛的搜索。

我最好的是:

value.parseHtml().select('p[contains('xyz')]')
Run Code Online (Sandbox Code Playgroud)

这会导致语法错误。

html openrefine

5
推荐指数
1
解决办法
379
查看次数

简单的 OpenRefine IF 来创建一个新列

我正在尝试创建一个包含 true 或 false 的新列。基本上,A 列中有一个数字,介于 1 和 6 之间,如果它高于 3,我希望新列“匹配”包含真,否则包含假。在尝试以下 GREL 时使用基于列的添加列

if(value > 5, "True", "False")
Run Code Online (Sandbox Code Playgroud)

这基本上导致一切都是假的。

我知道我的 IF 语句是正确的,因为以下有效

if(value.length() > 1, "Double", "Single")
Run Code Online (Sandbox Code Playgroud)

我只是困惑为什么如果 Value 大于 5 不起作用,它显然缺少某些东西,但我似乎无法在文档中指出它。

openrefine grel

5
推荐指数
1
解决办法
6145
查看次数

如何有效使用OpenCorporates Reconciliation API?

如何使用opencorp API?例如

据网站称:

Open Refine Reconciliation API 允许 OpenRefine 用户将公司名称与合法的公司实体进行匹配。当您拥有包含大量公司的现有电子表格或数据集时,这尤其有用。通过与法人实体匹配(或协调),您可以获取有关公司的更多信息(例如注册地址或法定文件),并且可以更轻松地与其他数据集匹配或与其他组织交换。

遵循文档:文档

我可以在邮递员中运行 GET 查询,如下所示:

https://opencorporates.com/reconcile/suggest?prefix=AMAZON

甚至搜索特定区域内的公司。

这在个别情况下非常好且有用,但我有两个问题。

1)我如何将其推广到更大的数据集。

2)根据网站,它还说:

与法人实体匹配(或协调)可以让您获得有关公司的更多信息(例如注册地址或法定备案)。

我如何访问这些信息?

文档中的 GET 响应不显示此信息。

python get python-requests openrefine postman

5
推荐指数
1
解决办法
1052
查看次数

替换单元格中的空值

我无法替换单元格中的空值。我创建了一个分面来仅显示具有空值的单元格。然后我去编辑单元格>转换功能并尝试使用替换功能,但它似乎不起作用。

我尝试过的不同的事情:

replace(value, null, 'other_text')
replace(value, 'null', 'other_text')
Run Code Online (Sandbox Code Playgroud)

我希望将空值替换为“其他文本”

截屏:

在此处输入图片说明

openrefine

5
推荐指数
1
解决办法
2579
查看次数