小编Len*_*ena的帖子

如何将自定义符号添加到 spaCy 的标点符号功能?

是否有任何选项可以添加自定义标点符号,默认标点符号规则中不包含这些符号?( https://github.com/explosion/spaCy/blob/develop/spacy/lang/de/punctuation.py )

我正在使用 spaCy 的 Matcher 类(https://spacy.io/usage/rule-based-matching)和属性“IS_PUNCT”从我的文本中删除标点符号。

from spacy.matcher import Matcher

# instantiate Matcher
matcher = Matcher(nlp.vocab)

# define pattern
pattern = [{"IS_PUNCT": False}]

# add pattern to matcher
matcher.add("Cleaning", None, pattern)
Run Code Online (Sandbox Code Playgroud)

我想自定义标点规则以能够删除“|” 从我与 Matcher 的文本中。

python nlp spacy

2
推荐指数
1
解决办法
645
查看次数

Google Big Query 检查 json 密钥是否存在

我有一个 Google Big Query Table 列,其中包含一个 json 字符串。随着时间的推移,这个 json 字符串中引入了新的键。

time              col_b     
--------------------------------------------------
timestamp3        {"key1": "value", "key2": "value"}
timestamp2        {"key1": "value"}
timestamp1        {"key1": "value"}
Run Code Online (Sandbox Code Playgroud)

如何提取 key2 并在它不存在的情况下填充 NaN?我想到了类似的事情:

SELECT 
    JSON_EXTRACT(col_b, "$.key2) AS key2
FROM db;
Run Code Online (Sandbox Code Playgroud)

这样做会引发错误,因此它认为应该是双精度值而不是字符串导致空值。

Bad double type: value
Run Code Online (Sandbox Code Playgroud)

如何提前检查key2是否存在,如果不存在则填充null?

sql json google-bigquery

2
推荐指数
1
解决办法
4198
查看次数

标签 统计

google-bigquery ×1

json ×1

nlp ×1

python ×1

spacy ×1

sql ×1