是否有任何选项可以添加自定义标点符号,默认标点符号规则中不包含这些符号?( https://github.com/explosion/spaCy/blob/develop/spacy/lang/de/punctuation.py )
我正在使用 spaCy 的 Matcher 类(https://spacy.io/usage/rule-based-matching)和属性“IS_PUNCT”从我的文本中删除标点符号。
from spacy.matcher import Matcher
# instantiate Matcher
matcher = Matcher(nlp.vocab)
# define pattern
pattern = [{"IS_PUNCT": False}]
# add pattern to matcher
matcher.add("Cleaning", None, pattern)
Run Code Online (Sandbox Code Playgroud)
我想自定义标点规则以能够删除“|” 从我与 Matcher 的文本中。
我有一个 Google Big Query Table 列,其中包含一个 json 字符串。随着时间的推移,这个 json 字符串中引入了新的键。
time col_b
--------------------------------------------------
timestamp3 {"key1": "value", "key2": "value"}
timestamp2 {"key1": "value"}
timestamp1 {"key1": "value"}
Run Code Online (Sandbox Code Playgroud)
如何提取 key2 并在它不存在的情况下填充 NaN?我想到了类似的事情:
SELECT
JSON_EXTRACT(col_b, "$.key2) AS key2
FROM db;
Run Code Online (Sandbox Code Playgroud)
这样做会引发错误,因此它认为应该是双精度值而不是字符串导致空值。
Bad double type: value
Run Code Online (Sandbox Code Playgroud)
如何提前检查key2是否存在,如果不存在则填充null?