小编Mur*_*iel的帖子

在未标记的文本语料库上训练 Spacy 以提取“重要短语”

我正在寻找一种从文本文档中提取“重要短语”的方法。希望使用 Spacy 做到这一点,但有一个警告:我的数据主要包含产品信息,因此重要的短语与自然口语中的短语不同。出于这个原因,我想在我自己的语料库上训练 spacy,但我能找到的唯一信息是使用标记数据训练 spacy

有谁知道我想做的事情是否可行?

python nlp spacy

5
推荐指数
0
解决办法
144
查看次数

在 Spacy 中将文本中的换行符 (\n) 识别为句子结尾

我想将文本中的换行符识别为句子的结尾。我尝试将其输入到 nlp 对象中,如下所示:

text = 'Guest Blogging\nGuest Blogging allows the user to collect backlinks'
nlp = spacy.load("en_core_web_lg")
config = {"punct_chars": ['\n']}
nlp.add_pipe("sentencizer", config=config)
for sent in nlp(text).sents:
    print('next sentence:')
    print(sent)
Run Code Online (Sandbox Code Playgroud)

其输出是:

next sentence:
Guest Blogging
Guest Blogging allows the user to collect backlinks
Run Code Online (Sandbox Code Playgroud)

我不明白为什么 Spacy 不将换行符识别为句子结尾。我想要的输出是:

next sentence:
Guest Blogging:
next sentence:
Guest Blogging allows the user to collect backlinks
Run Code Online (Sandbox Code Playgroud)

有谁知道如何实现这一目标?

spacy

5
推荐指数
1
解决办法
1756
查看次数

SQL根据解析函数过滤查询结果

我想找到一种有效的方法来过滤RANK() OVERSQL 中的函数。

我有以下查询:

SELECT
    base.ITEM_SKU_NBR,
    RANK() OVER (ORDER BY SUM(base.NET_SLS_AMT) DESC) AS SLS_rank,
    RANK() OVER (ORDER BY COUNT(DISTINCT base.txn_id) DESC) AS txn_rank
FROM
    `my_table` base
GROUP BY
    1
Run Code Online (Sandbox Code Playgroud)

返回此结果集:

在此输入图像描述

现在我想过滤 is SLS_rank< 10 或txn_rankis < 10 的项目。理想情况下,我想在HAVING子句中执行此操作,如下所示:

SELECT
    base.ITEM_SKU_NBR,
    RANK() OVER (ORDER BY SUM(base.NET_SLS_AMT) DESC) AS SLS_rank,
    RANK() OVER (ORDER BY COUNT(DISTINCT base.txn_id) DESC) AS txn_rank
FROM
    `my_table` base
GROUP BY
    1
HAVING   
    SLS_rank < 10 OR txn_rank < 10
Run Code Online (Sandbox Code Playgroud)

但 bigquery …

sql having google-bigquery

3
推荐指数
1
解决办法
1839
查看次数

标签 统计

spacy ×2

google-bigquery ×1

having ×1

nlp ×1

python ×1

sql ×1