如何使用 NLTK 正则表达式模式用 UP/DOWN 指标注释财经新闻？

Question

如何使用 NLTK 正则表达式模式用 UP/DOWN 指标注释财经新闻？

我正在复制本文中描述的算法：https : //arxiv.org/pdf/1811.11008.pdf

在最后一页，它使用以下示例描述了提取在标记为“NP JJ”的语法中定义的叶：营业利润率为 8.3%，而一年前为 11.8%。

我期待看到一片标有“NP JJ”的叶子，但我没有。我正在纠结为什么（对正则表达式来说相对较新。）

def split_sentence(sentence_as_string):
    ''' function to split sentence into list of words
    '''
    words = word_tokenize(sentence_as_string)

    return words

def pos_tagging(sentence_as_list):

    words = nltk.pos_tag(sentence_as_list)

    return words

def get_regex(sentence, grammar):

    sentence = pos_tagging(split_sentence(sentence));

    cp = nltk.RegexpParser(grammar) 

    result = cp.parse(sentence) 

    return result


example_sentence = "Operating profit margin was 8.3%, compared to 11.8% a year earlier."

grammar = """JJ : {< JJ.? > ?}
            V B : {< V B.? >}
            NP : {(< NNS|NN >)?}
            NP P : {< NNP|NNP S >}
            RB : {< RB.? >}
            CD : {< CD >}
            NP JJ : : {< NP|NP P > +(< (>< .? > ? <) >) ? (< IN >< DT > ? < RB > ? < JJ > ? < NP|NP P >) ? < RB > ?(< V B >< JJ >< NP >)? < V B > (< DT >< CD >< NP >) ? < NP|NP P > ? < CD > ? < .? > ? < CD > ?| < NP|NP P >< IN >< NP|NP P >< CD >< .? > ? <, >< V B > < IN >< NP|NP P >< CD >}"""

grammar = grammar.replace('?','*')

tree = get_regex(example_sentence, grammar)

print(tree)

Run Code Online (Sandbox Code Playgroud)

Answer 1

alv*_*vas 6

首先，请参阅如何使用 nltk 正则表达式模式提取特定短语块？

让我们看看句子的 POS 标签是什么：

from nltk import word_tokenize, pos_tag

text = "Operating profit margin was 8.3%, compared to 11.8% a year earlier."
pos_tag(word_tokenize(text))

Run Code Online (Sandbox Code Playgroud)

[出去]：

[('Operating', 'NN'),
 ('profit', 'NN'),
 ('margin', 'NN'),
 ('was', 'VBD'),
 ('8.3', 'CD'),
 ('%', 'NN'),
 (',', ','),
 ('compared', 'VBN'),
 ('to', 'TO'),
 ('11.8', 'CD'),
 ('%', 'NN'),
 ('a', 'DT'),
 ('year', 'NN'),
 ('earlier', 'RBR'),
 ('.', '.')]

Run Code Online (Sandbox Code Playgroud)

第一个陷阱！没有`JJ`任何标签的

JJ该句子中的任何 POS 中都没有标签。

让我们回到论文https://arxiv.org/pdf/1811.11008.pdf

不过想想，这`NP JJ`不是最终目标；最终目标是根据一些启发式生成`UP`或`DOWN`标签。

让我们重新表述这些步骤：

用解析器解析句子（在这种情况下，正则表达式解析器使用某种语法）
识别句子有一个模式的信号，可以说明最终标签的用途。

2a. 遍历解析树以提取另一种模式，该模式告诉我们有关性能指标和数值的信息。

2b. 使用提取的提取数值来确定方向性UP/DOWN使用一些启发式方法

2c。用(2b) 中标识的UP/标记句子Down

让我们看看我们可以先构建哪个组件。

2b. 提取另一种模式，告诉我们有关性能指标和数值的信息。

我们知道输出到某个百分比总是CD NN来自

('8.3', 'CD'), ('%', 'NN')
('11.8', 'CD'), ('%', 'NN')

Run Code Online (Sandbox Code Playgroud)

所以让我们尝试在语法中捕捉它。

patterns = """
PERCENT: {<CD><NN>}
"""

PChunker = RegexpParser(patterns)
PChunker.parse(pos_tag(word_tokenize(text)))

Run Code Online (Sandbox Code Playgroud)

[出去]：

Tree('S', [('Operating', 'NN'), ('profit', 'NN'), ('margin', 'NN'), ('was', 'VBD'), 
  Tree('PERCENT', [('8.3', 'CD'), ('%', 'NN')]), 
(',', ','), ('compared', 'VBN'), ('to', 'TO'), 
  Tree('PERCENT', [('11.8', 'CD'), ('%', 'NN')]), 
('a', 'DT'), ('year', 'NN'), ('earlier', 'RBR'), ('.', '.')])

Run Code Online (Sandbox Code Playgroud)

现在，我们如何得到这个：

识别句子有一个模式的信号，可以说明最终标签的用途。

我们知道这<PERCENT> compared to <PERCENT>是一个很好的模式，所以让我们尝试对其进行编码。

我们知道compared to有标签VBN TO来自

 ('8.3', 'CD'),
 ('%', 'NN'),
 (',', ','),
 ('compared', 'VBN'),
 ('to', 'TO'),
 ('11.8', 'CD'),
 ('%', 'NN'),

Run Code Online (Sandbox Code Playgroud)

这个怎么样：

patterns = """
PERCENT: {<CD><NN>}
P2P: {<PERCENT><.*>?<VB.*><TO><PERCENT>}
"""

PChunker = RegexpParser(patterns)
PChunker.parse(pos_tag(word_tokenize(text)))

Run Code Online (Sandbox Code Playgroud)

[出去]：

Tree('S', [('Operating', 'NN'), ('profit', 'NN'), ('margin', 'NN'), ('was', 'VBD'), 
           Tree('P2P', [
               Tree('PERCENT', [('8.3', 'CD'), ('%', 'NN')]), 
               (',', ','), ('compared', 'VBN'), ('to', 'TO'), 
               Tree('PERCENT', [('11.8', 'CD'), ('%', 'NN')])]
               ), 
           ('a', 'DT'), ('year', 'NN'), ('earlier', 'RBR'), ('.', '.')]
    )

Run Code Online (Sandbox Code Playgroud)

但这种模式可以是任意数字。我们需要一个信号`performance indicator`

由于我不是金融领域的领域专家，因此简单地使用的存在operating profit margin可能是一个很好的信号，即

from nltk import word_tokenize, pos_tag, RegexpParser

patterns = """
PERCENT: {<CD><NN>}
P2P: {<PERCENT><.*>?<VB.*><TO><PERCENT>}
"""

PChunker = RegexpParser(patterns)


text = "Operating profit margin was 8.3%, compared to 11.8% a year earlier."

indicators = ['operating profit margin']
for i in indicators:
    if i in text.lower():
        print(PChunker.parse(pos_tag(word_tokenize(text))))

Run Code Online (Sandbox Code Playgroud)

[出去]：

(S
  Operating/NN
  profit/NN
  margin/NN
  was/VBD
  (P2P
    (PERCENT 8.3/CD %/NN)
    ,/,
    compared/VBN
    to/TO
    (PERCENT 11.8/CD %/NN))
  a/DT
  year/NN
  earlier/RBR
  ./.)

Run Code Online (Sandbox Code Playgroud)

现在我们如何获得`UP`/ `DOWN`？

2b. 使用提取的提取数值来确定方向性 UP / DOWN 使用一些启发式

仅从例句来看，除了“更早”之外，没有其他任何东西可以告诉我们数字的先行性。

所以让我们假设一下，如果我们有模式PERCENT VBN TO PERCENT earlier，我们就说 2nd% 是一个较旧的数字。

import nltk
from nltk import word_tokenize, pos_tag, RegexpParser

patterns = """
PERCENT: {<CD><NN>}
P2P: {<PERCENT><.*>?<VB.*><TO><PERCENT><.*>*<RBR>}
"""

def traverse_tree(tree, label=None):
    # print("tree:", tree)
    for subtree in tree:
        if type(subtree) == nltk.tree.Tree and subtree.label() == label:
            yield subtree

PChunker = RegexpParser(patterns)

parsed_text = PChunker.parse(pos_tag(word_tokenize(text)))
for p2p in traverse_tree(parsed_text, 'P2P'):
    print(p2p)

Run Code Online (Sandbox Code Playgroud)

[出去]：

(P2P
  (PERCENT 8.3/CD %/NN)
  ,/,
  compared/VBN
  to/TO
  (PERCENT 11.8/CD %/NN)
  a/DT
  year/NN
  earlier/RBR)

Run Code Online (Sandbox Code Playgroud)

和`UP`/`DOWN`标签？

import nltk
from nltk import word_tokenize, pos_tag, RegexpParser

patterns = """
PERCENT: {<CD><NN>}
P2P: {<PERCENT><.*>?<VB.*><TO><PERCENT><.*>*<RBR>}
"""

PChunker = RegexpParser(patterns)


def traverse_tree(tree, label=None):
    # print("tree:", tree)
    for subtree in tree:
        if type(subtree) == nltk.tree.Tree and subtree.label() == label:
            yield subtree

def labelme(text):
    parsed_text = PChunker.parse(pos_tag(word_tokenize(text)))
    for p2p in traverse_tree(parsed_text, 'P2P'):
        # Check if the subtree ends with "earlier".
        if p2p.leaves()[-1] ==  ('earlier', 'RBR'):
            # Check if which percentage is larger. 
            percentages = [float(num[0]) for num in  p2p.leaves() if num[1] == 'CD']
            # Sanity check that there's only 2 numbers from our pattern.
            assert len(percentages) == 2
            if percentages[0] > percentages[1]:
                return 'DOWN'
            else:
                return 'UP'

text = "Operating profit margin was 8.3%, compared to 11.8% a year earlier."

labelme(text)

Run Code Online (Sandbox Code Playgroud)

现在问题引...

**你想写这么多规则并使用labelme()上面的方法来捕捉它们吗？**

你写的模式是万无一失的吗？

例如，是否存在使用指标和“较早”比较百分比的模式不会如预期那样“向上”或“向下”的情况

为什么我们要在 AI 时代编写规则？

您是否已经有人工注释的数据，其中有句子及其相应的 UP/DOWN 标签？如果是这样，让我建议像https://allennlp.org/tutorials或https://github.com/huggingface/transformers/blob/master/notebooks/03-pipelines.ipynb

归档时间：	5 年，9 月前
查看次数：	138 次
最近记录：	5 年，2 月前

如何使用 NLTK 正则表达式模式用 UP/DOWN 指标注释财经新闻？

第一个陷阱！没有JJ任何标签的

让我们回到论文https://arxiv.org/pdf/1811.11008.pdf

不过想想，这NP JJ不是最终目标；最终目标是根据一些启发式生成UP或DOWN标签。

让我们看看我们可以先构建哪个组件。

但这种模式可以是任意数字。我们需要一个信号performance indicator

现在我们如何获得UP/ DOWN？

和UP/DOWN标签？

现在问题引...

第一个陷阱！没有`JJ`任何标签的

不过想想，这`NP JJ`不是最终目标；最终目标是根据一些启发式生成`UP`或`DOWN`标签。

但这种模式可以是任意数字。我们需要一个信号`performance indicator`

现在我们如何获得`UP`/ `DOWN`？

和`UP`/`DOWN`标签？