小编MrD*_*MrD的帖子

如何在NLTK中进行依赖解析?

通过NLTK书,不清楚如何从给定的句子生成依赖树.

本书的相关部分:依赖语法的子章节给出了一个示例图,但它没有说明如何解析句子来提出这些关系 - 或者我可能缺少NLP中的一些基本内容?

编辑: 我想要类似于斯坦福解析器所做的事情:给出一句"我在睡梦中拍摄大象",它应该返回如下内容:

nsubj(shot-2, I-1)
det(elephant-4, an-3)
dobj(shot-2, elephant-4)
prep(shot-2, in-5)
poss(sleep-7, my-6)
pobj(in-5, sleep-7)
Run Code Online (Sandbox Code Playgroud)

python grammar nlp nltk

33
推荐指数
3
解决办法
4万
查看次数

SQLAlchemy ON DUPLICATE KEY UPDATE

INSERT ... ON DUPLICATE KEY UPDATE在SQLAlchemy中有一种优雅的方式吗?我的意思是语法类似的东西inserter.insert().execute(list_of_dictionaries)

python mysql sqlalchemy

29
推荐指数
2
解决办法
3万
查看次数

在不同的计算机上编译时,C++受损名称是否保持一致?

一般来说,我nm在Linux上观察到的是,T即使我不使用,符号名称(我感兴趣的)也会在不同的计算机上保持一致extern "C".我的观察是否正确?

注意我在所有计算机上都使用gcc.

c++ gcc export name-decoration

6
推荐指数
1
解决办法
394
查看次数

语言检测非常短的文本

我正在创建一个用于检测短文本语言的应用程序,平均值<100个字符并包含俚语(例如推文,用户查询,短信).

我测试的所有库都适用于普通网页,但不适用于非常短的文本.到目前为止,提供最佳结果的库是Chrome的语言检测(CLD)库,我必须将其构建为共享库.

当文本由非常短的单词组成时,CLD失败.在查看了CLD的源​​代码后,我发现它使用了4克,这可能就是原因.

我现在想的提高准确性的方法是:

  • 删除品牌名称,数字,网址和"软件","下载","互联网"等字词
  • 使用字典当文本在threashold上方包含许多短字或包含太少字时.
  • 该词典是从维基百科新闻文章+ hunspell词典创建的.

什么数据集最适合此任务?我该如何改进这种方法?

到目前为止,我正在使用EUROPARL和维基百科的文章.我正在使用NLTK完成大部分工作.

nlp nltk language-detection

4
推荐指数
2
解决办法
3452
查看次数

如何在 ReportLab 鸭嘴兽中使用 BaseDocTemplate 呈现多个页面?

我是 ReportLab 的新手,并尝试使用 Platypus 生成 PDF,其中每个部分都有不同的页面模板(以及不同的页眉和页脚)。如何在不使用 SimpleDocTemplate 的情况下使用 BaseDocTemplate 执行此操作?

我正在尝试下面的代码,但我无法显示框架的内容,除了我直接绘制到画布的第一页。为简洁起见,我删除了每个 PageTemplate 的额外格式以及页眉和页脚代码。

from reportlab.platypus import (BaseDocTemplate, Paragraph, Spacer,
                            PageBreak, Frame, PageTemplate, NextPageTemplate)
from reportlab.pdfgen import canvas
from reportlab.lib import pagesizes, units, styles, enums

class Report(object):
    def __init__(self, stream, sections):
        self.stream = stream
        self.sections = sections
        w, h = pagesizes.A4
        self._width = w
        self._height = h
        self._story = []
        self._doc = None
        self._canvas = canvas.Canvas(self.stream)
        self._stylesheet = styles.getSampleStyleSheet()

    def generate(self):
        '''Generate the report'''
        self._doc = BaseDocTemplate(self.stream,
                                    pagesize=(self._width, self._height),
                                    showBoundary=True
                                    ) …
Run Code Online (Sandbox Code Playgroud)

python pdf-generation reportlab platypus

2
推荐指数
1
解决办法
9089
查看次数