标签: text-segmentation

\ufeff\u4eca\u65e5\u306f\u30d1\u30bd\u30b3\u30f3\u3092\u8cb7\u3063\u305f\u3002\u9ad8\u6027\u80fd\u306e\u30de\u30c3\u30af\u306f\u65e9\u3044\uff01\u3068\u3066\u3082\u5feb\u9069\u3067\u3059\u3002

Run Code Online (Sandbox Code Playgroud)

这是我更改的示例的一部分:static void sentenceExamples(){

  Locale currentLocale = new Locale ("ja","JP");
  BreakIterator sentenceIterator = 
     BreakIterator.getSentenceInstance(currentLocale);
  String someText = "???????????????????????????????";

Run Code Online (Sandbox Code Playgroud)

当我看到边界指数时,我看到了这个:

0|13|24|32

Run Code Online (Sandbox Code Playgroud)

但这些指数与任何句子终结者都不对应.

java string nlp text-segmentation

Mik*_*ler

2013 02-24

7
推荐指数

1
解决办法

2448
查看次数

如何从输入中获取句号？

在文本中检测句子边界似乎很难.引号如.!？可能会被用来分隔句子,但不是那么准确,因为可能有歧义的词语和引用,如美国或教授或博士我正在研究Tperlregex图书馆和Jan Goyvaerts的正则表达手册,但我不知道如何写出那个表达式检测句子？

在delphi中使用Tperlregex可能是比较准确的表达式？

谢谢

regex delphi nlp text-segmentation

War*_*ren

2013 01-15

7
推荐指数

1
解决办法

267
查看次数

分词统计方法

我想解决单词分裂问题(从没有空格的长字符串解析单词).对于examle我们要从中提取的话somelongword来[some, long, word].

我们可以通过使用字典的一些动态方法来实现这一点,但我们遇到的另一个问题是解析模糊性.即orcore=> or core或orc ore(我们不考虑短语含义或词性).所以我考虑使用一些统计或ML方法.

我发现Naive Bayes和带有火车组的Viterbi算法可以用来解决这个问题.你能指点一些关于这些算法应用于分词问题的信息吗？

UPD:我使用Peter Norvig的代码中的一些建议在Clojure上实现了这个方法

algorithm nlp text-segmentation

mis*_*off

2014 09-09

6
推荐指数

1
解决办法

460
查看次数

将HTML解析为句子 - 如何处理表/列表/标题/等？

你如何将带有自由文本,列表,表格,标题等的HTML页面解析成句子？

以这个维基百科页面为例.有/是:

自由文本:http://en.wikipedia.org/wiki/Neurotransmitter#Discovery
列表:http://en.wikipedia.org/wiki/Neurotransmitter#Actions
表:http://en.wikipedia.org/wiki/Neurotransmitter#Common_neurotransmitters

在搞乱了python NLTK之后,我想测试所有这些不同的语料库注释方法(来自http://nltk.googlecode.com/svn/trunk/doc/book/ch11.html#deciding-which-layers-注释 - 包括):

单词标记化:正文形式的文本不能明确地标识其标记.除了传统的正交版本之外,标记化和标准化版本可以是非常方便的资源.
句子分割:正如我们在第3章中看到的那样,句子分割可能比看起来更难.因此,一些语料库使用显式注释来标记句子分割.
段落分段:段落和其他结构元素(标题,章节等)可以明确注释.
词性:文档中每个单词的句法类别.
句法结构:显示句子组成结构的树形结构.
浅层语义:命名实体和共同引用注释,语义角色标签.
对话与话语:对话行为标签,修辞结构

一旦你将文档分成句子,它似乎非常简单.但是,如何从维基百科页面中删除类似HTML的内容呢？我非常熟悉使用HTML/XML解析器和遍历树,我尝试剥离HTML标记以获取纯文本,但由于删除HTML后缺少标点符号,NLTK不会解析表格单元格之类的内容,甚至列表,正确.

是否有一些最佳实践或策略来解析NLP的东西？或者您只需手动编写特定于该单个页面的解析器？

只是寻找正确方向的一些指针,真的想尝试这个NLTK!

html python nlp nltk text-segmentation

Lan*_*ard

2014 09-08

6
推荐指数

1
解决办法

1813
查看次数

如何将段落分成句子？

请看下面的内容.

String[]sentenceHolder = titleAndBodyContainer.split("\n|\\.(?!\\d)|(?<!\\d)\\.");

Run Code Online (Sandbox Code Playgroud)

这就是我试图将一个段落分成句子的方式.但有个问题.我的段落包括日期,如Jan. 13, 2014单词U.S和数字2.2.他们都被上面的代码分开了.所以基本上,这个代码分裂了许多"点",无论它是否完全停止.

我试着String[]sentenceHolder = titleAndBodyContainer.split(".\n");和String[]sentenceHolder = titleAndBodyContainer.split("\\.");为好.都失败了.

如何"恰当地"将一个段落分成句子？

java regex string split text-segmentation

Pea*_*Gen

2017 10-17

6
推荐指数

2
解决办法

1万
查看次数

您如何自定义文本分割以使图不间断？

作品：

#!/usr/bin/env python3
from uniseg.graphemecluster import grapheme_clusters
def albanian_digraph_dh(s, breakables):
    for i, breakable in enumerate(breakables):
        if s.endswith('d', 0, i) and s.startswith('h', i):
            yield 0
        else:
            yield breakable

print(list(grapheme_clusters('dhelpëror', albanian_digraph_dh)))
#['dh', 'e', 'l', 'p', 'ë', 'r', 'o', 'r']

Run Code Online (Sandbox Code Playgroud)

需要改进/定制：

perl -C -Mutf8 -mUnicode::GCString -E'
    say join " ", Unicode::GCString
        ->new("dhelpëror")->as_array
'
#d h e l p ë r o r

perl6 -e'"dhelpëror".comb.say'
#(d h e l p ë r o r)

Run Code Online (Sandbox Code Playgroud)

注意：编写自己的细分（几乎可以保证不会正确实现UAX＃29）算是避免问题的方法。

unicode perl perl6 text-segmentation raku

dax*_*xim

2019 11-26

6
推荐指数

1
解决办法

170
查看次数