标签: analyzer

什么lucene分析仪可用于处理日文文本?

哪个lucene分析仪可以用来正确处理日文?它应该能够处理汉字,平假名,片假名,罗马字及其任何组合.

java lucene internationalization analyzer

8
推荐指数
1
解决办法
3147
查看次数

Field.Index.NOT_ANALYZED_NO_NORMS的含义是什么

我知道什么没有分析意味着什么.简而言之,该字段不会被指定的Analyzer标记.

但是,NO_NORMS意味着什么?我看到了文档,但请用简单的英语解释我.什么是索引时间字段和文档提升字段长度规范化

lucene indexing analyzer

8
推荐指数
1
解决办法
2825
查看次数

为Elasticsearch规范英国和美国英语

在Elasticsearch中是否存在使英国和美国英语正常化的最佳实践?

使用同义词令牌过滤器需要非常长的配置文件.在英国和美国英语中实际上有几千个拼写不同的单词,而且几乎不可能找到一个非常全面的单词列表.这里有近2000个单词列表,但它还远未完成.

最好是,我想创建一个ES分析器/过滤器,其中包含将美国转换为英国英语的规则.也许这是更好的方法,但我不知道从哪里开始 - 我需要哪种类型的过滤器?它不必涵盖所有内容 - 它应该只是标准化大多数搜索术语.例如"灰色" - "灰色","颜色" - "颜色","中心" - "中心"等.

spelling normalize filter analyzer elasticsearch

8
推荐指数
1
解决办法
832
查看次数

换行符或标点符号作为弹性搜索中的位置间隙

在弹性搜索中,有没有办法设置一个分析器,当遇到换行符或标点符号时会在标记之间产生位置间隙?

假设我使用以下无意义字符串(带换行符)作为其字段之一来索引对象:

The quick brown fox runs after the rabbit.
Then comes the jumpy frog.
Run Code Online (Sandbox Code Playgroud)

标准分析仪将生成以下具有相应位置的标记:

0 the
1 quick
2 brown
3 fox
4 runs
5 after
6 the
7 rabbit
8 then
9 comes
10 the
11 jumpy
12 frog
Run Code Online (Sandbox Code Playgroud)

这意味着match_phrase查询the rabbit then comes将匹配此文档作为匹配.有没有办法引进之间的位置差距rabbitthen使,除非它不匹配slop的出台?

当然,一种解决方法可能是将单个字符串转换为数组(每个条目一行)并position_offset_gap在字段映射中使用,但我真的宁愿用换行符保留一个字符串(并且最终的解决方案将涉及换行符的更大位置间隙比如标点符号).

analyzer elasticsearch

8
推荐指数
1
解决办法
1547
查看次数

线程转储分析器

你知道一些好的线程转储分析工具吗?完美将是:

  • 自由
  • 可以读取一些线程转储并进行比较
  • 指出哪些线程占用时间最长,线程锁定的类是什么等等.
  • 显示线程,锁,死锁和等待获取单个锁的多个线程

编辑:

  • 离线分析 - 使用一个或多个线程转储加载文件并对其进行分析.

编辑: 我的选择是:武士.它具有我需要的所有功能:加载日志文件,并比较几个线程转储.分析它并指出:

  • 等待线程
  • 被阻止的线程
  • 阻止线程
  • 僵局

我会回答问题,因为TDA是给出的最佳答案.

java multithreading thread-dump analyzer

7
推荐指数
1
解决办法
2万
查看次数

如何使用sklearn CountVectorizer同时使用'word'和'char'分析器? - 蟒蛇

如何使用sklearn CountVectorizer同时使用'word'和'char'分析器? http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html

我可以通过单词或字符分别提取文本功能,但我如何创建charword_vectorizer?有没有办法结合矢量化器?或使用多个分析仪?

>>> from sklearn.feature_extraction.text import CountVectorizer
>>> word_vectorizer = CountVectorizer(analyzer='word', ngram_range=(1, 2), min_df=1)
>>> char_vectorizer = CountVectorizer(analyzer='char', ngram_range=(1, 2), min_df=1)
>>> x = ['this is a foo bar', 'you are a foo bar black sheep']
>>> word_vectorizer.fit_transform(x)
<2x15 sparse matrix of type '<type 'numpy.int64'>'
    with 18 stored elements in Compressed Sparse Column format>
>>> char_vectorizer.fit_transform(x)
<2x47 sparse matrix of type '<type 'numpy.int64'>'
    with 64 stored elements in Compressed Sparse Column format>
>>> char_vectorizer.get_feature_names()
[u' ', …
Run Code Online (Sandbox Code Playgroud)

python machine-learning text-analysis analyzer scikit-learn

7
推荐指数
1
解决办法
9137
查看次数

无法在Visual Studio 2015中运行代码分析分析器

我将nuget中的Microsoft.CodeAnalysis.CSharp.FxCopAnalyzers安装到一个项目中.

在此输入图像描述

它安装的项目是一个现有的项目,建立在Framework 4.5.1之上.

代码分析已在项目中启用...

在此输入图像描述

...我在Build out put和错误窗口中看到了CA警告,因此我认为规则集是有效的.

但是我似乎无法从分析仪中看出来,我似乎无法找到这个图标在文档中的含义:

分析仪

右键单击Analyzers节点并选择Open Active Rule Set我可以看到FxCop分析器应该使用的CA规则:

活动规则集

检查DLL的位置,它在nuget文件夹中按预期方式:

在此输入图像描述

code-analysis fxcop analyzer roslyn visual-studio-2015

7
推荐指数
1
解决办法
6625
查看次数

Elasticsearch:点击Hashtag搜索结果

我有一个标签在骆驼案例中的标签,如#teamIndia.现在当点击这个标签时,它应该获取其中包含"#teamIndia"的所有结果,它应首先显示带有"#teamIndia"的结果,然后使用"teamIndia"然后"team India"然后"team"或"印度"等.

我在做什么:

搜索文字: "#teamIndia","#NEWYORK","#jobis","#2016"

POST /clip
{
    "settings": {
        "analysis": {
            "char_filter" : {
                "space_hashtags" : {
                    "type" : "mapping",
                    "mappings" : ["#=>|#"]
                }
            },
            "filter": {
                "substring": {
                    "max_gram": "20",
                    "type": "nGram",
                    "min_gram": "1",
                    "token_chars": [
                        "whitespace"
                    ]
                },
                "camelcase": {
                    "type": "word_delimiter",
                    "type_table": ["# => ALPHANUM", "@ => ALPHANUM"]
                },
                "stopword": {
                    "type":       "stop",
                    "stopwords": ["and", "is", "the"]
                }
            },
            "analyzer": {
                "substring_analyzer": {
                    "filter": [
                        "lowercase",
                        "substring"
                    ],
                    "tokenizer": "standard"
                },
                "camelcase_analyzer": {
                    "type" : "custom", …
Run Code Online (Sandbox Code Playgroud)

camelcasing analyzer elasticsearch

7
推荐指数
1
解决办法
1341
查看次数

如何在没有nuget或VSIX的情况下为项目添加自定义代码分析器?

我想在Visual Studio 2015中为C#ConsoleApplication编写自定义代码分析器.出于这个原因,我不想在模板中创建一个单独的"带代码修复分析器"项目,因为这需要在我的项目中将此分析器添加为nuget包.

在此输入图像描述
是否可以手动添加分析仪参考?我想参考没有nuget的分析仪.

c# analyzer roslyn visual-studio-2015

7
推荐指数
2
解决办法
1272
查看次数

Dart 分析服务器已终止

我在 Flutter 中开发了 1 年,在启动 IntelliJ IDEA 后突然遇到这个错误。Dart 分析已停止工作。分析代码的唯一方法是通过,dart analyze lib/这是非常不方便的。

有谁知道这是什么原因造成的吗?

Dart分析问题

堆栈溢出

版本信息

  • 飞镖 SDK 2.10.2
  • 达特 IntelliJ 202.7319.5
  • IntelliJ IDEA 2020.2.3
  • Mac OS X 10.15.7

细节

堆栈溢出

#0      Driver._captureExceptions.errorFunction (package:analysis_server/src/server/driver.dart:732:7)
#1      _CustomZone.handleUncaughtError (dart:async/zone.dart:1076:19)
#2      _CustomZone.runGuarded (dart:async/zone.dart:999:7)
#3      _CustomZone.bindCallbackGuarded.<anonymous closure> (dart:async/zone.dart:1037:23)
#4      _microtaskLoop (dart:async/schedule_microtask.dart:41:21)
#5      _startMicrotaskLoop (dart:async/schedule_microtask.dart:50:5)
#6      _Timer._runTimers (dart:isolate-patch/timer_impl.dart:125:20)
#7      _RawReceivePortImpl._handleMessage (dart:isolate-patch/isolate_patch.dart:168:12)
#8      _Timer._runTimers (dart:isolate-patch/timer_impl.dart:125:20)
#9      _RawReceivePortImpl._handleMessage (dart:isolate-patch/isolate_patch.dart:168:12)
#10     _CustomZone.runGuarded (dart:async/zone.dart:1093:19)
#11     _CustomZone.bindCallbackGuarded.<anonymous closure> (dart:async/zone.dart:1037:23)
#12     _microtaskLoop (dart:async/schedule_microtask.dart:41:21)
#13     _startMicrotaskLoop (dart:async/schedule_microtask.dart:50:5)
#14     _Timer._runTimers (dart:isolate-patch/timer_impl.dart:125:20)
#15 …
Run Code Online (Sandbox Code Playgroud)

intellij-idea analyzer dart flutter

7
推荐指数
1
解决办法
7127
查看次数