每个索引批次限制为1到1000个文档。当我从本地计算机或azure VM调用它时,每1000个文档批处理有800ms到3000ms。如果我使用异步提交多个批次,则花费的时间大致相同。这意味着〜50M文档收集将花费15到20个小时。
有什么办法可以使它更快?
我使用以下自定义分析器创建索引
"analyzers":[
{
"name":"shinglewhite_analyzer",
"@odata.type":"#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters":[
"map_dash"
],
"tokenizer":"whitespace",
"tokenFilters":[
"shingle"
]
}
],
"charFilters":[
{
"name":"map_dash",
"@odata.type":"#Microsoft.Azure.Search.MappingCharFilter",
"mappings":[ "_=> " ]
}
]
Run Code Online (Sandbox Code Playgroud)
问题是来自输入的像ice_cream这样的单词与查询冰淇淋不匹配,但它与冰淇淋相匹配.有人可以帮我理解这是如何工作的,如果我做错了什么?
此外,我们想查询"冰淇淋"以匹配"冰淇淋","冰淇淋"和"冰淇淋",但有利于那些有序.