和雅虎的vespa.ai一起玩,我现在处于一个我很满意的搜索定义,但仍然存储着一堆垃圾测试文件.
有没有一种简单的方法可以一次删除/清除/删除所有这些,ala SQL DROP TABLE还是DELETE FROM X?
我在文档JSON格式页面中明确提到了删除文档的唯一地方.据我所知,它需要逐个删除文档,这很好,但是当一个人玩游戏时会有点麻烦.
我尝试使用默认租户通过Deploy API删除应用程序,但在发出搜索请求时数据仍然存在.
我错过了什么?或者这是设计?
我正在对使用 Vespa 作为数据库的应用程序进行负载测试。我有一些我正在做测试的样本记录。现在,当我第一次运行负载测试时,Vespa 会缓存影响我们下一个测试场景结果的查询结果。
有没有办法让我们可以禁用查询结果缓存以进行测试,然后再次启用它。
我希望在第二次运行相同的查询后从 Vespa 获得相同的响应时间。
即使我已经在我们的 Vespa 应用程序的 services.xml 文件中实现了以下代码。第二次查询的响应时间发生了巨大变化。
<content id="content" version="1.0">
<engine>
<proton>
<tuning>
<searchnode>
<summary>
<store>
<cache>
<maxsize>0</maxsize>
<compression>
<type>none</type>
</compression>
</cache>
</store>
</summary>
</searchnode>
</tuning>
</proton>
</engine>
...
</content>
Run Code Online (Sandbox Code Playgroud) 将索引的搜索定义编写为"属性"时 - 我从http://docs.vespa.ai/documentation/search-definitions.html中读到它将字段保存在内存中.基本问题是:在集群重启的情况下,这个内存中的数据是从索引重建的吗?
Vespa在集群重启的情况下需要多长时间来重建内存中的属性?(假设一个节点有2TB的数据,一半的字段被定义为"属性" - 对于mmap大约是1TB?)
在搜索定义中,struct中的字段不能具有"属性"索引.
http://docs.vespa.ai/documentation/reference/search-definitions-reference.html#field_types
此外,默认情况下,struct和maps不是属性.结果搜索定义如下所示:
struct nlp {
field token type string {
match: text //can't add indexing here
}
}
field n type nlp {
indexing: summary //can't add attribute here
}
Run Code Online (Sandbox Code Playgroud)
如何添加搜索定义,以便我们可以按"n.token"进行分组?是否可以为struct字段添加属性或索引?或者按非属性字段分组?
有没有办法获取加载到 vespa 中的所有文件?
我尝试使用正则表达式进行查询,但没有按预期工作。
select * from entity where ID matches "[.]+";
ID 不是属性,但我尝试使用属性字段,两者都没有响应任何值。
我们在索引中有60M文档.托管在4个节点集群上.
我想确保配置针对文档的聚合进行了优化.
这是示例查询:
select * from sources * where (sddocname contains ([{"implicitTransforms": false}]"tweet")) | all(group(n_tA_c) each(output(count() as(count))));
Run Code Online (Sandbox Code Playgroud)
字段n_tA_c包含字符串数组.这是示例文档:
{
"fields": {
"add_gsOrd": 63829,
"documentid": "id:firehose:tweet::815347045032742912",
"foC": 467,
"frC": 315,
"g": 0,
"ln": "en",
"m": "ya just wants some fried rice",
"mTp": 2,
"n_c_p": [],
"n_tA_c": [
"fried",
"rice"
],
"n_tA_s": [],
"n_tA_tC": [],
"sN": "long_delaney1",
"sT_dlC": 0,
"sT_fC": 0,
"sT_lAT": 0,
"sT_qC": 0,
"sT_r": 0.0,
"sT_rC": 467,
"sT_rpC": 0,
"sT_rtC": 0,
"sT_vC": 0,
"sddocname": "tweet",
"t": 1483228858608,
"u": 377606303,
"v": …Run Code Online (Sandbox Code Playgroud) 我正在使用文档引用将父字段导入子文档.虽然对父字段的搜索有效,但父字段本身似乎不包含在搜索结果中,仅包括子字段.
要使用文档中的例子,salesperson_name并没有出现在fields入门id:test:ad::1使用时query=John,或确实检索时id:test:ad::1通过GET直接.
这是我的文档模型的简化配置:
search person {
document person {
field name type string {
indexing: summary | attribute
}
}
fieldset default {
fields: name
}
}
Run Code Online (Sandbox Code Playgroud)
search event {
document event {
field code type string {
indexing: summary | attribute
}
field speaker type reference<person> {
indexing: summary | attribute
}
}
import field speaker.name …Run Code Online (Sandbox Code Playgroud) 我们正在尝试在 Vespa 中使用 ML 模型,我们在 Vespa 中存储了文本数据,有人可以帮助我们解决以下问题-
我们在 Vespa 中面临以下错误,在重新启动集群后,我们遇到了以下问题。
1600455444.680758 10.10.000.00 1030/1 container Container.com.yahoo.filedistribution.fileacquirer.FileAcquirerImpl info Retrying waitFor for file 'e0ce64d459828eb0': 103 -- Request timed out after 60.0 seconds.
1600455446.819853 10.10.000.00 32752/146 configproxy configproxy.com.yahoo.vespa.filedistribution.FileReferenceDownloader info Request failed. Req: request filedistribution.serveFile(e0ce64d459828eb0,0)\nSpec: tcp/10.10.000.00:19070, error code: 103, set error for connection and use another for next request
Run Code Online (Sandbox Code Playgroud)
我们第二次遇到这个问题,之前我们保持理想状态并自动解决,但这一次它是持久的。
vespa ×10