Sal*_*Din 10 python django postgresql
我们在django 1.10中搜索,我们需要用trigram搜索进行用户排名搜索.
我们的代码是这样的:
def get_queryset(self):
search = self.request.GET.get('text', '')
vector = SearchVector('name',weight='A',
config=settings.SEARCH_LANGS[
settings.LANGUAGE
],
) + SearchVector(
'content',
weight='B',
config=settings.SEARCH_LANGS[
settings.LANGUAGE
],
)
query = SearchQuery(search)
return Article.objects.annotate(
rank=SearchRank(
vector,
query
),
similarity=TrigramSimilarity(
'name', search
) + TrigramSimilarity(
'content', search
),
).filter(
rank__gte=0.3
).filter(
similarity__gt=0.3
).order_by(
'-similarity'
)[:20]
Run Code Online (Sandbox Code Playgroud)
但是这段代码不会返回任何查询,如果没有使用trigram,我们就会遇到问题,但是,在它们之间我们无法得到查询.
我们如何在django 1.10中组合trigram和排名搜索?
Sal*_*Din 14
我们更彻底地了解了搜索如何衡量权重.
根据文档,您可以根据字段分配权重,甚至可以分配权重,同样我们可以使用三元组按相似性或距离进行过滤.
然而,没有指定使用这两者的例子,并进一步调查它理解也不重要.
一个小逻辑告诉我们,如果我们总共寻找一个共同的词,我们都将排名为0,相似性的变化远大于范围,但往往会降低范围的值.
现在,根据我们的理解,文本搜索是基于您要过滤的字段中包含的文本,而不是在配置中放置的语言.例如,使用标题,使用的模型有一个标题字段和一个内容字段,其最常见的单词是how change,审查加权单词(范围作为查询,所以我们可以使用values或values_list查看排名和相似性,这是数字值,我们可以查看加权单词查看矢量对象),我们看到如果分配权重,但分裂单词的组合:找到'perfil'和'cambi',但是我们没有找到'cambiar'或'como'; 但是,所有模型都包含与"lorem ipsun ..."相同的文本,以及该句子的所有单词,如果它们是完整的并且具有权重B; 我们最后得出结论,搜索是根据字段的内容完成的,以便过滤比我们配置搜索的语言更多的内容.
也就是说,我们在这里展示了我们用于一切的代码.
首先,我们需要在启用数据库所需的范围内使用Trigrams:
from __future__ import unicode_literals
from django.db import migrations, models
import django.db.models.deletion
from django.contrib.postgres.operations import UnaccentExtension
from django.contrib.postgres.operations import TrigramExtension
class Migration(migrations.Migration):
initial = True
dependencies = [
]
operations = [
...
TrigramExtension(),
UnaccentExtension(),
]
Run Code Online (Sandbox Code Playgroud)
导入从postgres包迁移和从任何文件迁移运行的操作.
下一步是更改问题的代码,以便过滤器在第二个失败时返回其中一个查询:
def get_queryset(self):
search_query = SearchQuery(self.request.GET.get('q', ''))
vector = SearchVector(
'name',
weight='A',
config=settings.SEARCH_LANGS[settings.LANGUAGE_CODE],
) + SearchVector(
'content',
weight='B',
config=settings.SEARCH_LANGS[settings.LANGUAGE_CODE],
)
if self.request.user.is_authenticated:
queryset = Article.actives.all()
else:
queryset = Article.publics.all()
return queryset.annotate(
rank=SearchRank(vector, search_query)
similarity=TrigramSimilarity(
'name', search_query
) + TrigramSimilarity(
'content', search_query
),
).filter(Q(rank__gte=0.3) | Q(similarity__gt=0.3)).order_by('-rank')[:20]
Run Code Online (Sandbox Code Playgroud)
上面代码的问题是一个接一个地渗透一个查询,如果选择的单词没有出现在两个搜索中的任何一个中,问题就更大了.我们使用一个Q对象来使用OR连接器进行过滤,这样如果其中一个没有返回所需的值,则将另一个发送到位.
这已经足够了,但他们欢迎澄清这些权重和三角形如何工作的深度,以揭示最新版本的Django提供的这一新优势的大部分.
| 归档时间: |
|
| 查看次数: |
2257 次 |
| 最近记录: |