sqlalchemy 中的三元组距离运算

Nuk*_*sor 1 python postgresql fuzzy-search sqlalchemy trigram

我目前正在尝试使用 pg_trgm 操作%<->. 列上的 GIN 索引已经可用,但我找不到与前面提到的运算符等效的 sqlalchemy。

除了编写纯文本查询之外,解决此问题的最佳方法是什么。

一个简单的示例查询是:

tag = test
tag_subq = session.query(sticker_tag.file_id, f'sticker_tag.name <-> {tag}'.label(distance)) \
    .filter(f'sticker_tag.name % {tag}')) \
    .filter('distance' < 0.3) \
    .subquery("tag_subq")
Run Code Online (Sandbox Code Playgroud)

上面的查询显然不起作用,选择和过滤字符串只是占位符来可视化我打算做什么。

r-m*_*m-n 7

您可以使用Operators.op()方法;这会生成您需要的任何运算符:

sticker_tag.name.op('<->')(tag)
sticker_tag.name.op('%%')(tag)
Run Code Online (Sandbox Code Playgroud)

百分比运算符会加倍以转义它,因为 python dbapi 使用 %foo 或 %(foo) 语法将参数插入查询中。


Jer*_*rry 6

对于使用 Postgres 的人来说,可以使用similarity这样做。

pg_trgm注意:请记住首先在 Postgres 中安装扩展:CREATE EXTENSION pg_trgm;

这是使用 SQLAlchemy 的示例:

# ... other imports
from sqlalchemy import and_, func, or_

def search_store_product(search_string: str) -> Optional[list[Product]]:
    try:
        return session.query(Product).filter(
            or_(
                func.similarity(Product.name, search_string) > 0.6,
                func.similarity(Product.brand, search_string) > 0.4,
            ),
            and_(Product.updated_on >= datetime.utcnow() - timedelta(days=5)),
        ).order_by(Product.created_on).limit(20).all()

    except ProgrammingError as exception:
        logger.exception(exception)
        raise

    finally:
        session.close()
Run Code Online (Sandbox Code Playgroud)