插入行如果不存在导致竞争条件?

agn*_*aft 12 postgresql database-design insert primary-key race-condition

我正在使用python(不是真正相关的)和Postgresql(如果相关的9.2)实现一个简单的基于Web的RSS阅读器.数据库模式如下(基于RSS格式):

CREATE TABLE feed_channel
(
    id SERIAL PRIMARY KEY,
    name TEXT,
    link TEXT NOT NULL,
    title TEXT
);
CREATE TABLE feed_content
(
    id SERIAL PRIMARY KEY,
    channel INTEGER REFERENCES feed_channel(id) ON DELETE CASCADE ON UPDATE CASCADE,
    guid TEXT UNIQUE NOT NULL,
    title TEXT,
    link TEXT,
    description TEXT,
    pubdate TIMESTAMP
);
Run Code Online (Sandbox Code Playgroud)

当我创建新频道(以及查询更新的Feed信息)时,我请求Feed,将其数据插入feed_channel表,选择新插入的ID - 或现有以避免重复 - 然后将Feed数据添加到feed_content表.典型的情况是:

  1. 查询Feed网址,抓取Feed标头和所有当前内容
  2. 如果不存在,请将Feed标头插入feed_channel ...如果已存在,请抓取现有ID
  3. 对于每个Feed项,请插入feed_content表,并引用存储的通道ID

这是标准的"插入(如果尚未存在,但返回相关ID")问题.为了解决这个问题,我实现了以下存储过程:

CREATE OR REPLACE FUNCTION channel_insert(
  p_link feed_channel.link%TYPE,
  p_title feed_channel.title%TYPE
) RETURNS feed_channel.id%TYPE AS $$
  DECLARE
    v_id feed_channel.id%TYPE;
  BEGIN
    SELECT id
    INTO v_id
    FROM feed_channel
    WHERE link=p_link AND title=p_title
    LIMIT 1;

    IF v_id IS NULL THEN
      INSERT INTO feed_channel(name,link,title)
      VALUES (DEFAULT,p_link,p_title)
      RETURNING id INTO v_id;
    END IF;

    RETURN v_id;

  END;
$$ LANGUAGE plpgsql;
Run Code Online (Sandbox Code Playgroud)

然后将其称为"select channel_insert(link,title);" 从我的应用程序插入如果尚未存在,然后返回相关行的ID,无论是插入还是刚找到(上面的列表中的步骤2).

这很棒!

但是,我最近开始想知道如果使用相同的参数同时执行此过程两次会发生什么.让我们假设如下:

  1. 用户1尝试添加新频道,从而执行channel_insert
  2. 几毫秒后,用户2尝试添加相同的通道并执行channel_insert
  3. 用户1对现有行的检查完成,但在插入完成之前,用户2的检查完成并且表示没有现有行.

这是PostgreSQL中潜在的竞争条件吗?解决此问题以避免此类情况的最佳方法是什么?是否有可能以原子方式生成整个存储过程,即它只能同时执行一次?

我尝试过的一个选项是使字段为Unique,然后尝试首先插入,如果是异常,则选择现有的......但是,这会有效,但每次尝试都会增加SERIAL字段,在序列中留下很多空白.我不知道从长远来看这可能是个问题(可能不是),但有点烦人.也许这是首选解决方案?

感谢您的任何反馈.这个级别的PostgreSQL魔法超出了我的范围,所以任何反馈都会受到赞赏.

Mik*_*oud 5

这会成为 PostgreSQL 中潜在的竞争条件吗?

是的,事实上它可以在任何数据库引擎中。

解决此问题以避免此类情况的最佳方法是什么?

这是一个沉重的问题,需要对多个用户使用数据库的深入了解。不过,我会给你一些选择。总之,你唯一的选择就是LOCK表在此过程中,但如何你锁定该表将取决于如何数据库全天使用。

让我们从基本开始LOCK

LOCK TABLE feed_channel
Run Code Online (Sandbox Code Playgroud)

这将使用ACCESS EXCLUSIVE锁定选项锁定表。

与所有模式(ACCESS SHARE、ROW SHARE、ROW EXCLUSIVE、SHARE UPDATE EXCLUSIVE、SHARE、SHARE ROW EXCLUSIVE、EXCLUSIVE 和 ACCESS EXCLUSIVE)的锁冲突。这种模式保证持有者是唯一以任何方式访问表的事务。

现在,这是可用的最严格的锁,肯定会解决竞争条件,但可能不是您想要的。这是你必须决定的事情。所以,虽然很明显你必须到LOCK桌子上,但不清楚如何。

你还有什么要决定的?

  1. 你想怎么LOCK上桌?研究该链接上的锁定选项以做出决定。
  2. 你要到哪LOCK里去?或者换句话说,你想LOCK在函数的顶部(我认为你是根据可能的竞争条件做的),还是只想LOCKINSERT?

是否可以原子地制作整个存储过程,即它只能同时执行一次?

不,代码可以由连接到数据库的任何人执行。


我希望这对指导您有所帮助。


wil*_*ser 4

这里存在不可避免的“竞争”,因为两个会话无法“看到”彼此未提交的行。发生冲突时,会话只能回滚(可能到保存点)并重试。这通常意味着:引用对方新插入的行,而不是创建私有副本。

这里存在一个数据建模问题:feed_channel 似乎有很多候选键,而 feed_content 的级联规则可能会孤立很多 feed_content 的行(我认为 content->channel 是 1::M 关系;多个内容-行可以指同一个频道)

最后,feed_channel表至少需要自然键{link,title}。这就是插入/不存在的意义所在。(以及这个函数的全部目的)

我稍微清理了一下这个函数。不需要 IF 构造,首先执行INSERT WHERE NOT EXISTS 也同样有效,甚至可能更好。

DROP SCHEMA tmp CASCADE;
CREATE SCHEMA tmp ;
SET search_path=tmp;

CREATE TABLE feed_channel
    ( id SERIAL PRIMARY KEY
    , name TEXT
    , link TEXT NOT NULL
    , title TEXT NOT NULL -- part of PK :: must be not nullable
    , CONSTRAINT feed_channel_nat UNIQUE (link,title) -- the natural key
);

CREATE TABLE feed_content
    ( id SERIAL PRIMARY KEY
    , channel INTEGER REFERENCES feed_channel(id) ON DELETE CASCADE ON UPDATE CASCADE
    , guid TEXT UNIQUE NOT NULL -- yet another primary key
    , title TEXT --
    , link TEXT  -- title && link appear to be yet another candidate key
    , description TEXT
    , pubdate TIMESTAMP
    );

-- NOTE: omitted original function channel_insert() for brevity
CREATE OR REPLACE FUNCTION channel_insert_wp(
  p_link feed_channel.link%TYPE,
  p_title feed_channel.title%TYPE
) RETURNS feed_channel.id%TYPE AS $body$
   DECLARE
    v_id feed_channel.id%TYPE;
  BEGIN
      INSERT INTO feed_channel(link,title)
      SELECT p_link,p_title
      WHERE NOT EXISTS ( SELECT *
        FROM feed_channel nx
        WHERE nx.link= p_link
        AND nx.title= p_title
        )
        ;
    SELECT id INTO v_id
    FROM feed_channel ex
    WHERE ex.link= p_link
    AND ex.title= p_title
        ;

    RETURN v_id;

  END;
$body$ LANGUAGE plpgsql;

SELECT channel_insert('Bogus_link', 'Bogus_title');
SELECT channel_insert_wp('Bogus_link2', 'Bogus_title2');

SELECT * FROM feed_channel;
Run Code Online (Sandbox Code Playgroud)

结果:

DROP SCHEMA
CREATE SCHEMA
SET
NOTICE:  CREATE TABLE will create implicit sequence "feed_channel_id_seq" for serial column "feed_channel.id"
NOTICE:  CREATE TABLE / PRIMARY KEY will create implicit index "feed_channel_pkey" for table "feed_channel"
NOTICE:  CREATE TABLE / UNIQUE will create implicit index "feed_channel_nat" for table "feed_channel"
CREATE TABLE
NOTICE:  CREATE TABLE will create implicit sequence "feed_content_id_seq" for serial column "feed_content.id"
NOTICE:  CREATE TABLE / PRIMARY KEY will create implicit index "feed_content_pkey" for table "feed_content"
NOTICE:  CREATE TABLE / UNIQUE will create implicit index "feed_content_guid_key" for table "feed_content"
CREATE TABLE
NOTICE:  type reference feed_channel.link%TYPE converted to text
NOTICE:  type reference feed_channel.title%TYPE converted to text
NOTICE:  type reference feed_channel.id%TYPE converted to integer
CREATE FUNCTION
NOTICE:  type reference feed_channel.link%TYPE converted to text
NOTICE:  type reference feed_channel.title%TYPE converted to text
NOTICE:  type reference feed_channel.id%TYPE converted to integer
CREATE FUNCTION
 channel_insert 
----------------
              1
(1 row)

 channel_insert_wp 
-------------------
                 2
(1 row)

 id | name |    link     |    title     
----+------+-------------+--------------
  1 |      | Bogus_link  | Bogus_title
  2 |      | Bogus_link2 | Bogus_title2
(2 rows)
Run Code Online (Sandbox Code Playgroud)