无法在 jsonb 对象字段中搜索文本

Unable to search a text in jsonb object field

我有一个 jsondata 列,其中有一个 jsonb 对象(不是数组)。此列包含许多字段,但每一行都有一个 message 字段。我想在此字段上执行 ~*(或 FTS,如果可能的话)。

CREATE TABLE messages (
  id                bigint NOT NULL PRIMARY KEY GENERATED BY DEFAULT AS IDENTITY
    (MAXVALUE 9223372036854775807),
  "jsondata"         jsonb

) WITH (
    OIDS = FALSE
  );

INSERT INTO messages (jsondata) VALUES ('{ "user": "user1", "message": "Hello, World"}');
INSERT INTO messages (jsondata) VALUES ('{ "user": "user1", "message": "Hello, How r u"}');
INSERT INTO messages (jsondata) VALUES ('{ "user": "user1", "message": "another message"}');
INSERT INTO messages (jsondata) VALUES ('{ "user": "user1", "message": "sample message"}');


select * from messages;

CREATE OR REPLACE FUNCTION jsonb_message_to_string( d jsonb, out string text )
          AS $func$
            BEGIN
              SELECT INTO string
                string_agg(d->>'message', ' ')
              FROM jsonb_each(d);
              RETURN;
            END;
          $func$ LANGUAGE plpgsql
          IMMUTABLE;


          CREATE AGGREGATE tsvector_agg (tsvector) (
      SFUNC = tsvector_concat,
      STYPE = tsvector
    );

CREATE OR REPLACE FUNCTION jsonb_message_to_tsvector( d jsonb, out tsv tsvector )
    AS $func$
      BEGIN
        SELECT INTO tsv
          tsvector_agg(to_tsvector(d->>'message'))
          FROM jsonb_each(d);
        RETURN;
      END;
    $func$ LANGUAGE plpgsql
    IMMUTABLE;

CREATE INDEX ON messages
          USING gin (jsonb_message_to_tsvector(jsondata));

我通过收集其他答案设法做到了这一点。现在,当我查询时:

SELECT jsonb_message_to_tsvector(jsondata) @@ 'another'
FROM messages;

我得到 4 行,每行都有布尔值 f。我在这里做错了什么?我如何在 jsonb 列中搜索消息。

?column?
f
f
f
f

我在网上找到的例子显示的是元素数组。我的专栏是纯对象的。不包含数组。我正在使用 PostgreSQL 11。

查看演示https://dbfiddle.uk/?rdbms=postgres_11&fiddle=411fc432663f3ce16afb9ca62a69c5f0

一个选项是使用 jsonb_each_text() jsonb_each())函数:

select (js).key as items, (js).value as strings
  from
  (
   select jsonb_each_text(jsondata) as js
     from messages
  ) q 
 where (js).key = 'message';

这样:

select key, v.j->key as strings
  from messages v(id, j) cross join lateral
       jsonb_each_text(v.j) as key
 where key = 'message';

jsonb_object_keys()函数:

select key, v.j->key as strings
  from messages v(id, j) cross join lateral
       jsonb_object_keys(v.j) as key
 where key = 'message';

Demo

您的函数并没有真正意义,因为它聚合了来自 所有 行的消息。然后你在所有这些上创建一个 FTS 矢量。即使找到匹配项,您也不知道它属于哪一列。

你也把事情复杂化了。您只需要一个不可变函数来为一行而不是所有行创建 tsvector。

CREATE OR REPLACE FUNCTION jsonb_message_to_tsvector(d jsonb)
  returns tsvector
AS $func$
  select to_tsvector(d->>'message');
$func$ 
LANGUAGE sql
IMMUTABLE;

然后可以创建如下索引:

CREATE INDEX ON messages
  USING gin (jsonb_message_to_tsvector(jsondata));

并且 @@ 运算符在右侧需要一个 tsquery,而不是字符串值:

SELECT jsondata, jsonb_message_to_tsvector(jsondata) @@ to_tsquery('another') as is_contained
FROM messages;

returns:

jsondata                                        | is_contained
------------------------------------------------+-------------
{"user": "user1", "message": "Hello, World"}    | false       
{"user": "user1", "message": "Hello, How r u"}  | false       
{"user": "user1", "message": "another message"} | true        
{"user": "user1", "message": "sample message"}  | false       

DbFiddle:https://dbfiddle.uk/?rdbms=postgres_11&fiddle=507bc5b88a9d8f4b5f0d978d664a4796


如果你知道唯一的语言是英语,你甚至不需要不可变函数,你可以直接从 json 列创建一个 tsvector:

CREATE INDEX ON messages
  USING gin (to_tsvector('english', jsondata ->> 'message'));

SELECT to_tsvector('english', jsondata ->> 'message') @@ to_tsquery('another') as is_contained
FROM messages;

DbFiddle:https://dbfiddle.uk/?rdbms=postgres_11&fiddle=30a182a5b97cd24ebf45861440ff7c5b


如果您只想查看匹配项,请将条件移动到 where 子句:

SELECT *
FROM messages
where to_tsvector('english', jsondata ->> 'message') @@ to_tsquery('another')