无法在 jsonb 对象字段中搜索文本
Unable to search a text in jsonb object field
我有一个 jsondata
列,其中有一个 jsonb
对象(不是数组)。此列包含许多字段,但每一行都有一个 message
字段。我想在此字段上执行 ~*
(或 FTS,如果可能的话)。
CREATE TABLE messages (
id bigint NOT NULL PRIMARY KEY GENERATED BY DEFAULT AS IDENTITY
(MAXVALUE 9223372036854775807),
"jsondata" jsonb
) WITH (
OIDS = FALSE
);
INSERT INTO messages (jsondata) VALUES ('{ "user": "user1", "message": "Hello, World"}');
INSERT INTO messages (jsondata) VALUES ('{ "user": "user1", "message": "Hello, How r u"}');
INSERT INTO messages (jsondata) VALUES ('{ "user": "user1", "message": "another message"}');
INSERT INTO messages (jsondata) VALUES ('{ "user": "user1", "message": "sample message"}');
select * from messages;
CREATE OR REPLACE FUNCTION jsonb_message_to_string( d jsonb, out string text )
AS $func$
BEGIN
SELECT INTO string
string_agg(d->>'message', ' ')
FROM jsonb_each(d);
RETURN;
END;
$func$ LANGUAGE plpgsql
IMMUTABLE;
CREATE AGGREGATE tsvector_agg (tsvector) (
SFUNC = tsvector_concat,
STYPE = tsvector
);
CREATE OR REPLACE FUNCTION jsonb_message_to_tsvector( d jsonb, out tsv tsvector )
AS $func$
BEGIN
SELECT INTO tsv
tsvector_agg(to_tsvector(d->>'message'))
FROM jsonb_each(d);
RETURN;
END;
$func$ LANGUAGE plpgsql
IMMUTABLE;
CREATE INDEX ON messages
USING gin (jsonb_message_to_tsvector(jsondata));
我通过收集其他答案设法做到了这一点。现在,当我查询时:
SELECT jsonb_message_to_tsvector(jsondata) @@ 'another'
FROM messages;
我得到 4 行,每行都有布尔值 f
。我在这里做错了什么?我如何在 jsonb
列中搜索消息。
?column?
f
f
f
f
我在网上找到的例子显示的是元素数组。我的专栏是纯对象的。不包含数组。我正在使用 PostgreSQL 11。
查看演示:https://dbfiddle.uk/?rdbms=postgres_11&fiddle=411fc432663f3ce16afb9ca62a69c5f0
一个选项是使用 jsonb_each_text()
( 或 jsonb_each()
)函数:
select (js).key as items, (js).value as strings
from
(
select jsonb_each_text(jsondata) as js
from messages
) q
where (js).key = 'message';
或这样:
select key, v.j->key as strings
from messages v(id, j) cross join lateral
jsonb_each_text(v.j) as key
where key = 'message';
或 jsonb_object_keys()
函数:
select key, v.j->key as strings
from messages v(id, j) cross join lateral
jsonb_object_keys(v.j) as key
where key = 'message';
您的函数并没有真正意义,因为它聚合了来自 所有 行的消息。然后你在所有这些上创建一个 FTS 矢量。即使找到匹配项,您也不知道它属于哪一列。
你也把事情复杂化了。您只需要一个不可变函数来为一行而不是所有行创建 tsvector。
CREATE OR REPLACE FUNCTION jsonb_message_to_tsvector(d jsonb)
returns tsvector
AS $func$
select to_tsvector(d->>'message');
$func$
LANGUAGE sql
IMMUTABLE;
然后可以创建如下索引:
CREATE INDEX ON messages
USING gin (jsonb_message_to_tsvector(jsondata));
并且 @@
运算符在右侧需要一个 tsquery
,而不是字符串值:
SELECT jsondata, jsonb_message_to_tsvector(jsondata) @@ to_tsquery('another') as is_contained
FROM messages;
returns:
jsondata | is_contained
------------------------------------------------+-------------
{"user": "user1", "message": "Hello, World"} | false
{"user": "user1", "message": "Hello, How r u"} | false
{"user": "user1", "message": "another message"} | true
{"user": "user1", "message": "sample message"} | false
DbFiddle:https://dbfiddle.uk/?rdbms=postgres_11&fiddle=507bc5b88a9d8f4b5f0d978d664a4796
如果你知道唯一的语言是英语,你甚至不需要不可变函数,你可以直接从 json 列创建一个 tsvector:
CREATE INDEX ON messages
USING gin (to_tsvector('english', jsondata ->> 'message'));
SELECT to_tsvector('english', jsondata ->> 'message') @@ to_tsquery('another') as is_contained
FROM messages;
DbFiddle:https://dbfiddle.uk/?rdbms=postgres_11&fiddle=30a182a5b97cd24ebf45861440ff7c5b
如果您只想查看匹配项,请将条件移动到 where 子句:
SELECT *
FROM messages
where to_tsvector('english', jsondata ->> 'message') @@ to_tsquery('another')
我有一个 jsondata
列,其中有一个 jsonb
对象(不是数组)。此列包含许多字段,但每一行都有一个 message
字段。我想在此字段上执行 ~*
(或 FTS,如果可能的话)。
CREATE TABLE messages (
id bigint NOT NULL PRIMARY KEY GENERATED BY DEFAULT AS IDENTITY
(MAXVALUE 9223372036854775807),
"jsondata" jsonb
) WITH (
OIDS = FALSE
);
INSERT INTO messages (jsondata) VALUES ('{ "user": "user1", "message": "Hello, World"}');
INSERT INTO messages (jsondata) VALUES ('{ "user": "user1", "message": "Hello, How r u"}');
INSERT INTO messages (jsondata) VALUES ('{ "user": "user1", "message": "another message"}');
INSERT INTO messages (jsondata) VALUES ('{ "user": "user1", "message": "sample message"}');
select * from messages;
CREATE OR REPLACE FUNCTION jsonb_message_to_string( d jsonb, out string text )
AS $func$
BEGIN
SELECT INTO string
string_agg(d->>'message', ' ')
FROM jsonb_each(d);
RETURN;
END;
$func$ LANGUAGE plpgsql
IMMUTABLE;
CREATE AGGREGATE tsvector_agg (tsvector) (
SFUNC = tsvector_concat,
STYPE = tsvector
);
CREATE OR REPLACE FUNCTION jsonb_message_to_tsvector( d jsonb, out tsv tsvector )
AS $func$
BEGIN
SELECT INTO tsv
tsvector_agg(to_tsvector(d->>'message'))
FROM jsonb_each(d);
RETURN;
END;
$func$ LANGUAGE plpgsql
IMMUTABLE;
CREATE INDEX ON messages
USING gin (jsonb_message_to_tsvector(jsondata));
我通过收集其他答案设法做到了这一点。现在,当我查询时:
SELECT jsonb_message_to_tsvector(jsondata) @@ 'another'
FROM messages;
我得到 4 行,每行都有布尔值 f
。我在这里做错了什么?我如何在 jsonb
列中搜索消息。
?column?
f
f
f
f
我在网上找到的例子显示的是元素数组。我的专栏是纯对象的。不包含数组。我正在使用 PostgreSQL 11。
查看演示:https://dbfiddle.uk/?rdbms=postgres_11&fiddle=411fc432663f3ce16afb9ca62a69c5f0
一个选项是使用 jsonb_each_text()
( 或 jsonb_each()
)函数:
select (js).key as items, (js).value as strings
from
(
select jsonb_each_text(jsondata) as js
from messages
) q
where (js).key = 'message';
或这样:
select key, v.j->key as strings
from messages v(id, j) cross join lateral
jsonb_each_text(v.j) as key
where key = 'message';
或 jsonb_object_keys()
函数:
select key, v.j->key as strings
from messages v(id, j) cross join lateral
jsonb_object_keys(v.j) as key
where key = 'message';
您的函数并没有真正意义,因为它聚合了来自 所有 行的消息。然后你在所有这些上创建一个 FTS 矢量。即使找到匹配项,您也不知道它属于哪一列。
你也把事情复杂化了。您只需要一个不可变函数来为一行而不是所有行创建 tsvector。
CREATE OR REPLACE FUNCTION jsonb_message_to_tsvector(d jsonb)
returns tsvector
AS $func$
select to_tsvector(d->>'message');
$func$
LANGUAGE sql
IMMUTABLE;
然后可以创建如下索引:
CREATE INDEX ON messages
USING gin (jsonb_message_to_tsvector(jsondata));
并且 @@
运算符在右侧需要一个 tsquery
,而不是字符串值:
SELECT jsondata, jsonb_message_to_tsvector(jsondata) @@ to_tsquery('another') as is_contained
FROM messages;
returns:
jsondata | is_contained
------------------------------------------------+-------------
{"user": "user1", "message": "Hello, World"} | false
{"user": "user1", "message": "Hello, How r u"} | false
{"user": "user1", "message": "another message"} | true
{"user": "user1", "message": "sample message"} | false
DbFiddle:https://dbfiddle.uk/?rdbms=postgres_11&fiddle=507bc5b88a9d8f4b5f0d978d664a4796
如果你知道唯一的语言是英语,你甚至不需要不可变函数,你可以直接从 json 列创建一个 tsvector:
CREATE INDEX ON messages
USING gin (to_tsvector('english', jsondata ->> 'message'));
SELECT to_tsvector('english', jsondata ->> 'message') @@ to_tsquery('another') as is_contained
FROM messages;
DbFiddle:https://dbfiddle.uk/?rdbms=postgres_11&fiddle=30a182a5b97cd24ebf45861440ff7c5b
如果您只想查看匹配项,请将条件移动到 where 子句:
SELECT *
FROM messages
where to_tsvector('english', jsondata ->> 'message') @@ to_tsquery('another')