説明
この関数は、指定されたトークナイザーとJSON形式のパラメータに基づいて、テキストを分かち書きした結果を出力します。
構文
TOKENIZE('text', ['parser'], ['behavior_ctrl'])
パラメータの説明
フィールド |
説明 |
|---|---|
| text | テキストを表します。TEXT、CHAR、VARCHAR 型のデータをサポートします。 |
| parser | 分かち書き辞書の名前を表します。BENG(英語)、NGRAM(中国語)、SPACE(スペース)、IK(中国語)などの分かち書き辞書をサポートします。
説明OceanBase データベース V4.3.5 では、V4.3.5 BP1 から |
| behavior_ctrl | JSON 形式でパラメータを指定します。選択可能な構成パラメータは以下のとおりです:
|
例
TOKENIZE 関数を使用して、文字列 I Love China を単語に分解し、区切り文字として beng を使用します。次に、JSON 形式のパラメータを使用して出力オプションを設定します。
SELECT TOKENIZE('I Love China','beng', '[{"output": "all"}]');
戻り値は次のとおりです:
+--------------------------------------------------------+
| TOKENIZE('I Love China','beng', '[{"output": "all"}]') |
+--------------------------------------------------------+
| {"tokens": [{"love": 1}, {"china": 1}], "doc_len": 2} |
+--------------------------------------------------------+
1 row in set