その他の関数

REGEXP_REPLACE(string, pattern, replacement)

正規表現のパターンが置換文字列に置き換えられている特定の文字列のコピーを返します。この関数はテキスト ファイル、Hadoop Hive、Google BigQuery、PostgreSQL、Tableau Data Extract、Microsoft Excel、Salesforce、Vertica、Pivotal Greenplum、Teradata (バージョン 14.1 以上)、Snowflake、および Oracle データ ソースで利用できます。

Tableau データ抽出では、パターンおよび置換を定数にする必要があります。

正規表現の構文の詳細については、お使いのデータ ソースのドキュメントを参照してください。Tableau 抽出の場合、正規表現の構文は、現在の International Components for Unicode (ICU) の標準に準拠しています。ICU は、Unicode のサポート、ソフトウェアの国際化、およびソフトウェアのグローバル化を目的とした、成熟した C/C++ および Java ライブラリのオープン ソース プロジェクトです。オンラインの ICU ユーザー ガイドの「正規表現」(新しいウィンドウでリンクが開く)のページを参照してください。

REGEXP_REPLACE('abc 123', '\s', '-') = 'abc-123'

REGEXP_MATCH(string, pattern)

指定した文字列のサブストリングが正規表現パターンに一致した場合に true を返します。この関数はテキスト ファイル、Google BigQuery、PostgreSQL、Tableau Data Extract、Microsoft Excel、Salesforce、Vertica、Pivotal Greenplum、Teradata (バージョン 14.1 以降)、Impala 2.3.0 (Cloudera Hadoop データ ソースを介して)、Snowflake、および Oracle データ ソースで利用できます。

Tableau データ抽出では、パターンを定数にする必要があります。

正規表現の構文の詳細については、お使いのデータ ソースのドキュメントを参照してください。Tableau 抽出の場合、正規表現の構文は、現在の International Components for Unicode (ICU) の標準に準拠しています。ICU は、Unicode のサポート、ソフトウェアの国際化、およびソフトウェアのグローバル化を目的とした、成熟した C/C++ および Java ライブラリのオープン ソース プロジェクトです。オンラインの ICU ユーザー ガイドの「正規表現」(新しいウィンドウでリンクが開く)のページを参照してください。

REGEXP_MATCH('-([1234].[The.Market])-','\[\s*(\w*\.)(\w*\s*\])')=true

REGEXP_EXTRACT(string, pattern)

正規表現のパターンと一致する文字列の一部を返します。この関数はテキスト ファイル、Hadoop Hive、Google BigQuery、PostgreSQL、Tableau Data Extract、Microsoft Excel、Salesforce、Vertica、Pivotal Greenplum、Teradata (バージョン 14.1 以上)、Snowflake、および Oracle データ ソースで利用できます。

Tableau データ抽出では、パターンを定数にする必要があります。

正規表現の構文の詳細については、お使いのデータ ソースのドキュメントを参照してください。Tableau 抽出の場合、正規表現の構文は、現在の International Components for Unicode (ICU) の標準に準拠しています。ICU は、Unicode のサポート、ソフトウェアの国際化、およびソフトウェアのグローバル化を目的とした、成熟した C/C++ および Java ライブラリのオープン ソース プロジェクトです。オンラインの ICU ユーザー ガイドの「正規表現」(新しいウィンドウでリンクが開く)のページを参照してください。

REGEXP_EXTRACT('abc 123', '[a-z]+\s+(\d+)') = '123'

REGEXP_EXTRACT_NTH(string, pattern, index)

正規表現のパターンと一致する文字列の一部を返します。部分文字列は n 番目 (n は指定されたインデックス) のキャプチャリング グループと照合されます。index が 0 の場合、文字列全体が返されます。この関数は、テキスト ファイル、PostgreSQL、Tableau Data Extract、Microsoft Excel、Salesforce、Vertica、Pivotal Greenplum、Teradata (バージョン 14.1 以降)、および Oracle データ ソースで利用できます。

Tableau データ抽出では、パターンを定数にする必要があります。

正規表現の構文の詳細については、お使いのデータ ソースのドキュメントを参照してください。Tableau 抽出の場合、正規表現の構文は、現在の International Components for Unicode (ICU) の標準に準拠しています。ICU は、Unicode のサポート、ソフトウェアの国際化、およびソフトウェアのグローバル化を目的とした、成熟した C/C++ および Java ライブラリのオープン ソース プロジェクトです。オンラインの ICU ユーザー ガイドの「正規表現」(新しいウィンドウでリンクが開く)のページを参照してください。

REGEXP_EXTRACT_NTH('abc 123', '([a-z]+)\s+(\d+)', 2) = '123'

Hadoop Hive 固有の関数

: PARSE_URL および PARSE_URL_QUERY 関数は、Cloudera Impala データ ソースにのみ対応しています。

GET_JSON_OBJECT(JSON string, JSON path)

JSON パスに基づいた JSON 文字列内の JSON オブジェクトを返します。

PARSE_URL(string, url_part)

コンポーネントが url_part で定義されている特定の URL 文字列のコンポーネントを返します。有効な url_part の値は、'HOST'、'PATH'、'QUERY'、'REF'、'PROTOCOL'、'AUTHORITY'、'FILE'、'USERINFO' などです。

PARSE_URL('http://www.tableau.com', 'HOST') = 'www.tableau.com'

PARSE_URL_QUERY(string, key)

特定の URL 文字列内にある指定したクエリ パラメーターの値を返します。クエリ パラメーターはキーで定義されます。

PARSE_URL_QUERY('http://www.tableau.com?page=1&cat=4', 'page') = '1'

XPATH_BOOLEAN(XML string, XPath expression string)

XPath 式がノードに一致した場合、または true に評価された場合に true を返します。

XPATH_BOOLEAN('<values> <value id="0">1</value><value id="1">5</value>', 'values/value[@id="1"] = 5') = true

XPATH_DOUBLE(XML string, XPath expression string)

XPath 式の浮動小数点値を返します。

XPATH_DOUBLE('<values><value>1.0</value><value>5.5</value> </values>', 'sum(value/*)') = 6.5

XPATH_FLOAT(XML string, XPath expression string)

XPath 式の浮動小数点値を返します。

XPATH_FLOAT('<values><value>1.0</value><value>5.5</value> </values>','sum(value/*)') = 6.5

XPATH_INT(XML string, XPath expression string)

XPath 式の数値を返します。または、XPath 式が数字に評価できない場合はゼロを返します。

XPATH_INT('<values><value>1</value><value>5</value> </values>','sum(value/*)') = 6

XPATH_LONG(XML string, XPath expression string)

XPath 式の数値を返します。または、XPath 式が数字に評価できない場合はゼロを返します。

XPATH_LONG('<values><value>1</value><value>5</value> </values>','sum(value/*)') = 6

XPATH_SHORT(XML string, XPath expression string)

XPath 式の数値を返します。または、XPath 式が数字に評価できない場合はゼロを返します。

XPATH_SHORT('<values><value>1</value><value>5</value> </values>','sum(value/*)') = 6

XPATH_STRING(XML string, XPath expression string)

最初に一致したノードのテキストを返します。

XPATH_STRING('<sites ><url domain="org">http://www.w3.org</url> <url domain="com">http://www.tableau.com</url></sites>', 'sites/url[@domain="com"]') = 'http://www.tableau.com'

Google BigQuery 固有の関数

DOMAIN(string_url)

URL 文字列が指定された場合に、ドメインを文字列として返します。

DOMAIN('http://www.google.com:80/index.html') = 'google.com'

GROUP_CONCAT(expression)

各レコードの値をコンマで区切られた 1 つの文字列に連結します。この機能は、文字列に対して SUM() を実行するのと同じです。

GROUP_CONCAT(Region) = "Central,East,West"

HOST(string_url)

URL 文字列が指定された場合に、ホスト名を文字列として返します。

HOST('http://www.google.com:80/index.html') = 'www.google.com:80'

LOG2(number)

数値の対数 (底 2) を返します。

LOG2(16) = '4.00'

LTRIM_THIS(string, string)

最初の string から、2 つ目の string を先頭から削除した文字列を返します。

LTRIM_THIS('[-Sales-]','[-') = 'Sales-]'

RTRIM_THIS(string, string)

最初の string から、2 つ目の string を末尾から削除した文字列を返します。

RTRIM_THIS('[-Market-]','-]') = '[-Market'

TIMESTAMP_TO_USEC(expression)

TIMESTAMP データ型を UNIX タイムスタンプ (ミリ秒単位) に変換します。

TIMESTAMP_TO_USEC(#2012-10-01 01:02:03#)=1349053323000000

USEC_TO_TIMESTAMP(expression)

UNIX タイムスタンプ (ミリ秒単位) を TIMESTAMP データ型に変換します。

USEC_TO_TIMESTAMP(1349053323000000) = #2012-10-01 01:02:03#

TLD(string_url)

URL 文字列が指定された場合に、URL 内のトップ レベル ドメインと国ドメイン (ある場合) を返します。

TLD('http://www.google.com:80/index.html') = '.com'

TLD('http://www.google.co.uk:80/index.html') = '.co.uk'

フィードバックをありがとうございます。フィードバックは正常に送信されました。ありがとうございます!