はじめに
この記事では、ETLでのすべてのデータ編集操作について詳しく説明します。これには以下が含まれます。
-
行をフィルター
-
重複を削除
-
テキストを置換
-
列の値を設定
-
文字列操作
-
テキストフォーマット
-
値マッパー
ETL DataFlowの作成については、「ETL DataFlowを作成する」をご覧ください。
Data Centerについては、「Data Centerのレイアウト」をご覧ください。
行をフィルター
行にフィルターをかける操作では、指定したルールに基づいて行を含めたり除外したりできます。
例
例えば、行にフィルターをかける操作により以下のデータを…
... このように変換可能です...
設定は以下を使用します。
行のフィルター操作設定は、
-
キャンバスで [行をフィルター] 操作をクリックします。
-
(オプション)操作名称を変更するには、
をクリックして名称を入力します。
-
含める行を、定義したルールすべてを満たす行とするか、またはいずれかを満たす行とするかを選択します。
-
各フィルタールールについて、以下を実行します。
-
フィルター対象の列を選択します。
-
使用する演算を選択します。
フィルターをかける列のデータのタイプに応じて演算アイテムがリストに表示されます。 -
特定の列の値と比較するか、特定の値と比較するかを選択し、以下のいずれかを実行します。
-
(条件付き)列に対して比較する場合、使用する列を選択します。
-
(条件付き)指定した値に対して比較する場合、使用する値を入力します。
-
-
(条件付き)ルールを追加する場合は、[フィルタールールを追加] をクリックします。
-
重複を削除
重複の削除操作により、特定の列に関して、重複している行を削除することができます。
ビデオ - 重複削除の機能を使う
例
例えば、重複を削除では、以下のデータを...
... このように変換可能です...
設定は以下を使用します。
重複削除の設定の際は
-
目的の値を含む列がDataSetに存在していることを確認します。
-
キャンバスで、[重複を削除] 機能をクリックします。
-
(オプション)操作名称を変更するには、
をクリックして名称を入力します。
-
重複する値のある削除したい列それぞれに対し、以下を行います。
-
列を選択します。
例えば、「製品基本利益」と入力します。 -
比較の際に、大文字小文字の区別をするかを選択します。
-
(条件付き)列を追加する場合は、[列の追加] をクリックします。
-
テキスト置換
テキスト置換を使用すると、特定のテキスト値の該当箇所すべてを別のテキスト値に置き換えできます(いわゆる検索・置換)。これには、Javaの正規表現を使用することができます。Javaの正規表現の詳細については、https://docs.oracle.com/javase/tutorial/essential/regex/ をご参照ください。
その他の機能でテキスト値を置換する方法については、「列値の設定」 および「値マッパー」をご覧ください。
例
例えば、テキスト置換機能では、「Product Container」列にある「Jumbo Box」というテキスト値を...
... 「Ginormous」というテキスト値に置換します...
設定は以下を使用します。
テキスト置換機能の設定は、
-
キャンバスで、[テキストの置換] をクリックします。
-
(オプション)操作名称を変更するには、
をクリックして名称を入力します。
-
検索する列を選択します。
-
検索したいテキスト値を入力します。
例えば、「Jumbo Box」と入力します。 -
(オプション)使用する検索設定を指定するには、フィールドで
をクリックします。
オプション
説明
完全一致
完全に一致する単語だけを検索します。
大文字と小文字を区別
大文字と小文字を区別して値を検索します。
RegExを使用する
Javaの正規表現を使用して検索、置き換えを実行します。
-
置換したいテキスト値を入力します。
例えば「Ginormous」と入力します。
列の値を設定
列の値の設定操作では、列の値を、他の列の値と入れ替えることができます。
注記:
- 同じデータタイプの列の値のみ、入れ替えることができます。例えば、文字列の値を持つ列から、別の文字列の値を持つ列にコピーすることができます。
- 両方の列が既にDataSetに存在している必要があります。
これ以外の操作でテキスト値を置換する方法については、「テキストの置換」と「値マッパー」をご覧ください。
例
例えば、列値設定では、このデータを…
... このように変換可能です...
設定は以下を使用します。
列値設定の機能設定を行う場合は、
-
目的の値を含む列がDataSetにあるかを確認します。
-
キャンバスで、[列値設定] をクリックします。
-
(オプション)操作名称を変更するには、
をクリックして名称を入力します。
-
置換対象の値がある各列で、以下を実行します。
-
置換したい値がある列を選択します。
例えば、「製品基本利益」と入力します。 -
対象となる値がある列を選択します。
例えば、「純益」と入力します。 -
(条件付き)列の追加は、[列を追加] をクリックします。
-
文字列操作
文字列操作機能を使用すると、文字列のサブストリング化、トリム、スペース埋込が可能です。
例
例えば、文字列操作機能では、以下のデータを...
... このように変換可能です...
設定は以下を使用します。
文字列操作機能の設定は、
-
キャンバスで [文字列操作] 機能をクリックします。
-
(オプション)操作名称を変更するには、
をクリックして名称を入力します。
-
新規列の名称を入力します。
-
次に、実行する操作のタイプを選択します。
-
この機能を実行する対象列を選択します。
-
最後に、文字列で所望の開始位置と終了位置を指定します。
-
(オプション)列の追加は、[文字列操作の追加] をクリックします。
テキストフォーマット
テキストフォーマット操作では、テキストの書式設定(小文字のみにする、大文字のみにする、最初の文字のみ大文字にする)、数字の削除、または数字以外のすべてのテキスト削除などが可能です。
例
例えば、テキストフォーマット操作では、以下のデータを…
... このように変換可能です...
設定は以下を使用します。
テキストフォーマット操作の設定は、
-
キャンバスで、[テキストフォーマット] 操作をクリックします。
-
(オプション)操作名称を変更するには、
をクリックして名称を入力します。
-
フォーマットする列それぞれに対し、以下を行います:
-
テキスト列を選択する。
-
小文字・大文字のタイプを選択する。
-
数字を削除するか、数字以外をすべて削除するかを選択する。
-
-
(条件付き)列の追加は、[列を追加] をクリックします。
値マッパー
値マッパー操作では、入力した一組の文字列値に従って、指定した列の文字列値を検索して置き換えることができます。(値マッパーは、略語の置換、言語コードの変換などに使用できます)。置き換える値は、既存の列を上書きするか、または新しい列に書き出すかを選ぶことができます。
これ以外にテキスト値を置換する方法の詳細については、「テキストの置換」および「列値の設定」をご覧ください。
例
例えば、値マッパー操作では、以下のデータを…
... このように変換可能です...
設定は以下を使用します。
値マッパー操作の設定は、
-
キャンバスで、[値マッパー] をクリックします。
-
(オプション)操作名称を変更するには、
をクリックして名称を入力します。
-
検索対象の列を選択します。
-
指定した列の値を上書きするか、新しい列に値を書き出すかを選択します。
-
(条件付き)新しい列に値を書き出す場合、その列の名前を入力します。
-
-
行に一致する値が見つからなかった場合に、元の値を書き込むかデフォルトの値を書き込むかを選択します。
-
(条件付き)デフォルトの値を書き込む時は、その値を入力します。
-
-
値マッパーで検索するそれぞれの値について、検索する値と置き換える値を入力します。
-
(条件付き)マッピングを追加する場合は、[マッピングを追加] をクリックします。
コメント
0件のコメント
サインインしてコメントを残してください。