はじめに
Magic ETL DataFlowは、データセンターで利用できる直観的なドラッグアンドドロップのインターフェースを使って作成できます。DataSetをキャンバスにドラッグし、DataSetをどのように結合および変換するかを指定するタイルを追加するだけです。曲線は入力されたDataSetに応じてカラーコード化されます。結合後も色が維持され、結合のメインテーブルの入力DataSetが表示されます。膨大な数のタイルが利用できます。列の結合や行のフィルタリング、そしてテキストの置き換えなどを行うことができます。タイルに関する詳細は、以下のトピックを参照してください。
動画 - Magic ETLの概要
重要:DataFlowの入力DataSetは、PDPポリシーで制限することはできません。利用可能なすべての行はDataFlowを経由する必要があります。このため、PDPポリシーは、DataFlowが生成する出力DataSetに適用する必要があります。
PDPポリシーが有効の状態で、入力DataSetを使ってDataFlowを作成するときには、以下の条件が少なくとも1つ満たされていないと、DataFlowに不具合が発生します。
-
「管理者」セキュリティ権限、または「DataFlowを管理」が有効になっているカスタム権限がある。
-
あなたはDataSetの所有者である。
-
あなたは、「すべての行」ポリシーの一部を構成している。これは、DataSetのすべての行にアクセスできるものです。
DataFlowでPDPを使用する方法に関しては、「PDPとDataFusion / DataFlow」を参照してください。
Magic ETL DataFlowを作成する
このセクションでは、Magic ETL DataFlowの作成に役立つ手順について説明します。
Magic ETL DataFlowを作成するには:
-
Domoで、画面上部のツールバーの[データ]をクリックします。
-
ウィンドウ上部の[Magic変換]ツールバーの [ETL]をクリックします。
ヒント:Magic ETLエディターは、Domoの任意の場所でAppツールバーを選択し、[データ]、[ETL]の順に選択することでも開くことができます。
-
入力DataSetを追加および設定するには、次の手順を実行します。
-
[タイル]パネルで[DATASET]を展開し、キャンバスに[入力DataSet]をドラッグします。
-
[入力DataSet]タイルをクリックし、変換するDataSetを選択します。
-
-
出力DataSetを追加するには、次の手順を実行します。
-
[タイル]パネルの[DataSet]で、キャンバスに[出力DataSet]をドラッグします。
[出力DataSet]タイルの設定は、タイルを接続した後で行うことができます。
-
-
入力DataSetを変換(クリーン、集計、結合など)するには、ほかのタイルを[タイル]パネルからキャンバスにドラッグします。
詳細は以下を参照してください。-
ヒント:ツールチップのテキストにリストされているアイテムを検索して、必要なタイルを探すことができます。
-
変換の流れにおける処理の順番を決定するため、変換タイル間のつながりを明確にします。
-
各タイルを設定するには、タイルをクリックし、オプションを指定します。
ヒント:タイルに関するヘルプをキャンバス内で表示するには、タイルをクリックしてからをクリックします。また、複数のタイルを一度に選択するには、キャンバスをクリックし、マウスポインターをタイルの上にドラッグします。複数のタイルを選択したら、それをまとめて好きな場所へドラッグできます。また、画面左側のパネルにある[削除]をクリックすることで、選択したタイルを削除することもできます。
-
[出力DataSet]タイルを設定するには、次の手順を実行します。
-
タイルを[出力DataSet]タイルに接続します。
-
[出力DataSet]タイルをクリックし、出力する新しいDataSetの名前を指定します。
-
-
(オプション)変換フロー実行時のための設定を行います。
デフォルトでは、変換フローは手動で実行した時のみ実行されます。Magic ETL DataFlowをスケジュールして、指定した入力DataSetに変更があった時、または指定された時刻にMagic ETL DataFlowが実行されるようにすることができます。 -
Magic ETL DataFlowの名前と詳細を指定します。
-
[保存する]をクリックしてMagic ETL DataFlowを保存し、必要に応じてバージョンの説明を入力したら確認のために[保存する]をクリックします。
DataFlowを保存すると、このバージョンのエントリーがDataFlowの詳細ビュー内の[バージョン]タブに追加されます。保存する際に説明を入力した場合は、DataFlowのエントリーにその説明が表示されます。バージョンの詳細については、「DataFlowのバージョン履歴を閲覧する」を参照してください。
DataFlow作成のためのベストプラクティス
各DataFlowでは以下の点に注意しましょう。
-
出力DataSetに必要なDataSetのみを含めます。
-
DataFlowの開始時に不要な行をフィルターで取り除きます。
-
列の数を減らして必要なものだけにします。
-
DataFlowに各タイルの内容の分かる名前を含めます。
-
DataFlowの説明には以下を含めます。
-
結合または操作される入力DataSet
-
作成中のDataSet
-
DataSetの所有者
-
-
出力DataSetと同じ名前を付けること(DataFlowの出力はData Center内の独自のDataSetになるため)。これにより、どのDataSetがどのDataFlowによって作成されたかを容易に識別できるようになります。
-
次のタイルは、ほかのタイルよりも時間がかかることに注意してください。
-
グループ化
-
データを結合
-
重複の削除
-
ピボット
-
ランクとウィンドウ
-
スクリプティング
-
データサイエンス
-
コメント
0件のコメント
サインインしてコメントを残してください。