はじめに
DomoのMagic ETLに大規模なアップグレードが実施されました。データ処理エンジンが大幅にアップグレードされ、ほとんどのDataFlowが大変迅速かつ効率的に実行できるようになりました。また、新しいタイルと機能が追加されたことで、新しいMagic ETLを使ったデータ変換を最大限に活用できるようになりました。新機能は4つの主要カテゴリーに分かれています。
パフォーマンス
実行時間を短縮
新しいエンジンは、従来のMagic ETLよりも大幅に高性能になっています。各DataFlowのパフォーマンスの変化はそれぞれ異なりますが、多くのDataFlowは[新しいMagic ETLを試す]トグルスイッチを切り替えるだけで格段に速く動作するようになります。
また、新しいMagic ETLのパフォーマンスはMySQLとRedShift DataFlowsのパフォーマンスを上回る場合があることも確認されています。
入力としてDataSetビューを表示
新しいMagic ETLでは、DataSetビューを入力として使用できるようになりました。これにより、列のフィルター、集計、名前変更、ドロップが簡単になり、新しいMagic ETLにデータを取り込む前にBeast Modeの関数を実行することができます。データを新しいMagic ETLに取り込む前に不要なすべての行をフィルタリングすると、実行時間を短縮することができます。
処理を追加
従来のMagic ETLにおける制限の1つは、実行中の変換に不要なデータであっても、DataFlowを実行するたびにエンジンが入力DataSetのデータをすべて読み込むということです。新しいMagic ETLでは、各実行の開始時にDataFlowの入出力の状態がシステムによって確認されます。可能な場合は、最後のDataFlowの実行以降に入力に追加された新しい行のみが処理されます。これらの行は自動で出力DataSetに追加されます。結果的に出力データは全く同じになりますが、実行時間が大幅に短縮されます。この最適化について詳しくは、「新しいMagic ETL DataFlowの自動追加処理」を参照してください。
新規/更新されたタイル
新規タイル
スクリプトを追加
SQLを頻繁に使っているユーザーの場合、従来のMagic ETLに移行すると使いにくく感じられることがありました。1行のMySQLコードで済むことが、従来のMagic ETLでは15回以上マウスをクリックしなければならないことがあります。[スクリプトを追加]タイルを使用すると、このような不満を解消することができます。[スクリプトを追加]タイルは、新しいMagic ETL DataFlowにSQLスタイルの構文を直接書き込むことができる、行ごとの式エバリュエーターです。複雑な式を使って列を作成および変更できます。この新しいタイルでは、CASEステートメント、統計ユーティリティー関数、およびtime-value-money演算すべてを簡単に実行することができます。
列を変更
[列を変更]タイルは、[列のタイプを設定]タイルのアップグレード版です。1つのシンプルなタイルで、列のデータタイプの名前変更、削除、変更を簡単に行えるようになりました。
動的アンピボット
この新しいタイルは、[アンピボット]タイルの反対です。入力DataSet上のスキーマが変更されることを想定している場合、[動的アンピボット]タイルを使用すると、新規行に指定された列を除くすべての列データをピボットして、表を絞り込むことができます。設定で除外された列は、行の値になります。
更新されたタイル
グループ化
[スクリプト]タイルを使用する際に考慮すべき重要な違いは、「実行しようとしている変換のタイプは何か?」ということです。変換タイプに集計が含まれている場合は、式サポートを伴うSQLスタイルをサポートしている[グループ化]タイルを使用する必要があります。[スクリプトを追加]タイルは、集計をサポートしていない行ごとの操作を実行します。SUMやMEDIAN、PERCENTILEなどの操作を使用する場合は、必ず[グループ化]タイルを選択してデータを集計してください。
行をフィルター
[行をフィルター]タイルは、SQLスタイルの式もサポートするようになりました。従来のMagic ETLで複合フィルターステートメントを実行するには、何回もマウスをクリックする必要がありました。新しいMagic ETLでは、この式エバリュエーターにより、複雑なフィルタールールをすばやく設定することができます。フィルターのスクリプトの書き込み方法について詳しくは、「新しいMagic ETLでフィルタースクリプトに書き込む方法」を参照してください。
ピボットおよびアンピボット
以前の[列を展開]タイルは[ピボット]タイルになりました。以前の[列を折りたたむ]タイルは[アンピボット]タイルになりました。
データを結合
従来のMagic ETLでデータを結合する際、列名の競合は処理するのが困難でした。新しいMagic ETLでは、[データを結合]タイルを使って、重複した列名が発生したときにどのように処理するかを簡単に指定できます。列名の競合解消オプションと列のドロップオプションにより、[データを結合]タイルの実行はかつてないほど簡単になりました。
PythonとRのスクリプト
スクリプトタイルの柔軟性がより高くなりました。出力DataSetにスキーマを指定できるようになりました。スクリプトを実行すると、出力DataSetに必要なスキーマが提供され、時間を節約できます。プレビューを実行してスキーマを生成したり、ダウンストリームタイルの一部として必要な場合にスキーマを指定することができます。
ユーザーインターフェイス
カラーコード化された曲線
従来のMagic ETLでは、グラフ単体を閲覧するだけでは複雑なETLを理解することは難しい状態でした。現在、カラーコード化された曲線では、デフォルトでデータソースごとに線が色分けされるようになりました。これにより、変換の流れをすばやく把握することができます。デフォルトの色を変更したい場合は、カラーピッカーを使って変更することができます。
タイルに関する注記
作成した覚えのない、あるいは何ヶ月もの間放置された、複雑なMagic ETL DataFlowに遭遇したことがありますか?それらのDataFlowは、どのような変換が行われているか解読したり、存在理由自体を突き止めることすら難しい可能性があります。個々のタイルに注釈機能を付けることで、DataFlowが各タイルで実行している内容について詳細な説明を書き込むことができます。
新しいタイルのカテゴリー化
従来のMagic ETLでは、ドロップダウンカテゴリーが[DataSets]、[列を編集]、[データを編集]、[データを結合]に限られているため、必要なタイルを見つけることは容易ではありませんでした。新しいMagic ETLでは、[テキスト]、[日付と数値]、[ユーティリティー]、[フィルター]、[データを結合]、[集計する]、[ピボット]という、より詳細なカテゴリーが用意されています。タイルのツールチップも、それぞれのタイルの最新情報を反映するように更新されました。
データプレビューでテキストを選択
新しいMagic ETL DataFlowでは、選択可能なテキストでプレビューデータに簡単にアクセスできます。[プレビュー]または[データ]タブにある個々のセルまたはセルのグループをすばやくコピーして貼り付けることができるようになりました。
高度なオプション
データタイプの処理に関する拡張
スクリプトを含めることで、新しいMagic ETLはより汎用的なツールになりました。この新機能は、DataSetの初期ロード時だけでなくDataFlow全体に対して、データタイプの処理を確実に設定できるようにするというニーズに応えたものです。列がどのデータタイプであるべきか、そして予定されているフォーマットとそのデータタイプでデータが読み取り不可な場合の処理を簡単に指定することができます。
入力DataSetタイルのプレビューとデータ表
入力時におけるデータタイプの分類が追加されたため、入力DataSetタイルに新しいプレビュータブを導入しました。新しいプレビュータブでは、データタブの未加工データや構成済みの変換設定ごとのデータ変化を簡単に確認できます。
DataFlow変換設定
新しいMagic ETLでは、タイムゾーン、ロケール、照合順序モードを処理することができ、DataFlowのデフォルトの日付とタイムスタンプフォーマットを指定することができます。これはタイルをどのタイムゾーンで実行するかを指定する必要がある場合に、DataFlowレベルおよび個々のタイルレベルでアクセスできます。
コメント
0件のコメント
サインインしてコメントを残してください。