ビックデータを効率よく抽出し分析する方法 『In-DB処理』

Alteryxは高速データ処理をするための技術である、
In-DB(SQLプッシュバック)という機能が備わっています。

データベースに対し、必要な情報のみを取り出すことによって、
作業時間が短くなります。

こんにちは、PR担当Saoriです。

”Alteryx”は、処理ツールをドラッグ&ドロップで、線でつなげていくことで「ワークフロー」
という処理の履歴を構築し、再生ボタンを押すことで、処理が実行できるため、とても分かりやすいのが
強みの統計ツール

本日は高速データ処理技術“In-DB処理”についてご紹介いたします。

概要説明—-高速処理技術(In-DB)—

In-DBとは?

データベース内で処理をして、必要な情報のみを出力させるための機能全般を指します。

この処理により、大量な情報に対し、データベース内てブレンディングと分析を行うことができ、
処理のために別の環境に不要なデータを移動する必要が無く、処理時間を節約できます。

ビックデータの分析が容易になるんです!

また、必要最低限なデータのみ取り出すことが可能になりますので、
不要なデータや個人情報などセンシティブなデータをわざわざ取り出す必要が無くなります。

さらに、こういったビックデータの分析は、SQLなどある程度専門的な知識が必要になりますが、
Alteryxはドラッグ&ドロップで実施することが可能です。

In-DB 主な機能

Alteryxで通常使っている機能とほぼ同じように使うことが出来ます。
データを取り込み、集計を行い、予測や分析をすることが可能です。
各機能の細かい利用方法(詳細)は こちら をご覧ください。

In-DB機能を使うことのメリット

Alteryx上で一貫して、ビックデータの取得から集計、レポートまでをドラッグ&ドロップで対応できる。

だと思います。

早いんです!

例えば、エンジニアさんに頼みSQLでデータを取得→CSVに出力→集計や分析をし→報告といった流れがあったとしても、
Alteryxはそれを一人で実施することが可能です。
このような感じです。

Alteryx In-DB接続ワークフロー

In-DB機能内で高速に予測分析(機械学習)も可能

AlteryxのIn-DB機能(SQLプッシュバック)では、予測ツールを利用することも可能です。
決定木分析や、線形回帰分析、ブースト回帰モデル、ロジスティクス回帰を使い、分析をすることが可能です。
高速処理の中で機械学習をさせることが出来るんです!

具体的なツールは以下の6つです。
・Boosted Model Tool
Boosted Model Tool Alteryx アイコン画像
・Decision Tree Tool
Decision Tree Tool Alteryx アイコン画像
・Forest Model Tool
Forest Model Tool Alteryx アイコン画像
・Linear Regression Tool
Linear Regression Tool Alteryx アイコン画像
・Logistic Regression Tool
Logistic Regression Tool Alteryx アイコン画像
・Score Tool
Score Tool Alteryx アイコン画像

なお、こちらの予測ツールはツールアイコンをドラッグ&ドロップし、
In-DB機能と連携させると、自動的にIn-DB機能向けアイコンに変換されます。

内容説明—In-DB処理を使ったワークフロー—

それでは早速In-DB 処理を使って分析してみます。

データの取得

In-Databaseタブから
Connect In DB Tool
Connect In-DB アイコン画像

をAlteryxのキャンバス上にドラッグ&ドロップします。
オレンジ色の矢印をクリックし、どのデータベースと接続をするかを選択してください。
※そもそもデータベースとどうやってつなげるのさ? については後日解説します!
Alteryx In-DB Connect In-DB 説明

するとQueryBuilder というのが立ち上がり、必要なデータを取得していきます。
Alteryx In-DB 2 QueryBuilder TOP画像
どのデータベースのどのテーブルのどのカラムを使うの?
というのがこちらも視覚的に分かりやすいようになっています。
今回は、必要な情報だけを先にクリックで選択をしました。
Alteryx In-DB 2 QueryBuilder2 選択画像

ちゃんと取れているか見てみましょう。
Alteryx In-DB 結果確認画像

見れてますね。
ここではまだDB内のでの処理となります。
(確認をしすぎるとそもそものDBに影響がありますので、ご注意ください。)

In-DB機能と連携して集計

それでは、In-DB機能と連携して集計をしてみます。
今回はその中で大分類だけに限定をし、出力することにしました。
ここで大活躍なのが
Data Stream Out Tool です。
Data Stream Out Alteryx アイコン画像

DB内処理とAlteryx内処理の連携が出来るようにするためのツールになります。
Alteryx In-DB Data Stream Out 連携画像

このように連携して使います。

今回は、連携後に
Summarize Tool
Summarize Tool Alteryx アイコン画像

で集計してみました。

集計出来ましたね。

—参考—
Summarize Tool はIn-DB機能でも提供されています。
Summarize In-DB Alteryx アイコン

こちらを使って同じ結果が出るか試しにやってみます。

同じ結果でした。

今回のワークフローは以下になります。
Alteryx In-DB ワークフロー

まとめ

事前に集計を進めてからAlteryx(PC上)に出力することで、作業時間が大幅に短縮されます。

今回は簡易データを使い、簡単なワークフローのご説明となりましたが、
ギガやテラのデ―タを扱う場合、事前にDB内で集計をしてしまった方が、
断然早いです。

また、このIn-DB機能(SQLプッシュバック)に関する機能は奥が深く、
裏技的な使い方や便利な使い方もできます。
SQL初心者の方はドラッグ&ドロップやクリックで、
SQL上級者の方はQuery文を直に書くような使い方もできます。

今後、さらにご紹介してまいります。

関連記事

  1. 数あるAlteryx Predictive Toolsで何を使えばいい…

  2. Alteryx機能紹介 Parse(解析)

  3. Salesforce Alteryx blog タイトル LHit

    SalesforceデータをAlteryxから取り込むツールとキットの…

  4. Alteryx機能紹介 Join(データ結合)

  5. データ分析初心者がAlteryxを2年使ってみて

  6. Tableau prep と Alteryx の比較

フリートライアル(14日間の無料試用)