Alteryxはデータ分析の全てのプロセスをワンストップで実現することができます。
分析のプロセスに沿って、作業ベースで事例をご紹介します。
こんにちは、PR担当Saoriです。
AlteryxDesignerとは・・・
セルフサービスで高度なデータ分析が可能なプラットフォーム。
プログラミング言語を使うことなく、アイコンをドラッグ&ドロップし、つなげていくことで集計や、統計解析・機械学習も行うことが出来るデータ分析ツールです。
今回は、分析プロセス毎に、どのような課題を解決していったか、小さな作業と大きな作業に分けて事例をご紹介します。
ご覧いただき、何か解決や課題を見つけるためのヒントになれば幸いです。
適用イメージが湧くように紹介できればと思います。
ブログを読んで気になることなどありましたら、お気軽にお問合せください。
データ活用・分析プロセス
データの活用を行うための分析プロセス(ステップ)は下記の通りとなります。
▼ 目次
① 分析設計
弊社、LHit株式会社は分析に特化したビジネスを展開しています。
Alteryx製品(Designer/Server/Promote/Connect)の販売やセミナー開催だけでなく、お客様の課題をデータ活用で解決しております。そのため、事例(ノウハウ)が多くあります。
下記の説明は大まかな手順も分かるように課題ヒアリングから提案、そして構築まで説明しています。
小さなもの ①
【課題】
画像に含まれた文字を読み取りたい
【分析設計(抜粋)】
既存の学習済みのモデルを活用して読み取る
【PoC結果】
読み取り精度99%以上(簡易確認してから、構築を実施)
【構築】
Alteryxで下記のフローを作成した
→データ取得→フォルダ移動→(Python)画像解析処理→出力テキストのDBインサート
【まとめ ①】
課題のお伺いから、提案、PoC、システム構築まで行うことが可能です
大きなもの ①
【課題】
膨大なテキスト情報から欲しい情報を抽出し後続処理に繋げたい
【分析設計(抜粋)】
テキスト情報を形態素解析し、意味を持つ単位で分解し、品詞の種類を取得する。
目的変数(欲しい情報)を得るための変数(説明変数・特徴量)を集計し、モデル構築を行う
【実施】
分析を行い、モデル構築を行う
【構築】
分析結果をリアルタイムで出力できるようシステム化を行う
【まとめ ①】
課題をお伺いし、分析設計を細かに作成し、クライアントと相談のうえ、分析を実施する。また、リアルタイム処理も可能です。
適用業種 ①
全業種対応可能
弊社メンバーは基本中途採用となります。
前職のスキルを活かし、データサイエンティストとして活躍しています。
そのため、業種は問わず分析設計が可能です。
② データ取得
Alteryxはデータソースに直接繋げるインプットツールが用意されています。
Alteryxでは85種のデータソースに繋ぐことが可能です。
(詳細はこちらを参照ください Alteryx公式HELPページへ行きます。)
小さなもの ②
・Excelの特定のセルを取得する
こちらのようなExcelの一番左上(A1)からデータが始まっていない場合でも、
Alteryxへデータを取り込む際に範囲を設定することで、元データを変えることなく、ややこしいプログラム言語を使うことなくデータを取り込むことが出来ます。
・データベースと直接繋ぎデータを取得する
Alteryxはデータベースと直接つなぐことが出来るIn-DB(*1)という機能がございます。
下記の画像、データベースとつないでデータを取得しているのです。
・数億行のテキストファイルを読み込む
何億行のデータでも取り込めます。
※PCのメモリ量によって時間が掛かる場合はございますが、制限はありません。
まとめ ②
Alteryxでは、Pythonなどのコードを書くよりも簡単(基本はマウス操作と設定値入力)にデータを取得することが出来るため、また視覚的に出力結果を確認出来るためミスを軽減することができます。
大きなもの ②
・DBコードを書かずにデータを抽出できる
下記のように、Alteryxと同じように、マウス操作中心の動作でデータを取得することが出来ます。
また、SQL言語を使ってデータ取得をする事も可能ですので、データ取得する方のスキルに関わらず利用することが出来ます。
例)Connect In-DB(接続 In-DB)ツールを使ってデータを取得するための設定画面
・In-DBの機能を利用し、利用したい情報に整形した(データ量の多い複数テーブルの取得・複数の結合条件が必要な各テーブル・対数変換など複雑な集計処理)データを取得することができる
In-DBは、通常のワークフローと同様の加工・集計処理をデータベース上で処理を実行します。
その際、データベース上ではそれをどのように実現(複雑なSQL)しているかを利用者は意識する必要はありません。
まとめ ②
In-DBで処理を実行することで、データ取得に掛かる時間は大幅に削減できます。
Pythonコード(や、VBAのコード)で作成されたプログラムでは、取得項目を変更するだけでも、作成した本人以外は触りたくないものです。またそれだけを引き継いでも読めないし、変更するたびにいびつなプログラムになっていく経験をされた方も多いではないでしょうか。
Alteryxでは、取得カラム(結合キーとなる変数以外)を変更するのはマウス操作で簡単に可能です。
(*1)・・・AlteryxDesignerのIn-DB機能
事前にDB内で処理をしてから出力することで、ローカルPCへの負荷の削減や、処理時間の短縮を実現します。
適用業種 ②
全業種対応可能
データ取得の悩みは全業種共通だと考えております。
データ取得・加工はAlteryxの強みとなりますのでその強みを是非体験いただきたいと思っております。
③ 単純集計(データ理解)
Alteryxは常にデータを確認しながら、加工・集計が実施でき、ミスの軽減につながります。
また、ミスの軽減はプロジェクト全体の作業時間短縮にもつながります。
小さなもの ③
・InputData(データ入力)ツールのプレビューで簡易に確認
データを取り込む前にプレビュー表示をすることが出来ます。待ち時間なしで中身を確認することが出来ますので、取込時の失敗を避けることが出来ます。
例)InputData(データ入力)ツールにデータを取り込んだ後の設定画面
・Browse(閲覧)ツールでデータ概要を確認
データ取り込み実行後、閲覧ツールをつなげると下記のようにデータの概要を確認することが出来ます。
Nullの数や数値の中身、文字型であれば文字の長さ等、概要の把握が簡単に出来るようになっています。
例)Browse(閲覧)ツールを使って数値型データの概要を確認
・Summarize(集計)ツールを使いクロス集計で確認
例えば、変数を作成する処理の流れで、分岐をさせて、計算が正しいかどうかを確認することが出来ます。
例)変数作成後にSummarize(集計)ツールを使って確認するワークフローの一部
大きなもの ③
機械学習では多くの変数を作成します。下記の3つのツールで、全テーブル・カラムの傾向(最小、最大、平均、中央、分散、四分位など)を把握することが出来ます。
Summarize(集計)ツール
Field Summary(フィールドサマリー)ツール
Basic Data Profile(基本データプロファイル)ツール
これら3つのツールは、閲覧ツール同様、データの概要を知ることが出来ます。
異なる点は、データ出力ができる事、閲覧ツールより全フィールドを俯瞰してみることが出来ますので、
使い分けをしてみてください。
下記はそれぞれのツールで出力出来るデータ内容です。
作成した変数のチェックシートとして納品物としても利用できるアウトプットとなっています。
作成した変数1つ1つを集計して納品物を作成する手間も時間短縮可能です。
適用業種 ③
全業種対応可能
データ理解の必要性は、全業種共通だと考えております。
尚、弊社メンバーは全員がアナリストです。そのため、データの扱いに慣れていますので、どの分析・コンサルティング会社よりもデータ理解が早いところが弊社の強みと理解しています。
④ 変数(特徴量)作成
データ分析は変数の作成がもっとも重要となります。分析設計に基づいて変数を作成します。
Alteryxは変数の作成が短時間で作成できるような仕組みになっています。
小さなもの ④
・Formulaツールで変数を作成する
AlteryxDesignerのFormula(フォーミュラ)ツールは、Excelに用意されているような関数を利用することが可能です。1つのツールで複数個の変数を作成することができるので、変数の用途でグルーピングして変数を作成することで、理解しやすいワークフローを作成することが可能です。
例)Formula(フォーミュラ)ツールを使った関数実行とアウトプット例
大きなもの ④
マクロ(*2)をやRツール、Pythonツールは、機能をパッケージ化(関数)することができるので、共通の関数として配布すると便利に利用できます。WebサービスAPIもマクロ化して利用することが多くあります
・マクロを作成し、複雑な条件で変数を作成する
AlteryxDesignerは繰り返し作業をワンパッケージにまとめることが出来ます。
・Rツール、Pythonツールを利用し、RやPythonのライブラリを利用して変数を作成する
Rツールや、
Pythonツール はコードを直接書いて利用することが出来ます。Alteryxに搭載されている予測ツールでは物足りない、他のライブラリを使いたい、直接書いて利用されたい場合は是非活用ください。
例)AlteryxDesignerのLift chart(リフトチャート)ツールの裏ではこのようにRコードが書かれています。
Pythonツールの具体的な使い方についてはこちらの記事(Python Tool を使ったLoop処理|Alteryx Desinger 2018.3 新ツール紹介)をご覧ください。
Rのライブラリを追加する方法についてはこちらの記事(AlteryxのRツールとライブラリ追加方法)をご覧ください。
・WebサービスをAPI経由で実行し値を取得する
AlteryxDesignerはAPIを使ったデータ取り込みが出来ます。
・SFAデータ(Salesforceなど)との連携
・Microsoftサービスとの連携(One Drive/Azure など)との連携
・Googleサービス(Analytics/MAP/Bigquery/Sheets など)との連携
・その他APIサービスとの連携(Downloadツールを利用)
(*2)・・・Alteryxのマクロ機能
Excelのマクロと同じような意味です。定型作業をする際に、その作業をまとめてしまう=プログラム化することで、自動化することが出来ます。またAlteryxは集計プロセスが分かるのが強みですが、複雑な分析になるとフローが増え、分かりづらくなるというデメリットもあります。
そういうプロセスをマクロ化で省略し、分かりやすくすることが出来、また再利用が出来るようになります。
適用業種 ④
全業種対応可能
また、予測に関してどうしたらいいか分からない場合は、経験豊富なデータサイエンティストが目的変数を説明する特徴量の設計を行っております。ご相談ください。
また、その他モデルに関しては、こちらの記事(Alteryx機能紹介 Predictive(予測))をご覧ください。
⑤ モデリング(分析ツール)
Alteryxでは数多くのモデリング手法が利用できるように作られています。
使い方も簡単です。設定値を入力することで実行でき、確認用の重要度を示すグラフやコンフュージョンマトリックスなどモデル精度を確認するアウトプットも出力されます。
分析ツールの多くは” R言語 ”で作成されており、そのプログラミングも確認できるようになっています。エラー処理などかなり綺麗に作り込まれています。
また、直接言語を書きたい、利用されているモデル以外を利用したい方は、R言を直接記述することができ、構築済みモデルをデータ取得からの一連のフローに乗せることが可能です。
Pythonも直接記述することが出来ます!
小さなもの ⑤
・決定木分析
– 目的変数を説明する変数を洗い出す。また、分岐が出力されるので枝・葉単位で結果を読み解き施策を検討する
– 予測モデルとしても利用する
・ロジスティック回帰
– 目的変数を説明する変数を抽出し、その変数の重みをオッズ比などの指標から正確に捉える
– 予測モデルとしても利用する (テクニックも必要となりますが、決定木よりも精度が高いことが多い)
まとめ ⑤
決定木分析で閾値の検討も可能となるので、何か条件を決めたいときに利用することがあります。
例えば、優良顧客となるユーザーは、購入日数が〇日以上、初回購入が〇円以上などの条件を抽出することができます。
簡易に予測モデルを作成する場合は、決定木分析やロジスティック回帰分析の2つを実行して作成することがあります。
大きなもの ⑤
・ランダムフォレスト、SVM(サポートベクターマシン)など
– 決定木やロジスティック回帰では精度がでない命題でも、ハイパーパラメータのチューニングにより精度のよい分類器を作成することもできます。
・ベイズ統計、EMアルゴリズム
– 事前情報を組み込むことができ、複雑なシミュレーションにも対応可能なモデルとなります
まとめ ⑤
ランダムフォレストのハイパーパラメータの設定やベイズ統計などは、専門知識が必要となってきます。お問い合わせください。
弊社では、高度な分析モデルを利用するワークフロー作成や知識をつけるためのセミナーも開催しております。
適用業種 ⑤
全業種対応可能
解決したい命題があれば、経験豊富なデータサイエンティストが最適なモデルを提案し、構築いたします。
⑥評価
事前に評価方法を検討する必要があります。評価も様々な方法があるので、その評価方法も妥当かどうかの検討も必要となってきます。
小さなもの ⑥
・クロス集計
確認したい項目をクロス集計で確認することが最も簡単で確実な方法と考えています。
大きなもの ⑥
・各分析モデルツールのアウトプット
Alteryxは、モデルの評価に必要な評価用のアウトプット・・・予測統計ツールがレポートとして出力される、比較するためのツールやスコアをつけるためのツール
が用意されているので、専門知識は必要ない作りとなっています。
例)ランダムフォレストツールを使った場合のレポートサンプル
レポートまで出力出来るので、どこを見て評価したら良いか?と言うのが分かりやすくなります。
適用業種 ⑥
全業種対応可能
ある事象を評価する際、データの内容・評価期間・評価方法など緻密に計画することが必要です。
お困りの際はお気軽にお問い合わせください。
⑦ 展開
分析内容が有益だと判断された際、その分析を整理して自動で出力できるような構築を行います。
展開方法に絞って事例を記載します。
小さなもの ⑦
・メール送信
Alteryxではメール送信ができるE-mail(メール)ツールが用意されており、送付先リストがあればすぐに送信可能です。
・チャットワークに送信
・slackに送信
チャットワークやslackにはAPIが用意されています。
こちらもAlteryxのDownload(ダウンロード)ツールを使うことで送信が可能になります。
APIが取得できるサービスであれば、完了後メッセージを送ることも可能になります。
大きなもの ⑦
・BIへのレポート化
作った分析プロセス、ワークフローをBIツールへ出力も出来ます。
各担当で見るべき指標は変わってくるため、BIツールへレポート化することで、見たいタイミングで見たい人がアクセスすることが可能になります。
Alteryxでは、Tableau やPowerBIなどの様々なBIツールと連携が出来ます。
Publish to Tableau Server ツール
Publish to Power BI ツール
Alteryxでデータ集計後BIツールで可視化を行い、そこで気づいた改善点をAlteryxで集計プロセスを改善する、
PDCAプロセスを回すことが出来ます。
適用業種
全業種対応可能
分析結果の共有・展開も全業種対応だと考えております。
編集後記
Alteryxで「どのようなことができるか」イメージできましたでしょうか。
今回のブログで「適用業種」を記載しましたが、すべて項目で全業種対応可能となってます。
Alteryxはデータを扱う全ての業種で利用できるツールなんだと実感しました。また、弊社の強みも業種を絞らないことが弊社の強みなんだと実感しました。
Alteryxの活用方法をもっと具体的に知りたい。分析について相談したいなど、データに関することでしたら、お気軽にお問い合わせください。
TOP画像はUnsplash から Jade Stephens さんの写真を利用させていただきました。
Alteryx(アルテリックス)を14日間無料でご体験いただけます。
使い方が分からなくてもご説明差し上げます、お問い合わせください。
トライアル期間中もサポートいたします、ご不明な点がございましたらお気軽にお問い合わせください。
14日間のフリートライアルはこちらから
Alteryx(アルテリックス)のお見積りや、その他データ分析に関するご相談は「問い合わせページ」にて承っております。お気軽にご相談ください。
お見積もり依頼などのご相談はこちらから