Alteryx機能紹介 Preparation(準備)

Alteryxの各機能を紹介。 Preparationカテゴリのツール20種を説明します。

処理アイコンをドラッグ&ドロップし、線でつなげていくことで「ワークフロー」という処理の履歴を構築し、
再生ボタンを押すことで、処理が実行できるため、とても分かりやすいのが強みの統計ツールである”Alteryx”。

今日はPreparation機能について詳細な説明をします。

Preparation(準備)

データ分析をするための準備に使うためのツール。
Excelでいう関数やソート、重複チェックや予測分析するためのデータ準備をする事が可能。
アイコンカラーは紺色。

Auto Field Strings(オートフィールド)
取り込んだデータを可能な限りの最小サイズ(最も小さな文字列タイプとデータ長)にします。
これにより、リソースの消費が削減され、ワー​​クフローのスピードが大幅に向上します。

———-Auto Field Strings(オートフィールド)ツールを使うシーン———-
Alteryxはcsvファイルを全て文字型として認識します。(Alteryxの仕様)
※注意※ キャンバスにドラッグ&ドロップし、他のツールと接続したら一度実行を押してください。

★出力例★
Alteryx Auto Field Strings オートフィールド ツール利用前後画面

Create Samples(サンプル作成)
投入したデータを2つまたは3つのランダムサンプルに分割します。

Data Cleansing(データクレンジング)
データクレンジングツールは、さまざまなパラメータを使用して共通のデータ品質の問題を修正できます。
例:Null値をすべて0に置き換える、大文字を小文字にする、特定の記号(@、,、/など)をすべて削除する。
※Null値をすべて置き換えるにはデータタイプがすべて同じである必要あり。

データクレンジングツールを使ったワークフローの事例紹介はこちらです。

Date Filter(日付フィルタ)
日付(Date型)で簡単にフィルターを掛けます。
※フィルタツールで日付型のデータを扱えるため、現在このツールはほぼ使われていません。

Filter(フィルタ)
定された条件を満たすためにファイル内のレコードを照会します。
このツールはTrueとFalseの2つの出力を作成します。
指定した条件と一致した場合に、真(True)へ出力され、不一致だった場合は偽(False)に出力されます。
両方の条件を見ることが出来るため、集計条件が合っているかどうかの確認が出来ます。
★出力例★

Formula(フォーミュラ)
変数追加の際に利用するツールです。
関数をフル活用して、入力テーブルにフィールドを追加したり、式に基づいて新しいデータフィールドを作成したり、
データ関係を割り当てたり、同じ前提条件に基づいて既存のフィールドを更新したりできます。
Excelのような関数や、IF文を使うことも出来ます。
文字型・数値型両方に対して計算します。

具体的な関数の紹介記事はこちらです。

Generate Rows(行生成)
レコードレベルで新しいデータ行を作成します。
このツールは、一連の数値、トランザクション、または日付を作成するのに便利です。

Imputation(インピュテーション)
補完ツールは、数値データフィールドの特定の値を別の選択された値で更新します。 NULL値を置き換える場合に便利です。
※ここでもNull値を0に置き換えることが可能です。
※Null値をすべて置き換えるにはデータタイプがすべて同じである必要あり。

Multi-Field Binning(複数フィールドビン分割)
マルチフィールドビニングツールは、1つまたは複数の列の値に基づいてbinにデータを割り当てます。
予測分析に使う際に利用します。

Multi-Field Formula(複数フィールドフォーミュラ)
複数のフィールドで単一の関数を簡単に実行できます。

Multi-Row Formula(複数行フォーミュラ)
数式作成の一部として行データを利用できるようにします。
このツールは、複雑なデータを解析し、実行中の合計、平均、パーセンテージ、その他の数学的計算を作成するのに便利です。
例:行において2012 空白・・・・2013となっている場合に空白セルに年号を入力することが可能です。

Oversample Field(オーバーサンプルフィールド)
予測モデルで効果的に使用できるように、データ値の等しい表現が存在するように入力データをサンプリングします。
入力データをサンプリングして、データ値の等しい表現が存在するようにして、予測モデルで効果的に使用できるようにします。

Random % Sample(ランダム%サンプリング)
入力データのランダムサンプルを介して取得されたレコードの指定された数またはパーセントを出力します。

Record ID(レコードID)
データに新しい列を作成し、データ内のレコードごとに順番IDを割り当てていきます。

Sample(サンプリング)
データの中の指定された部分を抽出します。

Select(セレクト)
各列の名称変更、行ごとの並べ替え、行ごとのデータタイプの変更、行削除をすることが可能です。
1つのツールで
・フィールドの順番
・フィールド名変更
・データサイズ
・並べ替え
・後続での利用する、しないフィールドの選択

が可能です。

★出力例★

Select Records(レコード選択)
選択した範囲または特定のレコードを抽出します。
Excelでいう”範囲指定でフィルタを掛ける”作業に似ています。

Sort(ソート)
指定されたデータフィールドの値に基づいて、英数字の順序で昇順または降順に並べ替えが可能です。

 

Tile(タイル)
データの範囲に基づいて値(タイル)を割り当てます。
このツールを使うことで、簡単にデータを区分ごとに分けることが出来ます。
<<Tile(タイル)ツールでできること>>
・等しいレコード数に分ける
・等しい合計値ごとに分ける
・標準偏差に基づくランク付け(スマートタイル)を行う
・マニュアル設定など

タイルツールを活用した具体的なワークフロー(RFM分析を実施)の紹介記事はこちらです。

Unique(ユニーク)
選択したフィールドに基づいて、データを2つ(重複したレコードと固有レコード)に分けます。
データの重複確認や、重複に見えるが実は違うデータを調べるのに有効です。

———-Unique(ユニーク)ツールを使う際の注意———-
重複データがあった場合は最も上にあるデータがUnique側に出力されます。
そのため、Sort Tool Alteryx アイコン画像Sort(ソート)ツールを使い並べ替えを行うことで、必要なデータが取り出せるようになります。

★出力例★
Alteryxは、重複したデータの確認も出来るため、設定が正しいかどうかの確認が出来ます。
Alteryx Auto Unique ユニークツール 事例紹介画像


Alteryx(アルテリックス)を14日間無料でご体験いただけます。
トライアル期間中もサポート対応実施中! ご不明な点がございましたらお気軽にお問い合わせください。
14日間のフリートライアルはこちらから

説明会(質問会)も定期的に開催しております。(説明会内容はこちら)今すぐお申込みください。
↓セミナー申し込みはこちらです↓
お申込みページ
「セミナーに関して」にチェックいただきセミナー希望と明記の上お申込みください。

関連記事

  1. Alteryxを活用したデータ分析の大まかな流れ・手順・方法を解説

  2. リリース情報(Alteryx Desinger 2020.1)

  3. 【事例紹介】Alteryxを使った激戦区調査(地図分析)

  4. test2

    Alteryxが得意とする地理空間分析・GIS構築

  5. 【記事紹介】TableauとAlteryxの相性の良さ

  6. Alteryxのレポート機能についてご紹介

フリートライアル(14日間の無料試用)