機能|ETLツールとして必要な機能を備え持っているAlteryx

Alteryx ETL 概念図 EAI

Alteryxは、
91種のデータソースを扱うことができます。
また、複数のシステムにあるデータを取り込み、加工・変換・結合を行うことができます。

今回は全てのデータソース(拡張子46種)の全種紹介および、
ETLツールとしての使い方について、ご紹介します。

こんにちは、PR担当Saoriです。

”Alteryx”は、処理ツールをドラッグ&ドロップをし、複数つなげていくことで「ワークフロー」
という処理の履歴を構築し、再生ボタンを押すことで、処理が実行できるため、とても分かりやすいのが
強みの統計ツール。

クライアント様のデータ分析を担っている中で、接続するデータソースが非常に多くなってきていると感じています。
作業効率の向上』、『人為的なミス削減』、『属人化の排除』を考えると、何かしらツールを使うのが正解かとプロジェクトを行う上で考えることがあります。
そこで、AlteryxのETLツールとしての実力はどの程度なのか考えてみました。

ETLツールの必要機能とは

ETLのアルファベットは、下記にあげる機能の頭文字から作られた造語になります。

  1. Extract(抽出する)
  2. Transform(変換する)
  3. Load(書き出す)

私の認識は、幾つものデータソースと繋ぎ込みを行い、必要な集計・加工を行い、他のシステム(DWH※1)に連携する。でした。
ETLの用語が出来たときには、Extract(抽出する) → Transform(変換する) → Load(書き出し) の処理がETLツールの大きな役割だったのかと思います。
今日では、ETLツールにも、Alteryxが得意とするデータ結合(Data Blending)、データ準備(Prep)も含まれていますね。

※1:データウェアハウス

AlteryxのETLツール機能について

AlteryxのETLに関する機能について、詳しくご紹介します。

Extract(抽出)、Load(書き出し) : 接続可能なデータソース

Alteryxは、多くのデータソースに接続(入力・出力)ができます。

業務でもっとも利用するExcel、データを格納するデータベース(MySQL、PostgreSQL、Microsoft SQL Server、など・・・)、ビックデータに対応したデータベース(Amazon Redshift、Google BigQuery)、BIツール(tableau、PowerBI・・・)、またAPIを利用することで、Twitterなどでも、データを取得することができます。

Alteryxの公式情報に記載の対応しているデータソース(アルファベット順:全91種類)をご紹介します。

 “+”マークをクリックすると内容をご確認いただけます。 
Alteryx対応データソース一覧
# メーカー 製品名 拡張子 対応範囲
1 Adobe Adobe Analytics Read-only
2 Alteryx Alteryx Database .yxdb Read, Write
3 Alteryx Calgary .cydb Read-only
4 Alteryx Spatial ZIP .sz Read, Write
5 Amazon Amazon Athena Read, Write
6 Amazon Aurora Read, Write
7 Amazon Redshift Read, Write, In-DB
8 Amazon Redshift Spectrum Read, Write
9 Amazon S3 Read, Write
10 ASCII ASCII .flat, .asc Read, Write
11 Apache Apache Hadoop Avro .avro Read, Write
12 Cassandra Read, Write
13 Hadoop Distributed File System (HDFS) Read, Write
14 Hive Read, Write, In-DB
15 Apache Spark Direct Read, Write, In-DB
16 Apache Spark ODBC Read, Write, In-DB
17 Apache Spark on Databricks Read, Write, In-DB
18 Autodesk Autodesk .sdf Read, Write
19 Cloudera Cloudera Impala Read, Write, In-DB
20 Hadoop Distributed File System (HDFS) Read, Write
21 Hive Read, Write, In-DB
22 CSV Comma Separated Value .csv Read, Write
23 Databricks Databricks Read, Write, In-DB
24 DataStax DataStax Enterprise, DataStax Community Read, Write
25 dBase dBase .dbf Read, Write
26 ESRI ESRI GeoDatabase .gdb Read-only
27 ESRI Personal GeoDatabase .mdb Read-only
28 ESRI Shapefile .shp (.dbf, .shx, .prj) Read, Write
29 EXASOL EXASOL Read, Write, In-DB
30 Foursquare Foursquare Read-only
31 GIS GIS .grd, .grc Read-only
32 Google Google Analytics .kml Read-only
33 Google BigQuery Read, Write
34 Google Earth/Maps Read, Write
35 Google Sheets Read, Write
36 GZip GZip Files .tar.gz Read-only
37 Hortonworks Hadoop Distributed File System (HDFS) Read, Write
38 Hive Read, Write, In-DB
39 HP Vertica Read, Write, In-DB
40 HTML HyperText Markup Language .htm Write-only
41 IBM IBM DB2 .sav Read, Write
42 IBM Netezza/Pure Data Systems Read, Write, In-DB
43 IBM SPSS Read, Write
44 JSON JSON .json Read, Write
45 MapInfo MapInfo Professional Interchange Format .mid, .mif Read, Write
46 MapInfo Professional Table .tab (*.dat, *.map, *.id, *.ind) Read, Write
47 MapR Hadoop Distributed File System (HDFS) Read, Write
48 Hive Read, Write, In-DB
49 Marketo Marketo Read, Write
50 Microsoft Microsoft Access 2000-2003 .mdb Read, Write
51 Microsoft Analytics Platform System Read, Write, In-DB
52 Microsoft Azure Data Lake Store Read, Write
53 Microsoft Azure ML Read-only
54 Microsoft Azure SQL Database Read, Write, In-DB
55 Microsoft Azure SQL Data Warehouse Read, Write, In-DB
56 Microsoft Cognitive Services Read-only
57 Microsoft Dynamics CRM Read, Write
58 Microsoft Excel 1997-2003 .xls Read, Write
59 Microsoft Excel 2007, 2010, 2013, 2016 .xlsx Read, Write
60 Microsoft Excel Binary
61 Requires 2010 Access driver .xlsb Read, Write
62 Microsoft Excel Macro Enabled .xlsm Read, Write
63 Microsoft Office Access 2007, 2010, 2013, 2016 .accdb Read, Write
64 Requires Access driver
65 Microsoft OneDrive Write-only
66 Microsoft Power BI Write-only
67 Microsoft SharePoint Read, Write
68 Microsoft SQL Server 2008, 2012, 2014, 2016 Read, Write, In-DB
69 MongoDB MongoDB Read, Write
70 MySQL MySQL Read, Write, In-DB
71 Netsuite Netsuite Suite Analytics Read-only
72 OpenGIS Geography Markup Language .gml Write-only
73 Oracle Oracle Read, Write, In-DB, Predictive
74 Pivotal Pivotal Greenplum Read, Write, In-DB
75 PostgreSQL PostgreSQL Read, Write, In-DB
76 Qlik Qlik Sense, QlikView .qvx Read, Write
77 Salesforce.com Salesforce Read, Write
78 Salesforce Wave
79 SAP SAP Hana Read, Write, In-DB
80 SAS SAS .sas7bdat Read, Write
81 Snowflake Snowflake Read, Write, In-DB
82 SQLite SQLite .sqlite Read, Write
83 SRC Geography SRC Geography File .geo Read, Write
84 Tableau Tableau Data Extract .tde Write-only
85 Tableau Hyper Data Extract .hyper Write-only
86 Teradata Teradata Read, Write, In-DB
87 Teradata Aster Read-only
88 Text Text .txt Read-only
89 Twitter Twitter Read-only
90 XML Extensible Markup Language .xml Read-only
91 Zip Files Zip Files .zip Read-only
Transform(変換する): データ結合・加工・集計

Alteryxはデータ分析の前準備(Prep)に必要な機能を備えたツールです。当然にデータの変換(Transform)やデータ結合・加工・集計(DataBlending)においても必要な機能を備えています。
下記はDataBlending、Transformに関するツールの一覧となります。 Alteryxのデータ結合・加工・集計の機能をご紹介します。

 “+”マークをクリックすると内容をご確認いただけます。 
Preparation (準備)カテゴリのツール
ツール名 アイコン 詳細
オートフィールド文字列  AutoField オートフィールド Alteryx アイコン 各列のデータを格納する最小のサイズとタイプに、各文字列フィールドのフィールドタイプを自動的に設定します。
サンプル作成  CreateSamples サンプル作成 Alteryx アイコン データストリームを推定サンプルと検証サンプルの指定された割合のレコードで2つまたは3つのランダムサンプルに分割します。
データクレンジング  DataCleansing データクレンジング Alteryx アイコン チェックボックスから簡単に一般的なデータクレンジングを自動的に実行します。
フィルタ  フィルタ Filter Tool Alteryx アイコン画像 データを2つのストリーム、つまりTrue(式を満たすレコード)とFalse(存在しないレコード)に分割する式に基づいてデータを分析します。
 Formula 式 ツール Alteryx アイコン 1つ以上の式を使用して新しい列を作成したり、列を更新したりして、さまざまな計算や操作を実行します。
行生成 Generate Rows 行生成 ツール Alteryx アイコン 新しいデータ行を作成します。一連の数値、トランザクション、または日付を作成する場合に便利です。
インピュテーション  Imputation インピュテーション Alteryx ツール アイコン 数値データフィールドの特定の値を別の選択された値に更新します。
NULL値を置き換えるのに便利です。
マルチフィールドビニング  MultiFieldBinning マルチフィールドビニング Alteryx ツール アイコン 特に予測分析に使用するために、複数のフィールドを同時にタイルまたはビン表示できるツールです。
マルチフィールドフォーミュラ  MultiFieldFormula マルチフィールドフォーミュラ Alteryx ツール アイコン 1つの式を使用して複数のフィールドを作成または更新して、さまざまな計算を実行します。
マルチローフォーミュラ  MultiRowFormula マルチローフォーミュラ Alteryx ツール アイコン 複雑なデータを解析し、累積和、平均、パーセンテージ、およびその他の数学的計算を作成するのに便利です。
オーバーサンプルフィールド  OversampleField オーバーサンプルフィールド Alteryx ツール アイコン 予測モデルで効果的に使用できるように、データ値の等しい表現が存在するように入力データをサンプリングします。
ランダムサンプリング   乱数またはパーセンテージで数量を指定し、無作為抽出を実施します。
レコードID  RecordID レコードID Alteryx ツール アイコン 各レコードに一意の識別子を割り当てます。
サンプル  sample サンプル Alteryx ツール アイコン データストリームを指定された数、割合、またはランダムなレコードセットに制限します。
選択  Select 選択 Alteryx ツール アイコン フィールドの選択、選択解除、並べ替え、カラム名の変更、フィールドのデータ型やサイズの変更、および説明の割り当てを実施します。
レコード選択  SelectRecords レコード選択 Alteryx ツール アイコン レコードの不連続範囲を含む、指定されたレコードおよびレコードの範囲を返します。
トラブルシューティングやサンプリングにとても役立ちます。
ソート  Sort ソート Alteryx アイコン画像 1つ以上のフィールドの値に基づいて昇順または降順でレコードをソートします。
タイル  Tile タイル Alteryx ツール アイコン フィールド内の値の範囲に基づいて、データをセット(タイル)にグループ化します。
ユニーク  Unique ユニーク Alteryx アイコン画像 ユーザーが選択したフィールドに基づいて、データを重複したレコードと固有のレコードに分けます。
JOIN(結合)カテゴリのツール
ツール名 アイコン 詳細
フィールド追加  AppendFields フィールド追加 Alteryx アイコン画像 ある小さな入力(ソース)のフィールドを別の大きな入力(ターゲット)のすべてのレコードに追加します。結果はFullOuterJOINとなります。
探索変換  FindReplace 探索変換 Alteryx ツール アイコン 1つのデータストリームから1つのフィールドのデータを検索し、別のストリームから指定されたフィールドに置き換えます。
ExcelのVLOOKUPに似ています。
ファジーマッチ  FuzzyMatch ファジーマッチ Alteryx ツール アイコン データストリーム内で同一でない重複を特定します。
結合  Join ジョイン Alteryx アイコン画像 共通のフィールドまたはレコード位置に基づいて2つの入力を結合します。出力は各行に両方の入力からのデータが格納されます。
複数ジョイン  JoinMultiple 複数ジョイン Alteryx ツール アイコン 共通のフィールドまたはレコード位置に基づいて2つ以上の入力を結合します。 結合された出力では、各行には各入力からのデータが格納されます
グループ作成  MakeGroup グループ作成 Alteryx ツール アイコン マッチングペアをその関係に基づいてグループにまとめます。
一般的に、Fuzzy Match Toolと一緒に使用されます。
ユニオン  Union ユニオン Tool Alteryx アイコン画像 フィールド名または位置に基づいて、類似の構造を持つ2つ以上のデータストリームを結合します。 出力には、各列に各入力のデータが格納されます。
SUMMARIZE(集計)カテゴリのツール
ツール名 アイコン 詳細
アレンジ  Arrange アレンジ Alteryx ツール アイコン プレゼンテーションの目的でフィールドを手動で転置して並べ替えます。
記録カウント  CountRecords 記録カウント Alteryx ツール アイコン 垂直フィールドが水平軸になるようにデータストリームの方向をピボットし、指定された場所で要約します。
クロスタブ  CrossTab クロスタブ Alteryx ツール アイコン データストリームを通過するレコードを数えます。
レコードが通過しない場合、ゼロのカウントが返されます。
累積和  Running Total 累積和 Alteryx ツール アイコン データストリーム内のレコードごとの累積合計を計算します。
サマライズ  Summarize サマライズ Tool Alteryx アイコン画像 グループ化、集計、集計、空間処理、文字列連結などのデータを集計します。 出力には、計算結果のみが含まれます。
転置  Transpose 転置 Alteryx ツール アイコン 水平フィールドが垂直軸になるように、データストリームの方向をピボットします。
加重平均  Weighted Average 加重平均 Alteryx ツール アイコン いくつかのレコードが設定されている値のセットの加重平均を計算します。

Alteryxの強み

高速化処理技術

Alteryxは,データベースからデータを移動することなく、分析・集計(・予測)を行うことが可能です。
大規模なデータを、取り出すことなくデータベース内で分析することができます。

なお、大規模なデータを扱うときは、取り込み・出力(I/O)に時間がかかります。
その時間を短縮できるというのはとても大きいです。
実際に使っているときのストレスが大変軽減します。
Alteryx In-DB接続ワークフロー

また、簡単にDBへデータの取り込みをすることもできますし、(※書き込み権限がある場合のみ)
DBにないデータをAlteryx上で追加して計算・集計を行うことも可能です。
Alteryx In-DB接続ワークフロー 2

詳細はこちらの記事でより細かい使い方のご説明をしています。

インプットから、出力までワンストップで対応可能

ETLツールとして、導入企業の多い『ASTERIA WARP』や『DataSpider』と比較してもAlteryxは遜色ありません。
将来的にBIツールのダッシュボードで予測値の出力も検討しておりましたら、Alteryxの利用を強くお勧めします。
こちらのようにワンストップで利用することが可能です!

Alteryx ETLツールとしての役割

 

Alteryx(アルタリクス/アルテリックス)を14日間無料体験いただけます。
日本語版も体験いただけます。
また、トライアル期間中もサポート対応実施中、ご不明な点にお答えします。
14日間のフリートライアルはこちらから

説明会(質問会)も定期的に開催しております。(説明会内容はこちら)今すぐお申込みください。
↓セミナー申し込みはこちらです↓
お申込みページ
「セミナーに関して」にチェックいただきセミナー希望と明記の上お申込みください。

関連記事

  1. 全ツールの紹介と、Favorite(お気に入り)登録済ツールの詳細機能…

  2. Alteryx Excel Convet

    ExcelユーザーのためのAlteryx関数変換表2

  3. AlteryxがExcel業務を改善する5つの方法 を読んでみた。

  4. web解析・ウェブマーケティングに便利なRegEX(正規表現)ツール

  5. Alteryxをダウンロードしてみました。【14日間お試しが可能】

  6. Alteryx Desginer 2019.2 Start画面FULL

    リリース情報(Alteryx Desinger 2019.2)

フリートライアル(14日間の無料試用)