データ分析はじめの一歩②【データの中身】

データ分析をするにあたっての基本のような、知っておくと良いことについてご紹介したいと思います。
本シリーズはAlteryxを使うと良いことがあるよ!という記事ではなく、データ分析が初めての方に向けた記事です。

こんにちは、PR担当Saoriです。

そろそろ人の動きも始まるのかな?と思いながらも、おうちの中で頑張っていらっしゃる方も多いと思います

さて、データ分析をこれから行う方に向けてのはじめの一歩として、
基本のような、知っておくと良いことについて数回に分けて記事を書いていきます。

また、Alteryxは、データ分析初心者の方が使うツールとしては最適だと私は思っており、
そのAlteryx良いところについても、伝わったら嬉しいなって思ってます。

今回は第二回、データの中身 です。

※今回ご紹介している設定画面のキャプチャは、 AlteryxDesigner2020.1 日本語版 を利用しています。

データ分析はじめの一歩 ②【データの中身】

1.データの中身とは?

今回も、質問します。

・”データ”の中身はどうなってる?って聞かれたらどう答えますか?

 

・・・

・・・

 

いかがでしょうか。

データの中身について、何を見ればいいのか?と思われませんでしょうか。
私はそうでした。
なので「いい感じです!」と答えて怒られたことがあります。

例えば、Excelは、
ファイルを開いたときにデータの型って意識しなくても使えるように出来ています。
日付に見えるデータも引き算は -1 でできてしまいます。
空白があっても計算上困ることはありません。
縦と横の変換もコピー&ペーストやピボットテーブルで簡単に行えますし、
少数の桁数もワンクリックで変えられます。

これはExcelがデータ型や空白等を意識しなくても計算できるように作られているからです。
大変すばらしい機能なのですが、Excelを利用していた感覚でデータ分析を始めると、
今まで意識していなかった点を意識しないといけなくなるため、つまづきます。

では、データの中身どうなってる?に対して適切な回答が出来るような指標をいくつかご紹介します。

2.データ集計を始める前に確認してほしいこと

実際に集計を開始する際、SQLデータベースからデータを取得したり、Alteryxなどでデータを取り込むかと思います。

そこで確認いただきたいポイントは、大きく3つです。

 

今回は【データの理解】についてご説明します。

3.データの中身を理解しよう 【データの理解】-概要-

では【データの理解】についてご説明します。
理解と言っても何をしたらいいのか? 疑問に思う方もいると思います。
データの理解 について、私なりに理解をするためのチェックポイントは、以下の3つです。

データの基礎情報(行数/フィールド数/データ型)

数値データの基礎情報(最大値/最小値/外れ値) 

不要な空白やNull値は存在していないか

想定通り取り込めているか(データ型/文字数/フィールド名)

4.データの中身を理解しよう 【データの理解】

それでは、3でご紹介した4つのポイントを、Alteryxを使いながらご紹介していきます。

データの基礎情報(行数/フィールド数/データ型)

始めに、データの基礎情報を確認します。
処理をする時間の見積もりや、頼まれている集計がもらったデータで可能かどうか?を確認するために実施します

<<確認ポイント>>
・行数/フィールド数はいくつあるか?
・データのファイルサイズは?
・データ型は想定通りか?
・その他、中身が認識通りかを確認します。
→月別データと言われていたのに日別になっている、1年分と聞いていたのに10か月分しか入っていないといった、
言われているデータが格納されていない場合や、提供されたデータを使い、依頼通りに集計出来るかといった点を見ていきます。

上記の内容を、Alteryxは、Input Data Tool データ入力 ツール Alteryx アイコン画像InputDataデータ入力)ツールを使ってデータを取り込んだ後、Browse(閲覧)ツールを接続することで、
データの中身を簡単に確認することが出来ます。

ではBrowse(閲覧)ツールを使って実行ボタンを押した後の中身を見てみましょう。

早速、行数とフィールド数、そしてファイルサイズの確認が出来ました。

それぞれフィールド内の要素や、データ型も簡単に確認できますよ。

なお、フィールド名の左についている記号で、どのデータ型かがすぐわかるようになっています。

【記号の意味】
#・・・・数値型
A・・・・文字型
時間マーク・・・・Date型

となっています。Select セレクト 選択 ツール アイコン AlteryxSelect(セレクト)ツールを使わずとも確認が可能です。

 

数値データの基礎情報(最大値/最小値/外れ値)

数値データは、誤ったデータや、統計する際に考慮しないといけないデータが含まれているかどうかを確認する必要があります。
後続の処理内容が変わるだけでなく、間違った結果を出してしまう恐れがあるからです。
先ほどと同じく、処理をする時間の見積もりや、頼まれている集計がもらったデータで可能かどうか?を確認するために実施します

<<確認ポイント>>
・最大値/最小値はなにか?
・外れ値は含まれているか?

上記の内容を、先ほどと同じくAlteryxの、Input Data Tool データ入力 ツール Alteryx アイコン画像InputDataデータ入力)ツールを使ってデータを取り込んだ後、Browse(閲覧)ツールを接続することで、確認します。

ではBrowse(閲覧)ツールを使って実行ボタンを押した後の中身を見てみましょう。

内容を確認する際に 単価(フィールド名)をクリックします。

 

データにNullがあるのかどうか、がカラーバーでわかるようになっています。
また、いわゆる数値データの基本情報もわかるので、複数のツールを使わずとも中身を知ることが可能です。
(データ分析初心者の方は、是非四分位や中央値については調べておくといいと思います。)

 

不要な空白やNull値は存在していないか

今度は、Nullの値や不要な空白が無いかを調べます。
やはり要素によっては今後の処理内容が変わってきますし、取れているデータが間違っているかの確認も出来ます。
例えば、10万行以上のデータを扱う際、見えている部分はデータ取れているんだけど、後半実は全部Nullで、1日の作業がすべて無駄に終わったといったことがあるので、ここで確認するのは実は超大事です。

<<確認ポイント>>
・各フィールドにNullが含まれているか?
・それらのNullが含まれているのは想定内か?
・不要な空白が含まれてはいないか?
・全データを取り込めているか?

想定通り取り込めているか(データ型/文字数/フィールド名)

最後は聞いていた通りのデータかどうか、をざっと確認します。

フィールド名が無いデータであれば別途入れる必要があり、
文字数オーバーで入っていないデータがあればファイルを確認しないといけません。
またデータ型が違っていれば変換しておかないと計算が出来ません。

<<確認ポイント>>
・フィールド名が正しく取り込めているか
・文字化けしていないか
・データ型は想定通りか

まとめ

集計・分析をする前に状況を素早く把握することは大事。

が今回伝えたかったことでした。
最初に状況を把握しておけば、手戻りや誤った出力を出すことが避けられますし、
また集計してみた後、データが違っていた。といった悲しいことを避けることが可能です。

 

Alteryx(アルタリクス/アルテリックス)を14日間無料でご体験いただけます。
日本語または英語版、お好みの言語で利用が可能です。
トライアル期間中もサポートいたします、ご不明な点がございましたらお気軽にお問い合わせください。
14日間のフリートライアルはこちらから

Alteryx(アルタリクス/アルテリックス)のお見積りや、データ分析に関するご相談は「問い合わせページ」にて承っております。お気軽にご相談ください。
お見積もり依頼などのご相談はこちらから

 

関連記事

  1. Alteryx対応可能ファイルと概要一覧

  2. Alteryxを実施するには【簡単なプロセスのご紹介】

  3. Alteryx Community 日本語化(β版)のご紹介

  4. AlteryxDesinger内のチュートリアル機能ご紹介

  5. Alteryx 全種類 機能説明 TOP画像

    Alteryx機能紹介 Predictive(予測)

  6. マーケティング・顧客分析を行う際に有効なRFM分析

フリートライアル(14日間の無料試用)