データ分析をするにあたっての基本のような、知っておくと良いことについてご紹介したいと思います。
今回はAlteryxを使うと良いことがあるよ!という記事ではなく、データ分析が初めての方の記事です。
こんにちは、PR担当Saoriです。
新年度になりました。
この状況のため、今年は人の出入りがいつもより少ないかもしれませんね。
年度が替わり、データ分析に関わるお仕事についた方や、心機一転データ分析のお仕事をしたいと考えている方もいらっしゃるかと思います。
また、Alteryxが良いと聞いて、使ってみたけどすごさが良く分からない。という方もいるかもしれません。
データ分析をこれから行う方に向けてのはじめの一歩として、
基本のような、知っておくと良いことについて何回かに分けて記事を書けたらと思っています。
また、Alteryxがデータ分析初心者の方が使うツールとして良いところ、についても伝わったら嬉しいなって思ってます。
※今回ご紹介している設定画面のキャプチャは、 AlteryxDesigner2020.1 日本語版 を利用しています。
データ分析はじめの一歩 ①【データ型】
1.データとは?
早速ですが、質問です。
・”データ”と聞くとどういうことが思い浮かびますか?
・・・
・・・
いかがでしょうか。
最近よく聞くのは データ容量とかでしょうか。
他、
・重たい
・見えない
・ビックデータ
などありますが結局データって何でしょうか。
大辞林ではこう書いてありました。
物事の推論の基礎となる事実。また、参考となる資料・情報。
”情報”または”事実” のようです。
私も、データは“ただの情報”だと思ってます。
データ単体では特に何もできず、それを加工し、人の知恵とか経験を使って判断するための材料だと思っています。
2.データの種類
データがただの情報だという事が分かったのですが、分析する際にはそれだけでは困ることが多いです。
「ちょっとデータ集めておいて」
と言われたとします。
よくお仕事や分析に使うデータを想像すると
・取引履歴(POSデータなどの購入履歴や入出金履歴 など)
・アクセスログ(インターネットにアクセスした人の履歴)
・顧客情報 (会員情報 など)
・行動履歴 (営業履歴 など)
・位置情報
・一般的な情報 (気温/身長体重/為替 など)
と人の行動にはデータあり というくらい様々な種類のデータがあります。
データはただの情報ですが、その背景には人の行動が伴っているというのもポイントです。
3.データを扱う前に~覚えておこうデータでよく使うデータの型~
具体的な話に移ります。
データ型 ってご存知でしょうか?
Excel中心に仕事をしていた頃、データ型については意識していませんでした。
実は
人が見て感じるデータの種類=Excelが認識するデータの種類
となるようExcelがお膳立てをしてくれていたためです。 素晴らしいですね、Microsoft社製品。
ですが、いざデータ集計を行おうとして、SQLやR、Pythonなどのシステムを使うと、必ずしも一致しません。
Excelでも体験したことあるかと思いますが、日付をコピーしてペーストすると”48972”みたいな数字になってしまうようなことが起こります。
こういうことを避けるため、データ型について理解をしておくと良いです。
データ型
データ型には以下の種類があります。
大きく分けて以下の5つです。
型名 | 内容 | 例 |
文字型![]() |
文字として認識する | あ イ 0 |
数値型![]() |
数字して認識する | 1,2,3, |
日付型![]() |
日付として認識する | 2020/1/1 |
bool型![]() |
真または偽として認識する | True False |
空間型![]() |
空間オブジェクトとして認識する | 35.42′30″, 139.45′08″ |
※bool型と空間型は、難しいので今日は名前だけでも覚えて帰ってください。
4.データを扱う前に~Alteryxでデータの型を確認してみよう~
最後にAlteryxではどのようにデータ型を確認することが出来るか、サンプルデータを使って見てみたいと思います。
<Excelのデータ>
このデータをAlteryxのInputData(データ入力)ツールと
Browse(閲覧)ツールを使い、中身を確認してみます。
このように文字型と数値型が分かるようになってます。ですが一覧で見るにはちょっと見づらい点があります。
データ型を一覧で見たい場合はSelect(セレクト)ツールを使います。
Excelで保存したデータ型に沿って、各フィールドおデータの型を表示してくれます。
またAlteryxは、このSelect(セレクト)ツール内でデータの形を簡単に変えることが出来ます。
(なお、日付型はDateTime(日時)ツールを、空間型は
CreatePoint(ポイント作成)ツールを使います。)
型の変換については詳しく次回以降で紹介したいと思います。
まとめ
データには「型」という種類がいくつか存在する
です。
実は今日伝えたかったのはこれだけでした。
複雑なプログラミングや、高度な機械学習をしている人も、最初はこう言ったことを知ることから始めていたのではないかな?
と想像すると、拒否反応も減るかもしれません。
少しずつご紹介してまいります。
Alteryx(アルタリクス/アルテリックス)を1か月間無料でご体験いただけます。
日本語または英語版、お好みの言語で利用が可能です。
トライアル期間中もサポートいたします、ご不明な点がございましたらお気軽にお問い合わせください。
1か月間のフリートライアルはこちらから
Alteryx(アルタリクス/アルテリックス)のお見積りや、データ分析に関するご相談は「問い合わせページ」にて承っております。お気軽にご相談ください。
お見積もり依頼などのご相談はこちらから