初心者向けデータマイニング@福岡 Supported by AIPに参加してきた

概要

項目 内容
日程 2014年04月23日(水) 19:00 - 20:00
会場 Rubyコンテンツ産業振興センター
公式ページ http://www.zusaar.com/event/5027006

第一部

データ分析関連の勉強会

データ分析やビッグデータが流行している割には、特定のツールに関するモノ以外の勉強会は福岡でもは少ない。
R勉強会@福岡
Hadoop関連技術勉強会@福岡

データ分析ブームを起こしたい

データ分析

Data to Information, Information to Creation

モチベーションは事業のコアになる部分と重なる
・売上アップ
・作業の効率化
・今まで気づかなかった知見の創出

データ分析の流れ ###

  1. 収集
  2. (蓄積)
  3. 事前処理
  4. (蓄積)
  5. データ分析
  6. 可視化、予測

データ分析に焦点が当たりがちだが、可視化は特に重要

応用分野の紹介

化学分析
: 効率的な実験条件や環境をシミュレーションする。多目的な最適化やトレードオフ分析

医療分野
: カルテからの知見抽出。高血圧、肺がんなどの予測や症状からの薬のレコメンド
: 在宅健康支援ネットワーク。血圧や体重、生活習慣などの生体データから事前に予測する

センサー分析
: M2Mクラウド

会場での使用例の紹介
・BI
・地価の分析
・バグの発見
・成功事例の分析

質疑 ###

小規模なデータ解析の例にはどのようなものがあるのか?

15件〜300件のレコードを対象にした分析を行ったことがある。データ量は少なくとも多変量解析をやりだすと時間や計算量が増加してしまう。また、迅速に結果を出すためにもデータ分析は必要。また、少ないデータで予測するのは、大量のデータを相手にするより大変になる。

第二部 フリーソフトではじめる機械学習入門

参考書をベースにして読み進める

書籍について

フリーソフトではじめる機械学習入門

・取っ掛かりとしてはよい
・事例としてWekaが取り上げられており、試しやすい
・ただし、難しいことを学ぶには不向き

また、Wekaはビッグデータの分析には使えないので要注意。
※ 帯や書籍にはビッグデータについて触れられているが、ほんとに触れられているだけ

特に、1章,2章,3章,4章,6章,7章,10章,11章,12章あたりが参考になる

分析ツールについて

Weka
Pentaho
KNIME
R
Rapidminer
SPSS

様々なツールがあるが、用途に合わせて使い分けることが大事
実際の分析では複数のアルゴリズムを使用するため、そのツールでサポートされているアルゴリズムは大事

分析ツールは、プログラムが掛けなくても分析が行えるのが利点

ビジュアル化には以下の様なツールがある ###

Excel
・Pendtahoなど

分析について

モデル化する
数字の集まりから数式を導き出すこと

収集と整理 ###

・データセットに対してどのようなアルゴリズムや手法を用いるか、あたりを付けるには数をこなすのが大切
Google Scholarなどで類似例や前例を探したり、一先ずやってみて当たりをつけたりする

生データをそのまま分析に書けるのはハイレベルすぎるので処理にかける
・クリーニング、クレンジング
・データの結合
ノーマライズ(正規化)
・データの間引き(データが多すぎる場合など)

そもそもデータを集めるのが大変
ビッグデータとはいうけれど、そんな大きなデータはあまりない

評価基準

・分析に入る前に決めておく
・クロスバリデーション(交差検定)などを行うかどうかも

大まかなデータ解析の体系 ###

・教師あり解析
 ・識別(主に文字列に対して。ベイジアンネットワーク)
 ・回帰(主に数値に対して。関数)
・中間的手法
 ・半教師あり(機械的に行い、人手で調整する)
 ・深層学習(多層ニューラルネットワーク)
・教師なし
 ・モデル推定(クラスタリング)
 ・パターンマイニング(バスケット分析)

有名な「おむつとビール」の話はパターンマイニングに相当する。

その他

Code For Fukuoka

オープンデータを推進していく団体として「Code For Fukuoka」を立ち上げる。今後、福岡市など行政にたいいてオープンデータに関する意見や要請を行っていく。

会場からの事例紹介

ScutumというSaaS型のWeb Apprication Firewallでは、人手での攻撃パターンの学習には限界が有るため、攻撃の判定にベイジアンネットワークを利用している。

今後の会について

せっかく大人数集まった勉強会なので、今後も継続していきたい。まずは福岡でデータマイニングのコミュニティを作り、分析手法やツール、ハンズオンなどの勉強会を行っていきたい。

※ はじめにFacebookでグループを作る