データサイエンスのおすすめウェブサイト(4/27)

いよいよ明日からゴールデンウィーク。大抵の人はレジャーに行ったら仕事や勉強のことは忘れるだろう。しかし混雑した観光スポットの待ち時間や、観光地のカフェで休憩中にスマートフォンやタブレットをチェックする人もいる。特に海外はバカンスの季節でもないので、海外ツイートのチェックをこの時期やらないと大きなブランクになってしまう。本ブログではGW中もできるだけ海外データサイエンスの動向を紹介して行きます。

有望なデータサイエンティストへのアドバイス:ブログを書き始めなさい
若いデータサイエンティスト志望の人達へのアドバイスだが、普遍的に参考になることが多い。

ディープラーニングに必要な行列計算
微分や行列計算の基礎的なことからきちっと書かれている。

データサイエンスの無料書籍5冊
英語の書籍なので広くおすすめはできませんが、無料ということでとりあげました。

データサイエンスのおすすめウェブサイト(4/24)

著名データサイエンティストをフォローし始めてから一週間以上経過し、基本的なネタはかなり出尽くした感があるが、それでもまだまだ興味深い記事が見つかる。引き続き紹介して行きたいと思う。

一目でわかるIoTのこれからと今後
米国流の大きな紙にIoTがこれまでどのように進展し近未来にどうなるかがまとめられている。

ビデオシリーズ「データサイエンスの謎を解く」
英語スピーチの動画集なので広くお勧めはできませんが備忘録の意味合いもあり掲載しました。

Pythonによるデータサイエンス入門
私も現在仕事でpythonを使っているが、ライブラリの充実とネット上のハウツー記事の多さには目を見張るものがある。

データサイエンスで扱うデータのトレンド2018(Part 1)
フォローしている中では最も大量のツイートを発信しているKirk Borne氏によるデータの10大トレンドの解説。第一回は、(1)IoT, (2)超パーソナル化, (3)AI – 知能の補完と増強, (4)自動運転関連, (5)仮想現実で目の前にデータを置く、を解説している。

確率分布のもう一つの特性値:分散

前回述べた「期待値」は、確率分布の位置(location)を表す特性値である。
もう一つの重要な特性値は分布の幅・ばらつきの大きさ(scale)である。
これは例えば、あるクラスの生徒の身長をメートル単位で表すかセンチメートル単位で表すかという単位の問題がある。
また、個人で余剰資金を貯めて運用するのに、銀行預金などのいわゆる無リスク資産として持つより、株や投資信託などのリスク資産として持つ方が、価格の変動がより大きい。これも確率分布の分散の大きさの違いと捉えることができる。
n個のデータがあった時の標本分散は以下の式で表される。

[math]
\hat{\sigma}^2=\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2
[/math]

一方、連続分布の場合の分散(二次のモーメント)は以下となる。

[math]
V(X)=\int (x-E(X))^2 f(x)dx
[/math]

データが正規分布に従っている場合に、分布の分散パラメータ[math]\sigma ^2[/math]の最尤推定量は上記の標本分散であるが、この推定量の確率変数としての平均値は真の平均値と一致しない。真の平均値と一致する推定量(不偏推定量)は以下のようにnでなくn-1で割ったものとなる。

[math]
s^2=\frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2
[/math]

データサイエンスのおすすめウェブサイト(4/21)

この週末はお天気もよく絶好の行楽日和である。米国は全体的に雨が少なく今日のようなスカッとした陽気の日が多い。米国で春の日差しにあふれた都市郊外のオフィスでデータサイエンスに没頭するさまを想像しながら、本日も気になったウェブサイトを紹介する。

“Datafication”とは何か
“Datafication”又は”Datification”とは社会活動をオンライン定量データに変換し、リアルタイム記録や予測分析を可能にする。つまりそれまではよく見えなかった活動やプロセスをとりあげ、(可視化や分析ができる)定量データに変えていくことである。

2018年に知っておくべき10大機械学習アルゴリズム
決定木、ランダムフォレスト、ロジスティック回帰、サポートベクターマシン、単純ベイズ分類器、k近傍法(多クラス分類)、k平均法(クラスタリング)、エイダブースト、ニューラルネットワーク、マルコフ、のアルゴリズムについて平易に解説している。

近代データサイエンティスト像


統計、プログラミング、データベース、ソフトウェア、コミュニケーション、視覚化など多方面のスキルを身に着けている者としている。

データサイエンスのおすすめウェブサイト(4/19)

著名データサイエンティストのツイートを一日数回チェックすることにより、毎日データサイエンスの世界にどっぷりと浸かることができるようになった気がする。本日も気になったウェブサイトを紹介する。

ディープラーニングの歴史
人工知能 ⊃ 機械学習 ⊃ ディープラーニング という包含関係や、「ディープラーニングと聞いたら深い階層のニューラルネットワークのことだと思いなさい」という記述があった後に、チューリングマシンなど萌芽期からの人工知能の歴史が簡潔に記述されている。この分野の記憶が断片的な場合に頭の中を整理するにはいいかもしれない。

RStudio 虎の巻
RStudioはR言語の統合開発環境ツールであるが、ここでは「ggplotによるデータ可視化」などいくつかの機能分野別に典型的なRコマンドの記述法が大判の用紙の中に詰め込まれている。どういう機能があるかの概観を掴むことはできるが、調べながら使い方を学んでいく場合はやはりネット検索を繰り返す必要があるだろう。

R言語によるデータサイエンス入門
R言語のインストールから基本的な使い方がコンパクトに記述されている。最終的にはR言語で機械学習を実行する所まで説明されている。

データサイエンティストになりたいのなら、Feynman Techniqueを試そう
Feynman Techniqueとは難しい科学的トピックを理解するための技法で、問題を分解して理解できない所を絞り込み、その内容を誰かに教えられるようになるまで学習する、というものである。実用的にはブログなどの記事を書くということも有効である。

データサイエンティストになるための道程(地下鉄路線図風)
作者の独断で整理したデータサイエンティストのために学ぶべきカリキュラムを、地下鉄路線図の形で表現したもの。データサイエンスを独学で学ぶための道標としては結構有用ではないかと思う。

データサイエンティストのおすすめウェブサイト(4/17)

4月16日から17日にかけての著名データサイエンティストのツイートで紹介されたウェブサイトについて簡単な説明をつけて紹介いたします。全て英文のサイトです。

機械学習の絵文字
絵文字とデータサイエンスが大好きな女性がついに両者を合体させた、とのことだが、なぜこの絵文字なのかよくわからないものもある。

カンファレンスに出席することの価値
スキルアップ、人的ネットワークの構築など、カンファレンスは費用と時間がかかるがそれなりの価値があるのは確かだと思う。日本ではアカデミック以外は「そんな遊びに行く時間があったら仕事しろ」的に見られるが、米国ではビジネスカンファレンスも活発である。

なぜ私はデータサイエンスが好きか
「グラフ化でデータに隠れたパターンを明らかにできる」「データの非日常的な関係を探索すること(ビッグデータに典型的な意義)」「データ文脈でシステムについての質問をする。時として追加のデータを収集し分析する。そして新しい洞察が得られる」がその理由。データ解析で良い成果をあげるためには、対象システムやプロセスのニュアンスについてより好奇心を持ちよりよりよくわかっていること、とある。

米国のデータサイエンス専門家をフォローする

最近、twitterのフォロー先が何となくマンネリ化している感じがしたので、「データサイエンティスト著名人をフォローしたらどうか」と思いつき、検索で以下のサイトを見つけた。

「フォローすべきトップデータサイエンティスト(英文)」

このサイトに登場する中で以下の方々のフォローを開始した。

Geoffrey Hinton
ディープラーニングの大御所

Yann LeCun
FacebookのAIディレクター、NYUデータサイエンスセンター、ディープラーニング専門家

Sebastian Thrun
Google [X]の創始者

Hadley Wickham
R言語主要パッケージの開発者

Wes McKinney
PythonライブラリPandas開発者

DJ Patil
オバマ政権のチーフ・データ・サイエンティスト

Peter Skomoroch
twitterデータサイエンス大御所。LinkdInのデータサイエンスチームを主導した

Kirk Borne
Booz Allen Hamiltonの主席データサイエンティスト

Chris Surdak
ビッグデータの技術戦略専門家で大賞受賞作家でもある

Hilary Mason
Bit.lyのチーフ・サイエンティストなどを歴任したデータサイエンスご意見番

米国ではデータサイエンスは一大学問分野として確立しており、データサイエンティストのステータスも高い。対して日本は、昨今ようやくいくつかの大学にデータサイエンス学科が開設したが、高校数学の「確率・統計」は、受験者が減るという理由で大学入試から排除されてきた。長年「統計」と名がついた学科すらなく、私のように大学で統計学を専攻しても、それを活かすには他人の手伝いをして食べていくしかないという状態であった。このツイートのフォローによって、本場のデータサイエンスの世界を少しでも体感できればと思う。
フォローした内容は、引用が可能な範囲で本ブログでも紹介していきたい。

平均値と期待値

一般にn個のデータがある場合、「平均値」と言えば以下の式で表される算術平均を想像する方が大多数であろう。

[math]
\bar{x}=\frac{1}{n} \sum_{i=1}^n x_i
[/math]

一方、「期待値」というと、あるタレントやスポーツ選手の今後の活躍の度合いの予想値といった意味に使われることが多い。統計学での期待値の意味に近いのは、例えば宝くじを一本買った時の期待利得である。宝くじなどのギャンブルは、掛け金総額の何割かを胴元が取って残りを配分するので、期待利得はマイナスであることは少し考えればわかる。ウェブサイトによれば、サマージャンボ宝くじ連番10枚3,000円の平均払い戻し額は1,430円で、期待利得はマイナス1,570円である。

連続分布の場合の期待値は以下の式で表される。

[math]
E(X)=\int xf(x)dx
[/math]

ここで、[math]f(x)[/math]は確率密度関数、すなわち値が非負で全区間で積分すると1になる関数、積分は[math]f(x)[/math]が正の値をとる全ての区間について行うものとする。データが正規分布に従っている場合に、分布の期待値の最もよい推定量は算術平均である。