回帰の分散分析

単回帰モデル

[math]
Y=\alpha + \beta X
[/math]

において、Yの算術平均のまわりの総変動[math]S_{yy}[/math]は以下のように分解できる。

[math]
S_{yy}=\sum _{i=1}^{n} (y_i -\bar{y})^2 = \sum _{i=1}^{n} (y_i -(\hat{\alpha}+\hat{\beta} x_i )+(\hat{\alpha} +\hat{\beta} x_i)-\bar{y})^2
[/math]
[math]
=\sum _{i=1}^{n} (\hat{\alpha}+\hat{\beta} x_i -\bar{y})^2 + \sum _{i=1}^{n} (y_i -(\hat{\alpha} + \hat{\beta} x_i))^2
[/math]

ここで計算の際に、交互作用項

[math]
\sum _{i=1}^{n} (y_i -(\hat{\alpha}+\hat{\beta} x_i))((\hat{\alpha} + \hat{\beta} x_i)-\bar{y})
[/math]

は、[math] \hat{\beta}=\frac{S_{xy}}{S_{xx}} , \ \hat{\alpha}=\bar{y}-\hat{\beta}\bar{x} [/math]を代入することによりゼロとなる。

この変動和の分解における第1項は回帰変動平方和である。

[math]
S_R = \sum_{i=1}^{n} (\hat{\alpha}+\hat{\beta} x_i -\bar{y})^2 = \frac{S_{xy}^2}{S_{xx}}
[/math]

これは[math]\hat{\alpha} =\bar{y}-\hat{\beta} \bar{x} [/math]を上式に代入することにより求められる。

また変動和の分解における第2項は残差平方和である。

[math]
S_e = \sum _{i=1}^{n} (y_i -(\hat{\alpha} + \hat{\beta} x_i))^2
[/math]

回帰変動和を総変動和で割ったものを決定係数と呼ぶ。その平方根はxとyの相関係数である。

[math]
R^2 =\frac{S_R}{S_{yy}}=\frac{S_{xy}^2}{S_{xx} S_{yy}} =1-\frac{S_e}{S_{yy}}
[/math]

以上の変動の分解を分散分析表にて整理する。

データサイエンスのおすすめウェブサイト(6/26)

今回はデータサイエンティストのキャリアに関する記事が多くなった。日米の雇用慣行の違いから日本にはそのままあてはまらないことも多いが、一読しておく価値はありそうだということでブックマークした記事もある。

どうすればデータサイエンティストになれるか
1)興味のあるトピックを選ぶ、2)ツイートを書く、3)作業をする、4)コミュニケートする

機械学習におけるコントロールされた実験
アルゴリズムの振る舞いを調べる等のために、伝統的な実験計画法に基づいた実験をする。

2020年に繁栄するために必要な10のスキル
仕事をコンピュータに奪われないために必要なスキル。「複雑な問題解決」「クリティカルシンキング」「創造性」など。

機械学習におけるエントロピーと他の情報量規準
統計家にはおなじみの赤池情報量規準(AIC)にも言及しているがスペルが少し違う。

スタートアップのためのデータサイエンス:ブログから書籍へ
ブログで書きためた材料をもとに自費出版で本を出した著者の体験談。

データサイエンス職応募のアドバイス
米国での職探し向けであるが、日本でも参考になることが色々ありそうである。

データサイエンスのおすすめウェブサイト(6/18)

フォローしているデータサイエンティストのツイートには既出のものも多くなったが、データサイエンスの様々な応用分野の興味深い記事も紹介されている。今回もそのような興味深いページをいくつか紹介する。

2つの自由回答だけの新たな顧客調査法
Bob Hayes氏が開発した、「A社を最もよく説明する一語は?」「貴方がA社の責任者だとしたらどのような改善をするか?」だけを問う調査法。

データサイエンス(機械学習)のスピード解説
データサイエンスのうち特に機械学習について11回のブログで解説するシリーズ。本ページは検索結果なのでさらにリンクをたどる。

10万人の「幸福」データベース
「最近24時間/最近3ヶ月で貴方を幸福にしたものは?」への10万人の回答のテキストデータベース。

データサイエンスのためのPythonライブラリ20選
Numpy, SciPy, Pandas, Matplotlibはおなじみだが、統計や機械学習のライブラリは参考になる。

確率・統計クックブック
確率・統計及び関連する数学の主要な式をまとめた27ページの虎の巻。

線形単回帰分析

例を挙げて説明したい。A市の夏季の1日の電力使用量をY、A市のその日の平均気温をXとした時、暑くなると冷房使用が増えるため、電力使用量は気温に比例してほぼ直線的に増えることが知られている。つまり、

[math]
Y=\alpha + \beta X
[/math]

と書ける。ここでαはy切片、βは気温が1度上昇すると電力使用量がどの位増えるかを示す係数(気温感応度)である。

ここで実際にある年の7月の梅雨明けから8月末までの平日の気温と電力使用量のデータ[math](x_1,y_1),(x_2,y_2),\cdots ,(x_n,y_n)[/math]が得られたとする。次のデータ構造式を当てはめる。

[math]
y_i = \alpha + \beta x_i + \epsilon _i
[/math]

ただし、[math]\epsilon _i[/math]は互いに独立に正規分布[math]N(0, \sigma ^2 )[/math]に従うとする。

未知パラメータα、βの値はデータから最小二乗法により求める。残差平方和は、

[math]
S_e = \sum _{i=1}^{n} {e_i}^2 = \sum _{i=1}^{n} (y_i – \alpha – \beta x_i)^2
[/math]

となる。これをα、βで偏微分してゼロとおいた連立方程式を解く。この際に以下のような偏差平方和の表記を用いる。

[math]
S_{xx} = \sum _{i=1}^{n} (x_i – \bar{x})^2 = \sum _{i=1}^{n}x_i ^2 – n\bar{x}^2
[/math]
[math]
S_{xy} = \sum _{i=1}^{n} (x_i – \bar{x})(y_i – \bar{y}) = \sum _{i=1}^{n}x_i y_i – n\bar{x} \bar{y}
[/math]

これにより、最小二乗解は、[math] \hat{\beta}=\frac{S_{xy}}{S_{xx}}, \hat{\alpha}=\bar{y} – \hat{\beta} \bar{x}[/math]というふうに表される。この偏差平方和は回帰分析や分散分析では非常に重要な量である。

データサイエンスのおすすめウェブサイト(6/12)

政府がIT人材を毎年数十万人規模で育成する案を取りまとめたが、「20年遅い」や「多重下請け構造の変革が先決」などのもっともな意見が出されている。政府の官僚機構が示した枠組みからはまともなIT企業は成長しなかったというのがこの30年間の教訓である。

データサイエンスでは「スーパーマン」より「バットマン」になることを考える。
データサイエンティストは、地球以外の星から来て超自然的力を持つ「スーパーマン」よりも、ベルトから25のツールを出して人々の苦難を救う「バットマン」に例えられる。

気候変動研究でビッグデータが用いられる3つの方法
膨大な地点でのモニタリング、大規模なモデルシミュレーションと出力データ、モデルは「主観的」であり現実への同化が必要。

ビッグデータを意味のあるものにするために:サンプル、母集団、サンプリング誤差
Bob Hayes氏のやや古い記事だが、ビッグデータでも統計的推論が重要であることを説いている。文系が支配的な日本のネット論壇ではほとんど見かけないタイプの記事。

知っておくべき回帰分析の7つの手法
線形、ロジスティック、多項式、ステップワイズ、リッジ、Lasso、ElasticNetの各回帰分析の解説。

無料の機械学習の書籍リスト
形態はPDFやウェブなど色々だがとにかく無料で読める機械学習の英文電子書籍8冊。

データサイエンスのおすすめウェブサイト(6/8)

米国では、データサイエンティストのキャリア形成に関するツイートも多く、本ブログでは紹介していないが、データサイエンティストの報酬に関するツイートもよく見かける。一方で、データサイエンティストという職業名が独り歩きしてしまい、改めて定義しなおす動きもある。

機械学習とデータサイエンスの無料書籍
データサイエンスの無料英語書籍10冊。読み進むうちに買わざるを得なくなるかもしれない。

なぜデータサイエンスを再定義する必要があるか
データサイエンスの定義から始まり、初級データサイエンティストからリーダシップまでの3つのキャリアレベルを設定した。

人工知能:気候変動と環境のゲームチェンジャー
人工知能が地球環境問題の軽減にいかに役立つかについて。ハリケーンの森林への影響の分析、密漁発生場所の予測、再生可能エネルギー有効活用など。

データサイエンスのキャリアを始めるための有用なヒント
データサイエンスの分野は広いので、自分に合った役割を定めて効率的にカリキュラムを作って学び、言語・ツールを選び、ピアグループに参加する。

米国の人気データサイエンスブログ
米国のデータサイエンティストの調査から集計した人気ブログ・ポッドキャスト・ニューズレター(18サイト)。

データサイエンスのおすすめウェブサイト(6/5)

米国では今Pega Worldというカンファレンスがラスベガスで開催されており、それに関するツイートが非常に多くなっている。私もかつて米国のビジネス会議に年2回(4月と9月)出席していたので雰囲気はよくわかる。ロックバンドライブもありかなり盛大である。こちらは地道にそれ以外のツイートから興味深いものをピックアップする作業を続ける。

私はいかにして不確実性に憂うことなく好きになることを学んだか
人類の不確実性克服の歴史から始まって頻度論統計、教師つき学習の概要と限界、最後にベイズ統計に至る。

データサイエンスの無料e-book集
前回紹介したのとは別の無料英語版電子書籍集。ダウンロードにはサインアップが必要。

機械学習の自習用問題(Pythonでの解法つき)
バックプロバゲーション、カーネルパーセプトロンの入門例題とPythonによる解法。

あなたがすぐに変えるべき(SNS等の)15の個人設定
ワシントンポスト紙の記事。個人情報の使われ方を理解した上で、個人の設定をデフォルトからどのように変更したらいいかのアドバイスが書かれている。「親会社であるアマゾンも公平に扱う」としているがリンクは米国アマゾンなので日本ではメニューから探す必要がある。

機械学習アルゴリズム:貴方の問題に合ったアルゴリズムを選ぶ
機械学習の典型的なタイプについて述べた後、線形回帰、決定木、ニューラルネットワークなど主要アルゴリズムの概要を紹介している。