重回帰分析

以前の専門ブログで、賃貸マンションの家賃の決定要因についての分析を行った。その事例を用いて解説する。
賃貸マンションの平米あたりの月極め家賃[math]Y[/math]は、駅から徒歩分数[math]X_1[/math], 築年数[math]X_2[/math]に依存して変動する。各要因が家賃に線形に影響を及ぼすとすると、以下のように書ける。

[math]
Y=\alpha +\beta _1 X_1 + \beta _2 X_2
[/math]

より一般的に説明変数をp個として、n個の個体(ケース)についてのデータが得られているとする。
i番目の個体についての被説明変数は[math]y_i[/math]、説明変数は[math]x_{i1} , x_{i2} , \cdots, x_{ip} [/math]である。以下の構造式を考える。

[math]
y_i=\alpha +\beta _1 x_{i1} +\beta _2 x_{i2} + \cdots +\beta _p x_{ip} +\epsilon _i
[/math]

ただし[math]\epsilon _i[/math]は互いに独立に正規分布[math]N(0,\sigma ^2 )[/math]にしたがう。残差平方和

[math]
S_e = \sum_{i=1}^n e_i ^2
[/math]
[math]
=\sum_{i=1}^n (y_i -(\alpha + \beta _1 x_{i1} + \beta _2 x_{i2} + \cdots +\beta _p x_{ip} +\epsilon _i))^2
[/math]

を最小にする[math]\alpha , \beta _1 ,\beta _2 ,\cdots ,\beta _p[/math]を求めるために、[math]S_e[/math]を[math]\alpha , \beta _1 ,\beta _2 ,\cdots ,\beta _p[/math]それぞれで偏微分した式を0と置くと、[math]\alpha , \beta _1 ,\beta _2 ,\cdots ,\beta _p[/math]に関するp+1次元連立一次方程式

[math]
X’X\boldsymbol{\beta}=X’\boldsymbol{y}
[/math]

を得る。最小二乗解は、

[math]
\hat{\boldsymbol{\beta}}=(X’X)^{-1} X’\boldsymbol{y}
[/math]

である。yの総変動の分解は単回帰と同様に、

[math]
S_{yy}=S_R + S_e =\sum_{i=1}^n (\hat{y}_i -\bar{y})^2 +\sum_{i=1}^n (y_i -\hat{y}_i)^2
[/math]

となる。ここでの回帰係数は「偏回帰係数」とも呼ばれ、「他の説明変数の値を固定したとき、j番目の説明変数を1単位増やしたら、被説明変数の値がどれだけ増えるか」を表す。

データサイエンスのおすすめウェブサイト(7/30)

日本でもIT技術者の人材不足が報じられているが、やはりよく言われるように、多くのプログラミング技術者が下請け作業員となっている現状の改善が急務であろう。今回も10日ほど前位に紹介されたサイトが中心である。

Pythonで学ぶ統計の基本:記述統計
統計の最も基本的な概念と分布の位置とバラツキに関する記述統計の解説(Pythonプログラム付き)。

次世代のプログラミング言語Kotlin
Javaを使いやすくしたようなプログラミング言語。GoogleやJetBrainsが採用しサポートを始めている。

ビッグデータ、解析ツール、データサイエンスの影響者トップ12
データサイエンスの影響者リスト。おなじみのKirk Borne, Bob Hayes, Vincent Granville各氏が含まれている。

人工知能のEコマースへの8つの応用
AmazonなどのEコマース企業が活用している機械学習技術について解説している。

認知コンピューティングを解説する
Amazon Alexa, Apple Siri, IBM Watsonなどに代表される認知コンピューティングについての短い解説エッセイ。

時系列データの平滑化
一次・二次・多項式回帰、移動平均、スプライン関数などの時系列データ平滑化方法の包括的解説。

データサイエンスのおすすめウェブサイト(7/20)

このところの猛暑でチェックしたサイトのアドレスリストが溜まってしまっていた。しかしここ一週間くらいは興味深い記事が少ない状態が続いている。紹介された時期は少し前になるが、ここでは6つのサイトを取り上げる。

不完全なモデルの価値
Kirk Borne氏のエッセイ。完璧主義者だった自分が上司からのアドバイスで98%-99%を受け入れることを学び大規模プロジェクトの成功に結びついた。同様に機械学習モデルでも完璧を追求しすぎるとかえって他のリスクが高まる。

機械学習データベースMLDB
MLDBとは機械学習のためのデータベースの一つのプラットフォームである。

最も早いソートアルゴリズムTimsort
実務から生まれた、非常に早く(時間オーダーO(nlogn))安定的なソートアルゴリズム。

データサイエンス無料書籍集
検索結果のページだが、これまで紹介されたデータサイエンスの無料書籍のリストとして有用。

ニューラルネットワークの全タイプ一覧
ニューラルネットワークの全てのタイプが図示され、簡単な解説が加えられている。

ニューラルネットワークと多重回帰分析
ニューラルネットワークの基礎部分を重回帰分析と対応づけて説明している。

データサイエンスのおすすめウェブサイト(7/9)

最近新しいアルゴリズムについての記事が二つあった。うち一つを今回紹介している。コンピュータが広く社会に浸透して40年ほど経つのに今だに革新的アルゴリズムが提案されるというのは驚きでもある。また、データサイエンティストのキャリアについての記事も積極的に取り上げたい。

データサイエンス: What? Why? How? Who?
Kirk Borne氏によるデータサイエンス入門スライド。基本事項を再確認するのに有用。

画期的に高速なアルゴリズム
1ステップ毎に探索領域を狭めるのではなく多方向のサンプルを同時にとって価値の高い方向に進む。

マルコフ連鎖入門
マルコフ連鎖の基礎を解説した入門記事。

避けるべき機械学習の3つの過ち
「不十分な数の教師データ」「必要とされない所へ機械学習を適用する」「パフォーマンスの影響を理解しない」

貴方が自分の娘にデータサイエンティストになるよう勧めるべき理由
「DSの近年の著しい成長」「DSは社会の多くの意思決定に関わっている」「多様性はビジネスにとって好都合」

データサイエンス のおすすめウェブサイト(7/2)

今回取り上げたサイトには、英語の壁はあるものの、内容的には非常に有用なサイトがいくつかある。ある程度時間をとって英語と格闘する価値があると思われるサイトである。

貴方を雇用するデータサイエンスの5大プロジェクト
データサイエンティストが従事する典型的なプロジェクトタイプ「データクリーニング」「探索的データ解析」「対話的データ視覚化」「機械学習」「コミュニケーション」について述べている。

機械学習のための50のオープンデータセット
統計や機械学習の学習に役立つ、質の高い50のオープンデータのサイトを紹介している。オープンデータ紹介記事としてはかなり充実した有用な記事。

時系列解析と予測:新しいビジネス視点
時系列解析の基本、非定常データの扱い方など、機械学習の適用のための概説。

S&P500企業の株価インデックスの時系列分析
時系列解析・予測のチュートリアル事例であり実際の株価予測に使うものではないとしている。

AIと機械学習の30の無料情報源
AIや機械学習を基礎から学ぶのに適した、書籍や講義ビデオではない無料教材の一覧。英語だがかなり有益。

平易な英語で説明するベイズ統計
ベイズ統計について丁寧にわかりやすく説明している。英語ではあるがこれも一押しのサイト。