データサイエンスのおすすめオンライン記事(9月21日付)

連休真っ只中である。行楽地には客が戻りつつあるが、コロナ禍前の状況に戻るにはまだまだ時間がかかりそうである。
日本では新たに発足した菅政権がDXの推進を前面に打ち出していることもあり、デジタル化の重要な役割を担うデータサイエンティストにも活躍の場が増えていくであろう。
今回は、現場で問題を解決する際に「索引」としてすぐに役立ちそうな記事が集まった。是非活用していただきたい。

問題別にどの機械学習アルゴリズムを用いるべきか
「商品購入の決め手となっている属性を理解したい」といった現場の具体的な問題から出発して、用いるべき機械学習アルゴリズムを探し出すことができる。

SQLite対Pandas: 処理速度ベンチマーキング
どういう処理をする場合にSQLとPythonのどちらのほうがどれだけ速いかをまとめたもの。

初心者のためのPythonダッシュボード
データを可視化して直観的に分析できるダッシュボードをPythonで開発する。

最初のデータサイエンスプロジェクトを始める際に知っておくべき10の事項
「仮説の生成は貴方が考えているよりはるかに重要」といった、戦略面の要点がまとめられている。

データサイエンス虎の巻
昨年の記事だが、リンクから入手できるPDF版の”Data Science Cheet Sheet”はデータサイエンスの全貌を把握するのに有用と思われる。

機械学習アルゴリズムの最新技術ポータル
機械学習の分野毎にレポートとコードへのリンクが整備されている。

データサイエンスのおすすめオンライン記事(8月20日付)

猛烈な暑さが続いている。普段の夏ならまとまった休みをとって旅行やバカンスに行くはずが、今年はコロナの影響で自宅・職場や近場の涼しいところにひたすら籠っている方も多いであろう。また、この際に新しいことにチャレンジするために勉強するという人もかなりいると思われる。今回紹介するオンライン記事にはそのような勉強の教材になりうるものもいくつかある。是非取り組んでみていただきたい。

あなたが知っておくべきPyTorchの最も重要な基礎知識
ディープラーニング(DL)に必要な「テンソル」についての基礎的解説と、PythonのDLライブラリPyTorchでのテンソルの扱い方のチュートリアル。

Data Science Centralのオンデマンド・ウェビナー集
Data Science Centralサイトから利用できる英語のオンデマンド型オンラインセミナーの一覧。

一変量分布の関係図
一変量の確率分布をどのように変数変換したらどのような分布になるかを示した関係図。

kaggleチュートリアル「SQL入門」
GoogleのBigQueryを利用した、PythonユーザのためのSQLチュートリアル。

データサイエンス・プロセス
原データが与えられてから、有益な洞察を導き出すまでの「データサイエンス・プロセス」を図式化したもの。実務で何をすべきかのヒントになる。

学習前のデータ準備のためのPythonライブラリDataPrep入門
DataPrepは機械学習を行う前に探索的データ解析等を簡単に行えるPythonライブラリである。これと以下に紹介するDtaleはデータ解析をするPythonユーザは一度使ってみる価値がある。

Pandasデータ構造を視覚化するDtale入門
DtaleはPythonのPandasデータフレームの構造を視覚化して把握しやすくするためのライブラリである。

データサイエンスのおすすめオンライン記事(7月20日付)

ようやくコロナから開放されて自由に動き回れるかと思ったら再び感染者数の増加の波が押し寄せており、いったいどうすればいいのかと戸惑っている方も多いであろう。しかし何ヶ月も巣ごもりしている間に当方の近所にも新たなショッピングやエンタメ施設がオープンしており、感染に気をつけつつ再び外へという流れになっているようである。

ビッグデータの上位インフルエンサーとブランド
本年3月の記事。直近1年間のtwitterのオンライン対話の分析から得られたインフルエンサーとブランドの一覧。

統計学の無料英語書籍:All of Statistics
統計学の本は一冊ですべて間に合うということはない。本書は洋書だが無料なのでダウンロードしておく価値はある。

IoT異常検知:アルゴリズム、手法、オープンソース実施例
IoTの異常検知についての情報源が包括的にまとめられている。

Python非同期オーバーホールの3つのステップ
asyncを使用して同時に実行するようにプログラムを変更して既存のPythonプログラムを高速化する方法。尚、本記事と次の記事のサイトは(無料)ユーザ登録しないとアクセス回数に制限がある。

Pythonデータクラスの使用方法
Pythonデータクラスを利用して、Pythonクラスの冗長性を減らし、同時に強力にする。

あなたが(おそらく)知らなかった7つのクールなPythonのトリック
YouTube動画のダウンロードなど、汎用的だがあまり知られていないようなPythonのテクニックを紹介している。

データサイエンスのおすすめオンライン記事 (6月23日付)

身の回りでをみるとコロナ禍からかなり日常が回復してきた。しかし海外との行き来など、もとに戻るまでに数年かかるとみられているものもあり、全世界的な経済へのダメージも気になる所である。
今回からタイトルを変えたが中身は同じで、海外インフルエンサーの紹介したデータサイエンス関連のオンライン記事(英語)で興味深いものをピックアップする。

機械学習の実務家のための18の便利な情報源
機械学習の実務の効率化役立つツールなどをまとめたものでかなり役立ちそうな記事。Airflow(ワークフローエンジン),Papermill(Jupyter Notebookをバッチ実行するためのPythonパッケージ)など。

LSTM (Long Short-Term Memory)を用いた株価予測
Long Short-Term Memory(長・短期記憶)という機械学習アルゴリズムを用いた株価の予測(Pythonコード付き)

分析的マインドのためのデータサイエンス:序章
データサイエンティストになるためのキャリア面での実践的ガイドの5回シリーズの第1回。

経験則:どのAI/機械学習アルゴリズムがビジネス課題にあてはまるか
ビジネス上の典型的な課題についてどの機械学習アルゴリズムを用いるべきかを整理したもの

データサイエンスのおすすめウェブサイト(6月2日付)

緊急事態宣言が解除になり、経済活動は少しずつ復活してきている。一方でテレワーク浸透など様々な変化があり、この変革の時期をビジネスチャンスと捉えてチャレンジする人も多いであろう。当ブログでも変革の時代にふさわしい情報源を探索していきたいと思う。
今回紹介する記事はエッセイ的なものが多い。是非Google翻訳で読んでいただきたい。

Kirk Borne氏インタビュー:多数の認識と広範なビッグデータの経験を持つ業界のリーダー
Kirk Borne氏が自身のキャリアや革新的なリーダーであり続けるための心得について語ったもの。

データ・アナリティクスからデータ・ストーリーテリングへ
データに潜んだ価値を有効なビジネスアクションに結びつけるため、、「ストーリーテリング=視覚化+物語+文脈」が重要になってきている。

シチズンデータサイエンティストを奨励する
「シチズンデータサイエンティスト」(Citizen Data Scientist)とは、数学や社会科学などを専攻し、ある程度のデータ分析スキルを有するものの、データサイエンティストほど特化した能力はもたない人々のこと(別資料より)だが、そのような人々の役割がさらに重要になってきていることを説いている。

機械学習とディープラーニングの無料自習用教材
Python入門からディープラーニングまでの自習のためのウェブ上のリソース

分析翻訳家:事実かフィクションか
「データサイエンティスト」や「シチズンデータサイエンティスト」に加えて自ら分析翻訳家(アナリティク・トランスレータ)と名乗る人が増えてきている。分析翻訳家に必要なスキルについて。

デジタル戦略シリーズ (I): 価値をもたらすデータ・ストラテジーを作る
おなじみ”Dean of Big Data”ことビル・シュマルゾ氏のエッセイ。企業の価値創造戦略からデータ戦略に落とし込んでいくことが大切と説いている。

データサイエンスのおすすめウェブサイト(5月11日付)

GWといっても巣ごもり生活でこれといった楽しみもなく、結局仕事と向き合っている方が前向きな気持ちで生活できると感じた方も多いと思う。しかし最近ようやく、新型コロナウイルスのトンネルの真っ暗闇から出口の光がぽつんと見えてきた感がある。今回も最近気になった英文記事を紹介する。

なぜ「データ」はブルーオーシャンシフトに最適なのか
ますます膨大に蓄積されるデータを企業活動にいかに活用するかの企業戦略論。google翻訳で読んでいただきたい記事。

ディープラーニング・アルゴリズムの完全ガイド
9つのディープラーニングアルゴリズムの入門解説。

機械学習における「自由度」の優しい入門
統計や機械学習において重要な概念である自由度についての解説記事。

なぜ、あらゆる人のためのデータと分析の戦略が噴出してきたのか
コロナ渦を受けて企業のデジタル化戦略をどうするべきかについて。これもgoogle翻訳で読んでいただきたい。

良かれ悪しかれアナリティクスとデータサイエンスは収斂している
分析プラットフォームはどんどん機能増強が進んでいるが、データリテラシーとより高度なデータサイエンススキルを必要としている。

(ウェブページの)表からデータをスクレイピングする3つの方法
プログラムを書かない人向けの記事。(1) Google Sheetsの利用, (2) ウェブスクレイピングツールの利用, (3) R言語(rvestパッケージ)の利用。

データサイエンスのおすすめウェブサイト(4月13日付)

急なテレワーク体制への転換で、毎日家に閉じこもってパソコン画面と新型コロナウイルスのニュース画面に明け暮れている方も多いと思う。今回紹介するKirk Borne氏のエッセイにあるように「子供の頃のワクワク体験を今日のデータからの新たな発見に見出す」ことが今こそ大切になっているのかもしれない。思えば自分自身もデータ解析の道に踏み込んだのは、数量化Ⅲ類で意識調査の結果が鮮やかにマッピングされたのを見てワクワクしたからであった。
※今回からリンク先を新しいタブで開くように改めました。

貴方のデータで「無料」でできる1,001個以上の事 – Outcomes-as-a-service
Kirk borne氏のエッセイ。自身が子供の時に「無料で入手できる1,001個のもの」の雑誌記事にワクワクしたように、現在では様々なことに利用可能な無料のデータソースにアクセスができる。組織内部でコストをかけていても、データは色々な用途に繰り返し利用することができる。

如何に貴方の時系列データを苦痛なく分析するか
Matrix Profileは比較的最近開発された手法(アルゴリズム)で、時系列データ分析のゲームチェンジャーになりうるとしている。これに関する日本語の記事はまだほとんど出ていないようである。

SQLがどのようにデータサイエンスで使われるかを理解する
SQLの超入門とデータサイエンスとの関わりの解説記事。

データの充実:多様性と包括性でビジネス価値を推進
データドリブン社会におけるダイバーシティ(性別や人種の多様性)の重要性に関するエッセイ。

貴方の高校数学の知識でデータサイエンスの数学をいかに学ぶか
線形回帰モデルやパーセプトロンを平易な数学を用いて解説している。この記事の著者の出す書籍に期待したい。

データサイエンスのおすすめウェブサイト(3月29日付)

新型コロナウイルスが全世界的パンデミックとなり、当方がフォローしているKirk Borne氏のツィートも「COVID2019問題へのデータサイエンスの取り組み」「家で読むのにおすすめのデータサイエンス書籍」などコロナ関連の話題が多くなっている。データサイエンスの力がパンデミックの早期収束に多大な貢献をすることを祈りつつ、ここでは一般的なデータサイエンスの記事の紹介を継続する。尚、当方はchromeの翻訳機能を使わずに自力で英文を読んで紹介してきたが、最近ようやく翻訳結果も参考にするようになった。リンク先の英文記事を参照する際には翻訳機能を活用していただきたい。

2020年のIoTのトレンドと予測:IoTの「津波」に備えよ
自他のIoTトレンドの予測記事を引用するとともに、セキュリティ、ベンダ乱立、エッジネットワーキング等の問題はあるものの、5Gの拡大、衛星接続IoTの競争力増大、IoTセンサアナリティクスの急進展、建設業界主導による進展等で2020年のIoTは大きく進展すると予測している。

コンピュータ・サイエンスの凋落:20年間のトレンドが業界を再編する
米国でコンピュータ・サイエンスの学位取得者は2000年のdot-com crashを契機に急落し、2008年のリーマン・ショックの少し後に持ち直してきた。伸びている分野はデータサイエンスとサイバーセキュリティである。

機械学習のために線形代数学を学ぶべき5つの理由
やや古い記事だが、自らの著書の宣伝も兼ねて、機械学習の実務家でも線形代数学を学ぶべき理由を細かく解説している。

ディープラーニングの適用に「ビッグデータ」は必ずしも必要でない
機械学習において膨大なデータを用いて最初から学習をさせる必要はない。転移学習(transfer learning)についての記事。

IoT時代の「伝統的な過去データ外挿型の予測」対「高度な予測アナリティクス」
単に過去のデータにみられる規則性を用いて将来予測をするのでは十分な予測精度が得られない。より厳密な予測アナリティクスを適用することが必要と説いている。

データサイエンスのおすすめウェブサイト(2月19日付)

前回投稿時から変わらずコロナウィルスが猛威をふるっている。インバウンドの減少やサプライチェーンの停滞など経済に与える影響は相当大きくなるだろう。人混みの場所へ出かけることを考えずにじっとして足元を固めた方がよさそうである。今回も最近目についたデータサイエンスの英文サイトを紹介する。

Googleの8大AIツール
開発者向けとしてTensorFlow, ML Kit, Google Open Source, CoLaboratory(Google Drive上のJupyter)、研究者向けとしてGoogle Datasets, Google Datasets Search、組織向けとしてCloud TPU (Tensor Processing Unit), Cloud AIを紹介している。

ナイーブベイズの簡単な入門
機械学習におけるナイーブベイズの解説だが、ベイズの定理は条件付確率からやさしく説明している。

時系列データにおける因果推論
かなり専門的な解説記事。近年AI(機械学習)の分野で用いられているようである。

貴方のチームのデータリテラシーを高めよ
グループインタビューで出された不足スキルは「適切な質問を投げかける」「どのデータが関連するのか、データの正確性をいかにテストするかを理解する」「結果が有用で意味のあるものになるように、データをうまく解釈する」「どのような結果が価値を生むかをみるためにA/Bテストで仮設検定を行う」「リーダーが結果を理解できるように、わかりやすいビジュアル化を行う」「意思決定者が全体像を見て結果に基づいたアクションをするのを支援するストーリーを語る」

データサイエンスのおすすめウェブサイト(1月29日付)

新型コロナウィルスのニュースが連日報道されている。通勤電車でもマスクをしている人は三割程度いる。とりあえず個人としては、マスク・手洗い・うがいなどのインフルエンザ予防対策を徹底するのだ第一だろう。本日も気になった英文サイトを紹介する。

データサイエンティストになるための究極の学習コース(2020年版)
一連のオンラインセミナーの案内だが、データサイエンティストを目指すために何を学べばよいかがわかる。

ベイジアン機械学習(その7)
昨年9月8日にも紹介した連載。回数を分けて丁寧に解説しているが前後の回へのリンクが不十分。本記事には第4,5,6回へのリンクがある。

有用性の質問
自分のキャリア形成の歴史を振り返り、「確率・統計・線形代数のアカデミックな勉強は現在のビッグデータ分析の業務には必要なかった」としている。ただしこの記事の筆者は一旦自分で勉強をしており、多くの人のような「数式アレルギーで勉強を回避」ではないことを指摘しておきたい。

セールスへのデータサイエンスの8大利用例
消費者マインド分析, 顧客の生涯価値の最大化, 将来の売上予測, 解約防止, クロスセルリコメンド, 価格の最適化, ChatBotの利用, 拡張現実(AR)の実装。