データサイエンスのおすすめオンライン記事 (6月23日付)

身の回りでをみるとコロナ禍からかなり日常が回復してきた。しかし海外との行き来など、もとに戻るまでに数年かかるとみられているものもあり、全世界的な経済へのダメージも気になる所である。
今回からタイトルを変えたが中身は同じで、海外インフルエンサーの紹介したデータサイエンス関連のオンライン記事(英語)で興味深いものをピックアップする。

機械学習の実務家のための18の便利な情報源
機械学習の実務の効率化役立つツールなどをまとめたものでかなり役立ちそうな記事。Airflow(ワークフローエンジン),Papermill(Jupyter Notebookをバッチ実行するためのPythonパッケージ)など。

LSTM (Long Short-Term Memory)を用いた株価予測
Long Short-Term Memory(長・短期記憶)という機械学習アルゴリズムを用いた株価の予測(Pythonコード付き)

分析的マインドのためのデータサイエンス:序章
データサイエンティストになるためのキャリア面での実践的ガイドの5回シリーズの第1回。

経験則:どのAI/機械学習アルゴリズムがビジネス課題にあてはまるか
ビジネス上の典型的な課題についてどの機械学習アルゴリズムを用いるべきかを整理したもの

データサイエンスのおすすめウェブサイト(6月2日付)

緊急事態宣言が解除になり、経済活動は少しずつ復活してきている。一方でテレワーク浸透など様々な変化があり、この変革の時期をビジネスチャンスと捉えてチャレンジする人も多いであろう。当ブログでも変革の時代にふさわしい情報源を探索していきたいと思う。
今回紹介する記事はエッセイ的なものが多い。是非Google翻訳で読んでいただきたい。

Kirk Borne氏インタビュー:多数の認識と広範なビッグデータの経験を持つ業界のリーダー
Kirk Borne氏が自身のキャリアや革新的なリーダーであり続けるための心得について語ったもの。

データ・アナリティクスからデータ・ストーリーテリングへ
データに潜んだ価値を有効なビジネスアクションに結びつけるため、、「ストーリーテリング=視覚化+物語+文脈」が重要になってきている。

シチズンデータサイエンティストを奨励する
「シチズンデータサイエンティスト」(Citizen Data Scientist)とは、数学や社会科学などを専攻し、ある程度のデータ分析スキルを有するものの、データサイエンティストほど特化した能力はもたない人々のこと(別資料より)だが、そのような人々の役割がさらに重要になってきていることを説いている。

機械学習とディープラーニングの無料自習用教材
Python入門からディープラーニングまでの自習のためのウェブ上のリソース

分析翻訳家:事実かフィクションか
「データサイエンティスト」や「シチズンデータサイエンティスト」に加えて自ら分析翻訳家(アナリティク・トランスレータ)と名乗る人が増えてきている。分析翻訳家に必要なスキルについて。

デジタル戦略シリーズ (I): 価値をもたらすデータ・ストラテジーを作る
おなじみ”Dean of Big Data”ことビル・シュマルゾ氏のエッセイ。企業の価値創造戦略からデータ戦略に落とし込んでいくことが大切と説いている。

データサイエンスのおすすめウェブサイト(5月11日付)

GWといっても巣ごもり生活でこれといった楽しみもなく、結局仕事と向き合っている方が前向きな気持ちで生活できると感じた方も多いと思う。しかし最近ようやく、新型コロナウイルスのトンネルの真っ暗闇から出口の光がぽつんと見えてきた感がある。今回も最近気になった英文記事を紹介する。

なぜ「データ」はブルーオーシャンシフトに最適なのか
ますます膨大に蓄積されるデータを企業活動にいかに活用するかの企業戦略論。google翻訳で読んでいただきたい記事。

ディープラーニング・アルゴリズムの完全ガイド
9つのディープラーニングアルゴリズムの入門解説。

機械学習における「自由度」の優しい入門
統計や機械学習において重要な概念である自由度についての解説記事。

なぜ、あらゆる人のためのデータと分析の戦略が噴出してきたのか
コロナ渦を受けて企業のデジタル化戦略をどうするべきかについて。これもgoogle翻訳で読んでいただきたい。

良かれ悪しかれアナリティクスとデータサイエンスは収斂している
分析プラットフォームはどんどん機能増強が進んでいるが、データリテラシーとより高度なデータサイエンススキルを必要としている。

(ウェブページの)表からデータをスクレイピングする3つの方法
プログラムを書かない人向けの記事。(1) Google Sheetsの利用, (2) ウェブスクレイピングツールの利用, (3) R言語(rvestパッケージ)の利用。

データサイエンスのおすすめウェブサイト(4月13日付)

急なテレワーク体制への転換で、毎日家に閉じこもってパソコン画面と新型コロナウイルスのニュース画面に明け暮れている方も多いと思う。今回紹介するKirk Borne氏のエッセイにあるように「子供の頃のワクワク体験を今日のデータからの新たな発見に見出す」ことが今こそ大切になっているのかもしれない。思えば自分自身もデータ解析の道に踏み込んだのは、数量化Ⅲ類で意識調査の結果が鮮やかにマッピングされたのを見てワクワクしたからであった。
※今回からリンク先を新しいタブで開くように改めました。

貴方のデータで「無料」でできる1,001個以上の事 – Outcomes-as-a-service
Kirk borne氏のエッセイ。自身が子供の時に「無料で入手できる1,001個のもの」の雑誌記事にワクワクしたように、現在では様々なことに利用可能な無料のデータソースにアクセスができる。組織内部でコストをかけていても、データは色々な用途に繰り返し利用することができる。

如何に貴方の時系列データを苦痛なく分析するか
Matrix Profileは比較的最近開発された手法(アルゴリズム)で、時系列データ分析のゲームチェンジャーになりうるとしている。これに関する日本語の記事はまだほとんど出ていないようである。

SQLがどのようにデータサイエンスで使われるかを理解する
SQLの超入門とデータサイエンスとの関わりの解説記事。

データの充実:多様性と包括性でビジネス価値を推進
データドリブン社会におけるダイバーシティ(性別や人種の多様性)の重要性に関するエッセイ。

貴方の高校数学の知識でデータサイエンスの数学をいかに学ぶか
線形回帰モデルやパーセプトロンを平易な数学を用いて解説している。この記事の著者の出す書籍に期待したい。

データサイエンスのおすすめウェブサイト(3月29日付)

新型コロナウイルスが全世界的パンデミックとなり、当方がフォローしているKirk Borne氏のツィートも「COVID2019問題へのデータサイエンスの取り組み」「家で読むのにおすすめのデータサイエンス書籍」などコロナ関連の話題が多くなっている。データサイエンスの力がパンデミックの早期収束に多大な貢献をすることを祈りつつ、ここでは一般的なデータサイエンスの記事の紹介を継続する。尚、当方はchromeの翻訳機能を使わずに自力で英文を読んで紹介してきたが、最近ようやく翻訳結果も参考にするようになった。リンク先の英文記事を参照する際には翻訳機能を活用していただきたい。

2020年のIoTのトレンドと予測:IoTの「津波」に備えよ
自他のIoTトレンドの予測記事を引用するとともに、セキュリティ、ベンダ乱立、エッジネットワーキング等の問題はあるものの、5Gの拡大、衛星接続IoTの競争力増大、IoTセンサアナリティクスの急進展、建設業界主導による進展等で2020年のIoTは大きく進展すると予測している。

コンピュータ・サイエンスの凋落:20年間のトレンドが業界を再編する
米国でコンピュータ・サイエンスの学位取得者は2000年のdot-com crashを契機に急落し、2008年のリーマン・ショックの少し後に持ち直してきた。伸びている分野はデータサイエンスとサイバーセキュリティである。

機械学習のために線形代数学を学ぶべき5つの理由
やや古い記事だが、自らの著書の宣伝も兼ねて、機械学習の実務家でも線形代数学を学ぶべき理由を細かく解説している。

ディープラーニングの適用に「ビッグデータ」は必ずしも必要でない
機械学習において膨大なデータを用いて最初から学習をさせる必要はない。転移学習(transfer learning)についての記事。

IoT時代の「伝統的な過去データ外挿型の予測」対「高度な予測アナリティクス」
単に過去のデータにみられる規則性を用いて将来予測をするのでは十分な予測精度が得られない。より厳密な予測アナリティクスを適用することが必要と説いている。

データサイエンスのおすすめウェブサイト(2月19日付)

前回投稿時から変わらずコロナウィルスが猛威をふるっている。インバウンドの減少やサプライチェーンの停滞など経済に与える影響は相当大きくなるだろう。人混みの場所へ出かけることを考えずにじっとして足元を固めた方がよさそうである。今回も最近目についたデータサイエンスの英文サイトを紹介する。

Googleの8大AIツール
開発者向けとしてTensorFlow, ML Kit, Google Open Source, CoLaboratory(Google Drive上のJupyter)、研究者向けとしてGoogle Datasets, Google Datasets Search、組織向けとしてCloud TPU (Tensor Processing Unit), Cloud AIを紹介している。

ナイーブベイズの簡単な入門
機械学習におけるナイーブベイズの解説だが、ベイズの定理は条件付確率からやさしく説明している。

時系列データにおける因果推論
かなり専門的な解説記事。近年AI(機械学習)の分野で用いられているようである。

貴方のチームのデータリテラシーを高めよ
グループインタビューで出された不足スキルは「適切な質問を投げかける」「どのデータが関連するのか、データの正確性をいかにテストするかを理解する」「結果が有用で意味のあるものになるように、データをうまく解釈する」「どのような結果が価値を生むかをみるためにA/Bテストで仮設検定を行う」「リーダーが結果を理解できるように、わかりやすいビジュアル化を行う」「意思決定者が全体像を見て結果に基づいたアクションをするのを支援するストーリーを語る」

データサイエンスのおすすめウェブサイト(1月29日付)

新型コロナウィルスのニュースが連日報道されている。通勤電車でもマスクをしている人は三割程度いる。とりあえず個人としては、マスク・手洗い・うがいなどのインフルエンザ予防対策を徹底するのだ第一だろう。本日も気になった英文サイトを紹介する。

データサイエンティストになるための究極の学習コース(2020年版)
一連のオンラインセミナーの案内だが、データサイエンティストを目指すために何を学べばよいかがわかる。

ベイジアン機械学習(その7)
昨年9月8日にも紹介した連載。回数を分けて丁寧に解説しているが前後の回へのリンクが不十分。本記事には第4,5,6回へのリンクがある。

有用性の質問
自分のキャリア形成の歴史を振り返り、「確率・統計・線形代数のアカデミックな勉強は現在のビッグデータ分析の業務には必要なかった」としている。ただしこの記事の筆者は一旦自分で勉強をしており、多くの人のような「数式アレルギーで勉強を回避」ではないことを指摘しておきたい。

セールスへのデータサイエンスの8大利用例
消費者マインド分析, 顧客の生涯価値の最大化, 将来の売上予測, 解約防止, クロスセルリコメンド, 価格の最適化, ChatBotの利用, 拡張現実(AR)の実装。

データサイエンスのおすすめウェブサイト(1/13)

データサイエンス職が東大生の人気職種に」という記事が昨日掲載された。この記事で特に注目されるのは、安定した大手企業ではなくフリーランス的な働き方を志向する学生が多くなっているということである。いよいよ日本的雇用からの本格的転換が加速している。本日も最近気になったデータサイエンスの英文記事を紹介したい。

AIは人間がより人間らしくなるようにさせるか?
コンピュータにできる仕事から解放されて、デザインや共同作業などのスキルがより重要になる、という盛んに言われている話だが、基本的なところから解説している。

「ビジネス・インテリジェンス」対「ビジネス・アナリティクス」
「ビジネス・インテリジェンス」は日々の業務の意思決定のために過去から現在のパターンやトレンドを明らかにする。一方「ビジネス・アナリティクス」はデータマイニング、統計解析、予測モデリングを用いて将来のパターンを予測する。

データサイエンススキル項目の調査結果:コアなスキルと今後重要になるスキル
データサイエンスのスキル項目に関するアンケート調査結果。コアなスキルは高い順に、1)Python, 2)データ可視化, 3)クリティカル思考, 4)エクセル, 5)コミュニケーションスキル、と続く。今後重要になるスキルは高い順に、1)Pytorch(Pythonの機械学習ライブラリ), 2)Scala(オブジェクト指向言語と関数型言語の特徴を統合したプログラミング言語), 3)その他ビッグデータツール, 4)TensorFlow, 5)Apache Spark、と続く。

データサイエンスのおすすめウェブサイト(1/4)

いよいよ東京オリンピックが開催される2020年が幕を開けた。区切りの節目の年ということでデータサイエンスの記事にも今年の(主にAIに関する)トレンド予測をテーマにしたものが目立つ。そのような記事をいくつか紹介したい。

2020年のデジタル変革の主要な5つのドレンド
(1)デジタル技術成長エンジンとしてのIoT, (2)競争に勝ち抜くためにスピードがより重要に, (3)仮想通貨(ブロックチェーン)がさらに躍進, (4)AIが企業のボトムライン成長により貢献, (5)インテリジェントなデータ管理によりITOpsからNoOPSへ

マーケターが注目すべき2020年のAIの10のトレンド
「顧客のチャネル間のリアルタイム相互作用の管理」「新たなインサイトで顧客ロイヤリティ維持の改善」など、マーケティングにおけるAI活用のトレンドを簡潔に解説。

2020年の人工知能の予測
「GPUがAIの加速を支配する」などの予測(記事を読むには無料会員登録が必要)

なぜ2020年のビジネスに人工知能は重要なのか
今後AIを活用していこうとする企業への基礎的アドバイス。データの揃え方、AIシステムの入手方法(自前で構築/製品の購入/クラウドAPIを通したパブリックソリューションの利用)

2020年に注目する8つの人工知能のトレンド
「データとAIの境界線がぼやけてくる」「より簡便なツール,インフラ,ハードウェアが開発される」「新たなモデルや手法が出現してくる」「データが固有のバイアスを持つという前提が(多様性の経済社会で)重要に」など

データサイエンスのおすすめウェブサイト(12/25)

2019年も押し詰まってきた。豪雨災害などが目立った年だったが、少子化に伴う人手不足もじわじわと進んでいる。城繁幸氏などのキャリア専門家がかねがね言っていることだが、既得権やポジションにしがみつくのではなく、プロフェッショナルとして自身のスキルでいつでも勝負できるようにすることがますます大事になるだろう。前回の紹介記事から時間があいてしまったが、この間に興味深いと思った記事を紹介する。

よりよいビジネス意思決定のための5つのヒント
猛スピードで進化し変化するビジネス環境でよりよい意思決定をするためには、(1)ビッグデータのポテンシャルを利用する、(2)次世代技術を喜んで取り入れる、(3)異なった見方を取り入れる、(4)顧客のニーズを分析する、(5)従業員のトレンドを評価する、ことが重要であるとしている。

機械学習のGoogleチュートリアル
Googleのエンジニアが作成した、機械学習入門の96枚のスライド(英語)

機械学習の数学
機械学習を学ぶ基礎となる数学。線形代数や確率など(英語)

現代世界のビッグデータ適用事例トップ20
飲食・銀行・ヘルスケア等の業界でのビッグデータの適用事例