最新刊
スモールデータ解析と機械学習
(2022/02/18)※この商品はタブレットなど大きいディスプレイを備えた端末で読むことに適しています。また、文字だけを拡大することや、文字列のハイライト、検索、辞書の参照、引用などの機能が使用できません。 ※この電子書籍は紙版書籍のページデザインで制作した固定レイアウトです。 スモールなデータの解析手法・ノウハウが身につく! Webデータや画像データに代表されるようなビッグデータが注目される一方で、機械の故障データのように発生自体がまれであったり、患者さんの検査データのように倫理的な問題からデータを集めることに制約があったり、あるいはデータの判読が専門家以外では困難で機械学習に利用しにくいデータは、どうしても忘れられがちです。ビッグデータの時代において、収集が難しいために私たちが忘れかけているデータのことをスモールデータとよびます。 スモールデータでは、測定されている変数の数に比べて学習に必要なサンプルが不足していたり、それぞれのクラスのサンプル数が極端に偏っていたりするため、深層学習のようなビッグデータの方法をそのまま適用するのは適当ではなく、異なるアプローチが必要になります。 本書は、スモールデータとはどのようなデータであるのかを具体的に紹介して、スモールデータ解析の基本となる次元削減と回帰分析を説明します。特に部分的最小二乗法(PLS)はスモールデータ解析の大きな武器となるでしょう。そして、機械学習においてモデルの性能向上のために必要な変数(特徴)選択を紹介し、特にクラスタリングに基づいた新しい変数選択手法を説明します。つづいて、不均衡なデータの解析手法と異常検知を紹介して、最後にスモールデータ解析についての筆者の経験に基づいたポイント・考え方を述べました。本書ではPythonプログラムとスモールデータ解析の例題を通じて、読者がスモールデータを有効に解析できるようになるよう工夫しています。 ビッグデータの世界は、もはやデータ量と資本力が支配するレッドオーシャンとなっています。しかし、スモールデータの世界は、まだまだ現場の創意工夫次第でデータから新たな価値を引き出すことのできるブルーオーシャンなのです。みなさんも、この未知の世界に飛び込んでみませんか? 第1章 スモールデータとは 第2章 相関関係と主成分分析 第3章 回帰分析と最小二乗法 第4章 線形回帰モデルにおける入力変数選択 第5章 分類問題と不均衡データ問題 第6章 異常検知問題 第7章 データ収集や解析の心構え