キカベン
機械学習でより便利な世の中へ
G検定対策
お問い合わせ
   

データの加工・分析・学習

thumb image

1. 学習目標🔝

集めたデータを加工・分析・学習させるときの注意点を理解する。

  • データの加工
  • プライバシーの配慮
  • 開発・学習環境の準備
  • アルゴリズムの設計・調整
  • アセスメントによる次フェーズ以降の実施の可否検討

キーワードアノテーション匿名加工情報カメラ画像利活用ガイドブックELSIライブラリPythonDockerJupyter NotebookXAIフィルターバブルFATPoC

2. データの加工🔝

収集した生のデータを加工する必要があります。

  • 不要な情報を捨てる(必要な部分を取り出す)
  • 使えいないデータ形式を使えるものに変換する
  • 複数の場所にあるデータを学習環境で使いやすいように集約する
  • 画像の前処理・事前加工

教師ある学習ではアノテーション(正解データを作成する)も必要です。問題点として以下があります。

  • アノテーション定義が曖昧
  • アノテーションを人間が行う場合の個人差・感性の違い
  • 専門的な知識が必要な場合の人材確保
  • 認知容量を超える規模(手作業・人間の能力や人的コストの限界)
  • 不注意によるミス

よってアノテーションの要件をできるだけ明確にし、適切な人材に作業を分配し、レビューをプロセスに組み込むことが重要。要件などはマニュアルを作ってサンプルを提示するなど作業をできる限り明確化しておくと良い。大量のデータを扱う際は外部に委託するのも選択肢に入れておく。

3. プライバシーの配慮🔝

プライバシーに配慮して個人を識別できないように匿名加工情報を使う。ELSI(ethical, legal, and social implications)つまり、倫理・法・社会的影響をまとめて検討することも重要になっている。

経済産業省・総務省・IoT推進コンソーシアムがまとめたカメラ画像利活用ガイドブックなどで企業が配慮すべきことベストプラクティスを学ぶ。

4. 開発・学習環境の準備🔝

  • AI開発ではライブラリが豊富なPythonがよく使われる
  • Numpy、Scipy、Pandas、Scikit-learn、LightGBM、XGBoost、TensorFlow、PyTorchなど
  • Dockerなどの仮想環境でOSのレベルから環境の一貫性を保つ
  • データ分析などでJupyter Notebookがよく使われる

5. アルゴリズムの設計・調整🔝

AIでは大量のパラメータが自動的に設定されるため、中身がよくわからないブラックボックス化が問題になることがある。できるだけモデルの判断根拠や解釈が説明できるXAI(explainable AI、説明可能AI)の開発が望まれる。

おすすめ機能などでも個人の嗜好に偏りすぎるとユーザの視野を狭くしてしまうフィルターバブル現象が生じる。しかし、様々な価値を考慮に入れすぎるとチューニングが難しくなるので、技術的な側面と社会的対応などでバランスを取る多面的な手法を検討する。

FAT(fairness, accountability, and transparency)という研究領域やコミュニティはプライバシーや公平性の問題に取り組む。例えば、計算機科学の国際学会であるACMが主催するACM FATでは機械学習、法学、社会学、哲学の専門家を交えて様々な研究発表や議論が行われている。

6. アセスメントによる次フェーズ以降の実施の可否検討🔝

アセスメントフェーズではデータの収集・モデルの検討を行う。

  • 対象データをいつ・どのように取得するか
  • 同様の問題に関する事例・文献を調査する
  • 運用での推論時間を考慮してモデルを選択する

最終的にAIを適用すべきか、適用箇所はどこか、ビジネスインパクトはどうかなどをイメージ・シミュレーションし当初の目標(精度など)を達成できるか見極める。

7. 現場でのコンセプト検証(PoC)を行う🔝

コンセプト検証(PoC)のフェーズでは、実際にAIモデルを作成します。

  • 実験に使うデータの蓄積
  • 学習用にデータの加工
  • モデルのコードを開発
  • パラメータの調整による精度の向上
  • 問題を整理してデータ収集などにフィードバック

などのプロセスを何度か繰り返し実用可能性を確認する。

精度の向上が難しいなど場合によっては、AIでの認識と人による判断を組み合わせるなどといった工夫を取り入れる。



コメントを残す

メールアドレスは公開されません。