キカベン
機械学習でより便利な世の中へ
G検定対策
お問い合わせ
   

学習データの収集

thumb image

1. 学習目標🔝

AIの学習対象となるデータを取得・利用するときに注意すべきことや、データを共有しながら共同開発を進める場合の留意点を理解する。

  • データの収集方法および利用条件の確認
  • 法令に基づくデータ利用条件
  • 学習可能なデータの収集
  • データセットの偏りによる注意
  • 外部の役割と責任を明確にした連携

キーワードオープンデータセット個人情報保護法不正競争防止法著作権法特許法個別の契約データの網羅性転移学習サンプリング・バイアス他企業や他業種との連携産学連携オープン・イノベーションAI・データの利用に関する契約ガイドライン

2. データの収集方法および利用条件の確認🔝

データの収集先

オープンデータセットにはいろいろあるが、ライセンスや利用条件などもあり注意が必要。

  • 画像分野:ImageNet、PascalVOC、MS COCO
  • 自然言語:WordNet、SQuAD、DBPedia
  • 音声分野:LibriSpeech

自分でデータを集めるには何らかのセンサを利用しデータを計測し収集する必要がある。

  • カメラなどのイメージセンサ
  • マイクロフォン
  • 3Dセンサ

プロジェクトのROIを考慮してのデータ収集・蓄積が必要。

人間の知覚とセンサは違うので、知覚をセンサで置き換える場合はよく検討すること。また、センサには人間の知覚にない特性もある。

  • 3Dセンサ
  • 赤外線センサ
  • X線センサ
  • 電波計測器
  • 超音波計測機
  • 重量計
  • 聴力センサ

3. 法令に基づくデータ利用条件🔝

データの利用条件に気をつける。

また、機微情報(人種・犯罪歴・病歴などのデータ)の取得・利用・提供は原則禁止。

4. 学習可能なデータの収集🔝

訓練データを収集する際にいかに気をつける。

  • データの偏りをなくす(頻度が極端に少ないクラスなど)
  • データの網羅性(少ないデータでも転移学習が可能だが、限界がある)
  • データの質(必要なデータがない、ノイズが多いなど)

5. データセットの偏りによる注意🔝

データには様々な偏りが生じます。

  • サンプリング・バイアス(不適切な標本抽出)
  • 現実世界の偏見を反映してしまう(人種・性別・学歴などへ偏見・バイアス)
  • 全てのデータが登録されているわけではない(たくさんの犯罪が通報されていないデータで犯罪予測する)
  • 欧米主導の共有データセットが学習に使われる

データやアルゴリズムのバイアスに関して検証するためにもシステムの透明性(transparency)や説明責任・答責性(accountability)が開発側に求めれれている。

6. 外部の役割と責任を明確にした連携🔝

他企業や他業種との連携産学連携が増えてきた理由は以下の組織が必ずしも一致しないため。

  • データを保有する組織
  • データ分析やアルゴリズム開発に優れた組織
  • 分析結果やアルゴリズムを利用してビジネス展開する組織

組織外の知識や技術を積極的に取り組むオープン・イノベーションの現場では様々な問題が生じるので、システム開発者と利用者の双方に協力し合う法的義務があることが確認されている。開発者はユーザーが関与しやすいようなプロジェクト・マネジメント義務があり、利用者は適時に仕様決定や情報提供する義務がある。

ディープラーニングは試行錯誤を繰り返しながらアルゴリズムをチューニングする側面があることを踏まえたコミュニケーションと契約交渉が必要となる。

  • 学習・推論の結果・性質・効果は契約締結時には不明瞭なことが多い
  • 学習用データセットがモデルの性質・効果を大きく左右する
  • ノウハウの重要性が高い
  • 生成物について再利用の需要が存在する

経済産業省は、AI・データの利用に関する契約ガイドラインを策定し試行錯誤しながらモデルを生成するアプローチがしやすい工夫を表している。

段階目的成果物契約
アセスメントモデルの生成可能性を検証レポート等秘密保持契約所等
PoCユーザが求める精度のモデルが
生成できるか検証
レポート
モデル(パイロット版)
導入検証契約書
開発学習済みモデルの生成学習済みモデルソフトウェア開発契約書
追加学習追加の学習データで学習をする再利用モデル保守運用契約書
学習支援契約書

ガイドラインによる契約類型は以下の3つ。

契約類型利用者権限の範囲
データ提供型データを譲渡し利用を許諾する。
契約で利用権限などを取り決める。
データ創出型データの創出に関与した複数当事者間で
利用権限を取り決める。
データ共有型プラットフォームを利用したデータの共有



コメントを残す

メールアドレスは公開されません。