キカベン
機械学習でより便利な世の中へ
G検定対策
お問い合わせ
   

データ収集が一番大変かも

thumb image

ディープラーニングが主流になった今日では、データ収集が以前にもまして重要になりました。

ImageNetなど世界中の研究者に使われているデータセットでも実際の現場で運用するモデルの訓練には向いていないかもしれません。どうしても自分でデータを集める必要があるケースが出てきます。

データを集めるのもひと苦労ですが、むしろその後がもっと大変です。使い物にならないものを捨てたり、データの分布を調べて足りないカテゴリーのデータを集め直したり、色々とやることはあります。

かといって、本来のデータ分布を歪めるようなデータの集め方も良くありません。データの集めやすさなどから、集め方に偏りが出ると訓練されたモデルの判断にも偏りが出てしまいます。

最近よく言われるのは、人種に偏りがあるとか、性別の分布が現実からずれているなど。

また、車のデータを集めるのに、ある特定の自動車会社だけから収集したのでは現実社会とは大きく離れたデータ分布になり学習も偏ったものになってしまいます。

さらに、画像データの場合はとくに背景や風景などからの影響も大きいです。たとえば、猿と森などのように、主体と風景に強い相関がある場合です。もしかしたらモデルは風景に強く依存した学習をするかもしれません。目的によってはこれも問題になるでしょう。

そう考えると、データ収集を企画する段階でモデルをデザインしたり訓練する人たちが関わっていくのが重要になります。

しかし、現実には車の運転手を雇って街中をひたすら走りながらビデオ録画をするなど計画性のない方法が行われるケースもあり注意が必要です。どんな天気、時間帯、街の様子、などなどたくさんのケースが必要になります。スケーラブルにデータを集められる仕組みを考えたり、自動的にラベルを付与できるなど工夫が必要になります。

地味な仕事に見えますが、一番大変で重要なのがデータ収集な訳です。それでは、また。



コメントを残す

メールアドレスは公開されません。