深層ニューラルネットワークを用いた不均衡な雲画像データのクラス分類 -データ分析コンペティションを通じた性能向上-
- Keywords:
- 機械学習、深層学習、クラス分類、画像認識、熱帯低気圧
画像認識に特化した深層畳み込みニューラルネットワーク(DCNN)は、空間的な特徴パターンの抽出に優れ、気象学においてもさまざまな応用が進んでいる。特に、DCNNを用いた画像のクラス分類は、ハリケーンや前線、大気の河のクラス分類、熱帯低気圧の予兆検出、ハリケーンの強度推定等に応用され、興味深い結果が報告されている。一方で、分類対象となる現象または構造は一般に発生頻度が少なくデータ数が限られるのに対し、それ以外のパターンはほぼ無数に存在する。このクラス間のデータ数のアンバランスさが分類精度を低下させる一因となることが知られている。
本研究では、熱帯低気圧とそれ以外の雲画像を公開し、その分類精度を競うオンライン参加型のコンペティションイベントを開催した。本コンペティションは2018年8月から10月の2ヶ月間において開催され、気象学や情報科学だけでなく、さまざまなバックグラウンドをもつエンジニアや研究者ら総勢209名が参加した。
コンペティションの上位入賞者が提案したモデルでは、少数派クラスである熱帯低気圧の雲画像データの水増しや、分類困難な多数派クラスのサンプリング、複数の分類モデルを用いたアンサンブル学習、より深い層のDCNNアーキテクチャ、コスト考慮型の損失関数等が有効な手法であるとして用いられた。特に最上位モデルでは、先行研究による適合率(熱帯低気圧であると推定した結果に対する正答率)に対して65.4%もの精度向上を達成した。
本コンペティションの成功の理由として、熱帯低気圧という気象学的な研究の意義や面白さに加えて、20倍を超える不均衡データのクラス分類という情報科学的な問題設定の面白さが挙げられる。今後、データ分析コンペティションを通じた問題解決は、地球科学分野における研究の一つの新しい形として期待される。