日本語要旨

大規模な気候データの解析のためのコンテンツベース検索システムの開発

気候変動の確率的な影響予測を創出するためには,多数のアンサンブル実験の解析が必要である.しかし,「気候変動リスク情報創生プログラム」と「気候変動適応技術社会実装プログラム」(SI-CAT)の成果物であり,大規模アンサンブル気候データであるd4PDFの総データ容量はユーザーが手元にダウンロードして解析するには大きい(~3 PB).そのため,ユーザーのストレージの不足,長時間のダウンロード,サーバーへの高負荷が問題になると懸念され,必要なデータを絞り込む機能が必要である.

前述の懸念を解決するため,d4PDFから高速かつ効率的に必要なデータを見付けるための「System for Efficient content-based retrieval to Analyze Large volume climate data (SEAL)」を開発した.SEALは,中核を担うPostgreSQLを用いたリレーショナルデータベース(以後,RDB),データ提供機能,Web UIで構成される.RDBには,時間と空間で圧縮した降水量・気温が格納される.データ提供機能は,絞り込んだ結果に基づき,時間と空間でデータを切り出してダウンロードするための機能である.これらの機能を簡易に使用するために,Web UIを作成した.

従来から使われているフレームワークであるOPeNDAPは単一のファイルの物理量の探索が可能であるが,ファイルの中身を全て走査するために速度が遅い.一方,SEALはRDBのインデックスを用いて検索を行うため,全てのファイルに対する高速な物理量の探索が可能である.また,ユーザーはWeb上で必要なデータを絞り込めるため,ダウンロードするデータ容量を大幅に削減(例えば0.5%)できる.そのため,SEALは期待通りに動作しており,冒頭で述べた懸念は解決できたと考えている.SEALで開発した技術は,シミュレーションや観測を問わず,他の分野の大規模データにおいても有用であると考えている.