データサイエンスコンペティションの紹介(2) ー開催中ー
カテゴリー: データサイエンス
作成日:2022-11-30 更新日:2023-01-30
データサイエンス(data science)とは、様々な情報をデータとして用いて、統計学やアルゴリズムを使って、新たな科学的及び社会に有益な知見を引き出そうとするアプローチのことです。近年、データサイエンス的アプローチで作成される機械学習モデルがAIのコアとして様々に利用されるようになっています。
データサイエンスのスキルを広げ・深める場としてデータサイエンスコンペティションがあります。
ここでは、現在開催中のデータサイエンスコンペティションを紹介します。いずれもグーグルアカウントで無料で登録・参加することができます。
今回は、現在開催中の国内の2つのコンペティションを紹介します。
適宜更新します。
NISIKA
日本のコンペティションプラットホームです。 「データサイエンティストが自らの活動”デー活”を充実させられるよう、データ分析コンペティションや、データサイエンス特化の求人を提供します」と謳っています。
材料の物性予測 ~機械学習で材料の研究開発を推進しよう~
提出期限:2023-03-10
材料データの特性を生成するにはハイスループット密度汎関数理論(DFT:density functional theory)に基づく計算という方法が使用されていますが、DFTによる計算は計算コストがかかるので、効率的な材料の研究開発を進めるために、主にDFTを代替する目的で化学式や化学物質に基づく機械学習手法の開発・適用が加速しているそうです。このコンペではMaterial Projectsの材料情報をNishikaが収集・加工したデータが提供されています。学習用のデータには71,729の化合物についての89種の原子の数と情報構造が含まれています。各結晶の安定性を示す生成エネルギーを目的変数として機械学習モデルを作成して、テストデータの化合物の生成エネルギーの予測精度を競います。
SIGNATE
日本のコンペティションプラットホームサイトです。
「テクノロジーによってあらゆるものが進化していく時代の中で、AI/データ分析人材をエンパワーする国内唯一のプラットフォーム」と謳っています。
ブルーカーボン・ダイナミクスを可視化せよ!
-沖縄県沿岸の水深・水温等の環境条件のデータから、海草藻場の被度を予測しよう!-
提出期限:2023-04-30
気候変動問題の解決策の一つとして、沿岸域の海草藻場を再生して炭素を貯留するブルーカーボンが注目されています。海草や藻類が光合成をして成長する過程で、海中に炭素が固定されるので、海草藻場再生が温暖化対策に貢献するという考え方です。ビジネスの世界では、企業が排出した炭素をオフセットする目的で、ブルーカーボンによる炭素取引が活発になりつつあります。
このコンペティションでは、沖縄県全域を対象として、ブルーカーボンの重要な指標となる海草藻場の被度(一定面積の地表面や海底面を覆う割合)を、環境変数や衛星画像をもとに推定する機械学習モデルを開発します。訓練データとして、14,140の沖縄県の様々な場所・年代・時期に調査された海草藻場の被度と様々な環境変数や衛星画像が与えられます(列数が3,464あります)。その訓練データを用いて機械学習モデルを学習し、訓練データとは空間的に異なる領域のテストデータに対する海草藻場の被度の予測精度を競います。
このコンペに関する以下のyoutube動画が公開されています。
(1)生物多様性ビックデータに基づいたネイチャーの可視化(2)コンペ課題、テーマについての説明