データサイエンス

トピックス

植物資源の利用、食生活に関する文献、ウェブに公開されているデータとその解析、DX・データサイエンスに関する話題、データ解析に用いたプログラムのコード(主にPython)などを紹介します。

データサイエンスコンペティションの紹介(1)

カテゴリー: データサイエンス

作成日: 2022-10-18

 データサイエンス(data science)とは、様々な情報をデータとして用いて、統計学やアルゴリズムを使って、新たな科学的及び社会に有益な知見を引き出そうとするアプローチのことです。近年、データサイエンス的アプローチで作成される機械学習モデルがAIのコアとして利用されるようになっています。
今回は、データサイエンスコンペティションについて紹介します。

背景

スイスの国際経営開発研究所(IMD)が発表した2022年の「世界デジタル競争力ランキング」で、日本は人材不足などから29位と前年より順位を一つ下げています。世界首位はデンマーク、2位は米国、3位はスウェーデン。アジアではシンガポールが4位で最高、韓国8位、香港9位、台湾11位と続いていて、日本は低迷しています。

世界デジタル競争力ランキング、日本は29位に低下 JETRO 2022-10-07
日本のデジタル競争力、過去最低29位 中韓台にも後れ 日本経済新聞 2022-09-28

プログラミングスキルを持つデータサイエンティストの育成が大学、行政、民間企業ともに必要と思われます。書籍、スクールなどでプログラミングの基本的な知識を学んだ後に、実践的なスキルを広く、深く高める場として、データサイエンスコンペティションがあります。

データサイエンスコンペティションとは

データサイエンスコンペティションとは、特定の課題に対して機械学習や統計学などのデータサイエンスの手法を用いて分析し、予測精度を競う競技会のことで、これらの競技会が開催されている複数のプラットホームサイトがあります。サイト運営企業は競技会を開催したい主催者(主に企業)などから資金を募り、コンペティションを開催します。コンペティションの主催者は、コンペティション参加者が提出したソースコードやアルゴリズムなどの知見を活用したり、人材発掘や企業ブランディングを目的としたりします。
一方、参加者側の機械学習エンジニアやデータサイエンティストにとっては、様々な課題やデータに対して自分の腕試しやトレーニングの場として活用できる他、コンペティションによっては上位入賞者に賞金が提供されます。

データサイエンスコンペティションサイトの紹介

以下に筆者が参加している4つのコンペティションサイトを簡単に紹介します。いずれもグーグルアカウントで無料で登録して、各コンペティションに参加することができます。

・Kaggle
・Signate
・Nishika
・Probsapce

Kaggle

"Grow your data science skills by competing in our exciting competitions."

グーグルが運営している世界最大のデータサイエンスコンペティションプラットフォームです。kaggleでコンペティションを開催したことがあるJPX(日本取引所グループ)によれば、登録者数は900万人を超えているそうです(kaggleのサイトで確認すると1,100万人でした)。

J-Quantsデータ分析コンペティション第3弾の開催について JPX 2022-04-05

各コンペティションでは、多数の参加者により活発に多くの探索的データ解析(EDA:Exploratory Data Analysis)及び予測モデルのコードが公開されており、それらを参考にしながらプログラムを作成することができます。

コンペティションの他に、多くのデータセット及びプログラムコードが投稿されています。それぞれの投稿数はサイトで確認した範囲では、下記のようになっています。

・コンペティション数:560
・データセット数:174,00
・ノートブック(コード):786,395

"soybean"で検索すると39件のデータセットと180件のプログラムコードが見つかりました。内容については、別記事で紹介します。

10月18日の時点で22のコンペティションが開催されていて、筆者は”Novozymes Enzyme Stability Prediction"に参加しています。

Signate

「テクノロジーによってあらゆるものが進化していく時代の中で、 AI/データ分析人材をエンパワーする国内唯一のプラットフォーム」
「企業や行政が抱えるデータ課題に挑戦できる」とあります。

・コンペ参加者数(のべ)78,661 人
・コンペティション数: 53

Nishika

「Nishikaは、国内最大級のデータサイエンスコミュニティです。
データサイエンティストが自らの活動"デー活"を充実させられるよう、 データ分析コンペティションや、データサイエンス特化の求人を提供します。」とあります。

データサイエンティストの求人、副職募集ページがあるのが特徴です。

コンペティション数: 29

現在、"ヘイトスピーチ検出"に参加しています。6月〜8月は"生鮮野菜の価格予測"に参加していました。

ProbSpace

「データ分析好きが集まる交流プラットフォーム
プログラミングで分からないことがあれば、Qiitaを開けばいい
自分の力を知らしめたかったらKaggleに参加すればいい
でも、データ分析ってどこで聞けばいいの?
データ分析が好き。データ分析をやってみたい。
そんな人のためのプラットフォームがProbSpaceです。」とあります。

コンペティション数:18

参加しているコンペティション
"花粉飛散量予測"と"コンビニ商品の売上予測”

植物資源、気候変動、食生活などに関係する個々のコンペティションについて、別な記事にて紹介して行きます。

ページトップへ戻る