データサイエンスコンペティションの紹介(4) ー開催中ー
カテゴリー: データサイエンス
作成日:2023-10-16
データサイエンス(data science)とは、様々な情報をデータとして用いて、統計学やアルゴリズムを使って、新たな科学的及び社会に有益な知見を引き出そうとするアプローチのことです。近年、データサイエンス的アプローチで作成される機械学習モデルがAIのコアとして様々に利用されるようになっています。
データサイエンスのスキルを広げ・深める場としてデータサイエンスコンペティションがあります。
今回は、世界最大のコンペティション・プラットフォームであるKaggleで現在開催中のデータサイエンスコンペティションを2つ(筆者も参加登録しました)紹介します。いずれもグーグルアカウントで無料で登録・参加することができます。Kaggleの良いところは参加チームが積極的に多くのデータ分析と予測モデル作成のコードを公開してくれるところです。これらのなかでvote(いいね)数の多いコードを参考にしてまずデータの解析して、ベースラインとなる予測モデルの作成にチャレンジします。
Open Problems – Single-Cell Perturbations
Predict how small molecules change gene expression in diferent cell types
コンペティションの主催者は Open Problems in Single-Cell Analysis で、シングルセルデータサイエンスのイノベーションを推進することを目的とした非営利の科学的コラボレーションです。疾病の細胞シグネチャーを研究し、変化させることによって医薬品を開発する世界初の治療薬企業である Cellarity 社と提携してコンペティションが開催されています。
このコンペティションの目標は、低分子化合物が様々な細胞タイプにおいて遺伝子発現をどのように変化させるかを予測することです。予測モデルの開発は、低分子薬物の摂動に対する細胞の反応を予測する方法の開発に役立ち、創薬や基礎生物学において重要な応用が期待されます。
開催期間は2023年9月12日から2023年11月30日までです。賞金総額は10万ドルです。日本国内のコンペの10倍以上です。10月14日現在で511チームが参加しています。
予測モデルを作成するために提供されているデータファイルは8つで4.48 GBあります。Kaggleの賞金付きコンペのデータのなかにはとてつもなく大きくて、トライを断念することも多いのですが、まあ何とかなりそうな大きさでほっとしています。
Stanford Ribonanza RNA Folding
Create a model that predicts the structures of any RNA molecule
RNA分子がどのように折り畳まれるのかを理解することは生命現象の理解、より良い医薬品の開発に重要です。2023年のノーベル生理学・医学賞はmRNAの改質技術に対して贈られました。このコンペティションの目標は、あらゆるRNA分子の構造と、その結果得られるケミカル・マッピング・プロファイルを予測するモデルを作成し、RNAの各位置について収集したデータと比較することです。コンペティションで開発されたアルゴリズムは、RNAをベースにした創薬標的の特定や、mRNAワクチンやCRISPR遺伝子治療薬の設計に役立つ可能性があります。また、生命の根本的な理解にも貢献します。
賞金総額は10万ドルで、開催期間は2023年9月7日〜12月7日です。10月14日現在で304チームが参加しています。提供されているデータの総容量が88.74 GBもあり、zipファイルでダウンロードしてPythonで解凍するのに2日間かかりました。データを分析するのも難しそうで、ベースラインの予測モデルを作成することができるかどうか。