L'univers multimodal : permettre un apprentissage automatique à grande échelle avec 100 To de données scientifiques astronomiques

L’univers multimodal : permettre un apprentissage automatique à grande échelle avec 100 To de données scientifiques astronomiques

Illustration des principales modalités incluses dans l’univers multimodal, ainsi que des tâches typiques d’apprentissage automatique associées. De plus, l’univers multimodal comprend également une petite quantité d’images hyperspectrales et de données tabulaires, non présentées ici. — astro-ph.IM

Nous présentons le MULTIMODAL UNIVERSE, un ensemble de données multimodales à grande échelle de données astronomiques scientifiques, compilées spécifiquement pour faciliter la recherche sur l’apprentissage automatique.

Au total, l’UNIVERS MULTIMODAL contient des centaines de millions d’observations astronomiques, constituant 100 To d’images multicanaux et hyperspectrales, de spectres, de séries temporelles multivariées, ainsi qu’une grande variété de mesures scientifiques et de « métadonnées » associées.

De plus, nous incluons une gamme de tâches de référence représentatives des pratiques standard pour les méthodes d’apprentissage automatique en astrophysique.

Cet ensemble de données massif permettra le développement de grands modèles multimodaux spécifiquement destinés aux applications scientifiques. Tous les codes utilisés pour compiler l’UNIVERS MULTIMODAL et une description de la manière d’accéder aux données sont disponibles sur https://github.com/MultimodalUniverse/MultimodalUniverse

La collaboration de l’univers multimodal. Eirini Angeloudi, Jeroen Audenaert, Micah Bowles, Benjamin M. Boyd, David Chemaly, Brian Cherinka, Ioana Ciucă, Miles Cranmer, Aaron Do, Matthew Grayling, Erin E. Hayes, Tom Hehir, Shirley Ho, Marc Huertas-Company, Kartheik G ., Maja Jablonska, François Lanusse, Henry W. Leung, Kaisey Mandel, Juan Rafael Martínez-Galarza, Peter Melchior, Lucas Meyer, Liam H. Parker, Helen Qu, Jeff Shen, Michael J. Smith, Connor Stone, Mike Walmsley, John F. Wu

Commentaires : Accepté dans le cadre du parcours NeurIPS Datasets and Benchmarks
Sujets : Instrumentation et méthodes pour l’astrophysique (astro-ph.IM) ; Astrophysique des Galaxies (astro-ph.GA) ; Astrophysique Solaire et Stellaire (astro-ph.SR)
Citer comme : arXiv:2412.02527 (astro-ph.IM) (ou arXiv:2412.02527v1 (astro-ph.IM) pour cette version)
https://doi.org/10.48550/arXiv.2412.02527
Concentrez-vous pour en savoir plus
Historique des soumissions
De : Marc Huertas-Compagnie
(v1) Mardi 3 décembre 2024 16:21:17 UTC (6 981 Ko)
https://arxiv.org/abs/2412.02527

Astrobiologie,