Corpus


Corpus Twitter

Afficher l'image d'origine

La plateforme héberge depuis fin septembre 2015 un flux "stream" de Twitter, représentant 1% des tweets mondiaux.

 Environ 500 Go de données (entre 30 et 40 tweets par seconde) sont ainsi collectés chaque mois et sont à la disposition des équipes de recherche souhaitant exploiter ce corpus.

 


 

Corpus MS-MARCO

 Microsoft Machine Reading Comprehension (MS MARCO) is a new large scale dataset for reading comprehension and question answering. In MS  MARCO, all questions are sampled from real anonymized user queries. The context passages, from which answers in the dataset are derived, are extracted from real web documents using the most advanced version of the Bing search engine. The answers to the queries are human generated if they could summarize the answer. 

More information: http://www.msmarco.org/


Pour accéder à ces corpus, n'hésitez pas à nous contacter.