Corpus


Corpus Twitter

Afficher l'image d'origine

La plateforme héberge depuis fin septembre 2015 un flux "stream" de Twitter, représentant 1% des tweets mondiaux.

 Environ 500 Go de données (entre 30 et 40 tweets par seconde) sont ainsi collectés chaque mois et sont à la disposition des équipes de recherche souhaitant exploiter ce corpus.

 


 

Corpus MS-MARCO

 Microsoft Machine Reading Comprehension (MS MARCO) is a new large scale dataset for reading comprehension and question answering. In MS  MARCO, all questions are sampled from real anonymized user queries. The context passages, from which answers in the dataset are derived, are extracted from real web documents using the most advanced version of the Bing search engine. The answers to the queries are human generated if they could summarize the answer. 

More information: http://www.msmarco.org/


 

BULLetin du GDR I3

 

Nous hébergeons les archives 2006-2016 de la liste de diffusion 'Le BULLetin du GDR I3 '. Sont envoyées par son intermédiaire des nouvelles se rapportant aussi bien aux conférences à venir, aux appels à communication, aux annonces de financement ( post doc, des postes,...). La liste des abonnes au BULLetin du GDR I3 regroupe l'ensemble des membres (industriels, chercheurs, enseignants-chercheurs, doctorants,...) des communautés Information, Intelligence et Interaction concernés par les problématiques au coeur de ces domaines de recherche, au travers de ses différents groupes de travail.


Pour accéder à ces corpus, n'hésitez pas à nous contacter.