Recherche dans Wikipedia

Un aspect intéressant de la baie de stockage est sa capacité à fournir un accès aux données selon différents protocoles : SMB, NFS, HDFS, ...

Il est ainsi possible de transférer des données sur la baie de façon traditionnelle dans des répertoires de fichiers, par exemple via FTP ou par téléchargement http, puis accéder directement à ces données en HDFS via des traitements map/reduce ou autres.

Dans l'exemple qui suit nous téléchargeons le contenu textuel du site Wikipedia afin d'effectuer ensuite un grep par traitement map/reduce pour retrouver les occurrences d'un mot ou groupe de mots. Ce traitement n'utilisant pas d'index, les expressions régulières peuvent être utilisées autant que besoin dans la recherche.

La 1ère étape consiste à télécharger le fichier enwiki-latest-pages-articles.xml.bz2 (10 Go environ) qui se situe à l'adresse http://dumps.wikimedia.org/enwiki/latest/

Se positionner dans le répertoire /projets/..., puis exécuter la commande

[jthomaze@co2-hdp26-client ~]$ cd /projets/test
[jthomaze@co2-hdp26-client test]$ wget http://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2

Lançons ensuite le traitement grep sur le fichier téléchargé, pour extraire par exemple les phrases contenant « Big Data »

[jthomaze@co2-hdp26-client test]$ hadoop jar /usr/hdp/2.6.3.0-235/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep /projets/test /projets/test/wikigrep "Big Data*"

L'exécution du traitement terminée, le résultat sera disponible dans le fichier /projets/test/wikigrep/part-r-00000