Recherche dans Wikipedia
Un aspect intéressant de la baie de stockage est sa capacité à fournir un accès aux données selon différents protocoles : SMB, NFS, HDFS, ...
Il est ainsi possible de transférer des données sur la baie de façon traditionnelle dans des répertoires de fichiers, par exemple via FTP ou par téléchargement http, puis accéder directement à ces données en HDFS via des traitements map/reduce ou autres.
Dans l'exemple qui suit nous téléchargeons le contenu textuel du site Wikipedia afin d'effectuer ensuite un grep par traitement map/reduce pour retrouver les occurrences d'un mot ou groupe de mots. Ce traitement n'utilisant pas d'index, les expressions régulières peuvent être utilisées autant que besoin dans la recherche.
- La 1ère étape consiste à télécharger le fichier enwiki-latest-pages-articles.xml.bz2 (10 Go environ) qui se situe à l'adresse http://dumps.wikimedia.org/enwiki/latest/
Se positionner dans le répertoire /projets/..., puis exécuter la commande
[jthomaze@co2-hdp26-client ~]$ cd /projets/test
[jthomaze@co2-hdp26-client test]$ wget http://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
- Lançons ensuite le traitement grep sur le fichier téléchargé, pour extraire par exemple les phrases contenant « Big Data »
[jthomaze@co2-hdp26-client test]$ hadoop jar /usr/hdp/2.6.3.0-235/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep /projets/test /projets/test/wikigrep "Big Data*"
- L'exécution du traitement terminée, le résultat sera disponible dans le fichier /projets/test/wikigrep/part-r-00000