Utilisation Spark

SPARK

Exemple d'exécution Spark d'un traitement de comptage de mots disponible sur la plateforme:

1. Comptage de mots:

Upload d'un fichier texte mydatafile.txt dans un repertoire "projet" (/projets/test/sparktest/mydatafile.txt)
Lancement de spark-shell
[xxxx@osirim-hadoop ~]$ spark-shell 
A l'obtention du prompt Scala, saisir les commandes suivantes
Scala > var file=sc.textFile("/projets/test/sparktest/mydatafile.txt")
Scala > var counts=file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)
Scala > counts.saveAsTextFile("/projets/test/sparktest/output")
A partir du prompt Scala, voir le résultat
Scala > counts.toArray().foreach(println)
A partir de hdfs (hors spark), voir le résultat
Scala > Ctrol D
[xxxx@osirim-hadoop ~]$ hadoop fs -cat /projets/test/sparktest/output/part*
A partir du shell, (hors spark ou hdfs), voir le résultat
[xxxx@osirim-hadoop ~]$ cat /projets/test/sparktest/output/part*