En el ejemplo de recuento de palabras de MapReduce, descubrimos la frecuencia de cada palabra. Aquí, el rol de Mapper es mapear las claves a los valores existentes y el rol de Reducer es agregar las claves de valores comunes. Entonces, todo está representado en forma de par clave-valor.
Requisito previo
- Instalación de Java – Compruebe si Java está instalado o no con el siguiente comando.
java -version - Instalación de Hadoop – Verifique si Hadoop está instalado o no usando el siguiente comando.
versión hadoop
Si alguno de ellos no está instalado en su sistema, siga el enlace a continuación para instalarlo.
www.javatpoint.com/hadoop-installation
Pasos para ejecutar el ejemplo de recuento de palabras de MapReduce
- Cree un archivo de texto en su máquina local y escriba algo de texto en él.
$ nano data.txt
- Verifique el texto escrito en el archivo data.txt.
$ cat data.txt
En este ejemplo, descubrimos la frecuencia de cada palabra que existe en este archivo de texto.
- Cree un directorio en HDFS, donde guardar el archivo de texto.
$ hdfs dfs -mkdir / prueba - Cargue el archivo data.txt en HDFS en el directorio específico.
$ hdfs dfs -put /home/codegyani/data.txt / test
- Escriba el programa MapReduce usando eclipse.
Archivo: WC_Mapper.java
Archivo: WC_Reducer.java
Archivo: WC_Runner.java
Descarga el código fuente.
- Cree el archivo jar de este programa y asígnele el nombre countworddemo.jar.
- Ejecuta el archivo jar
hadoop jar /home/codegyani/wordcountdemo.jar com.javatpoint.WC_Runner /test/data.txt / r_output - La salida se almacena en / r_output / part-00000
- Ahora ejecute el comando para ver el resultado.
hdfs dfs -cat / r_output / part-00000