Otro ejemplo de Sofia2 Notebooks

El equipo de Hortonworks ha publicado un “Hands-on Tour of Apache Spark” que ejecutar un proceso con PySpark desde Zeppelin.

En la última release de Sofia2 (la versión 3.0) integramos el módulo Sofia2 Notebooks que es una personalización de Zeppelin integrada en el Panel de Control de Sofia2 (Consola Web Sofia2).

En este post veremos cómo ejecutar este tutorial sobre Sofia2 Notebooks:

NOTA: En el Entorno de Experimentación CloudLab esta funcionalidad sólo está accesible para el rol ANALYTICS

1. En la sección seleccionaré

2. Seleccionaré crear un nuevo Notebook:

Y ya puedo empezar con mi Notebook:

3. Lo primero que voy a hacer será traerme el wiki dedicado a Hadoop en la versión en inglés de la Wikipedia (http://en.wikipedia.org/wiki/Hadoop )

Para eso usaré el intérprete Shell y lanzaré algo como:

4. Lo siguiente es copiar a HDFS el fichero, con el comando hdfs:

5. Y ahora con pyspark (Spark Python API) contaré las líneas (sí, ya dijimos que era muy sencillo!!!)

Esta lógica está instanciando un RDD sobre el SparkCotnext y el fichero cargado en HDFS, sobre ese RDD filtro las líneas que no están vacías y finalmente las cuento.

Otro ejemplo de Sofia2 Notebooks

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s