En esta entrada, vamos a describir el primer paso si queremos montar un servidor para análisis de datos y explotación de Data Warehouse utilizando las herramientas de código abierto que pone a nuestra disposición la versión Community de la suite Pentaho.
Dicha plataforma provee muchas herramientas para el análisis y minería de datos, pero nos vamos a centrar en la descarga e instalación del servidor Bussiness Analytics junto con el plugin Pivot4J que nos permitirá realizar vistas y manipulaciones de los cubos de datos que podamos tener en nuestro Data Warehouse.
De manera conveniente, la plataforma incluye unos datos de ejemplo por si lo que nos interesa es descubrir sus posibilidades o incluso empezar a aprender a manipular y analizar información procedente de un cubo de datos. En futuras entradas, ampliaremos información sobre qué es un cubo de datos, así como otros conceptos básicos acerca de Big Data y Data Warehouse.
A modo de resumen, describiremos en esta entrada la instalación del servidor y para ello usaremos el siguiente software y versiones:
- Java Runtime Environment 7
- Pentaho Business Analytics 5.3
- PivotJ4 0.9
1. Instalando Java Runtime Environment
Necesitamos tener instalado el JRE de Java en su versión 7 para hacer uso de la plataforma de Pentaho, que está basada en Java. Actualmente, está disponible una nueva versión de Java (la 1.8), pero para el funcionamiento de Pivot4J 0.9 necesitaremos de la versión anterior. Existe un plugin de Pivot4J en versión de desarrollo compatible con Java 8, pero su funcionamiento aún no es muy estable.
Si ya tenemos instalado JRE7, no hace falta volverlo a instalar y si el que tenemos instalado es JR8 no habría ningún problema por instalar ambas versiones y que convivan en nuestro sistema.
Podemos descargar JRE7 desde la siguiente web: http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html#jre-7u80-oth-JPR.
Deberemos seleccionar la versión según nuestro sistema operativo y proceder a la instalación como con cualquier otro software. Es recomendable instalar JRE con los valores por defecto en lo tocante a rutas, ya que facilitará mucho que los programas lo encuentren cuando tengan que hacer uso del mismo o cuando comprueben si está instalado.
2. Descargando e instalando Pentaho Business Analytics y el plugin Pivot4J
A continuación, debemos descargar la suite de Pentaho Community Edition (Pentaho CE) desde el siguiente enlace:
http://sourceforge.net/projects/pentaho/files/Business%20Intelligence%20Server/5.3/.
Si accedemos a la web oficial de Pentaho CE, nos ofrecerá la versión 6 pero si descargamos ésta no será compatible con la versión estable (0.9) de Pivot4J.
Una vez descargado, bastará con extraer el archivo en la carpeta en la que deseemos instalar el servidor (por ejemplo C:/Archivos de Programa/Pentaho/biserver-ce).
No se necesita ejecutar ningún instalador, ya tenemos listo el servidor de Business Analytics.
A continuación, descargamos el plugin de Pivot4J desde el siguiente enlace: http://www.pivot4j.org/download.html. Descargaremos la versión preparada para la suite de Pentaho.
Una vez descargado, procederemos a descomprimir la carpeta pivot4j dentro de la carpeta de instalación donde hayamos ubicado el servidor en la siguiente ruta //biserver-ce/pentaho-solutions/system.
Con esto, ya tenemos todo instalado. Sólo nos falta un pequeño paso de configuración para estar listos para usar la plataforma con su plugin.
3. Añadiendo la Variable de Entorno para Pentaho
Para que las aplicaciones de Pentaho funcionen correctamente, es muy aconsejable añadir una nueva variable de entorno para configurar la ruta hacia el directorio donde está instalado el JRE de Java.
Para ello, en Windows 10, hacemos click derecho sobre Este equipo dentro de un Explorador de Windows, hacemos click sobre Propiedades y a continuación en Configuración avanzada del sistema.
Haremos click en el botón Variables de entorno... ubicado en la parte inferior derecha y a continuación pulsaremos en el botón Nueva... en la parte de Variables del sistema.
Introduciremos PENTAHO_JAVA_HOME como nombre y en el valor de la variable la ruta donde hemos instalado JavaRE. Si la ruta la hemos dejado por defecto, nos quedará algo así:
Pulsamos en Aceptar y con este último paso ya tendríamos instalado y configurado todo lo necesario para empezar a trabajar con nuestro servidor.
4. Arrancando el servidor y comprobando el funcionamiento de Pivot4J
Ya sólo queda arrancar nuestro servidor Pentaho Business Analytics y comprobar que el funcionamiento de Pivot4J es el esperado.
Para ello, acudiremos a la carpeta donde hayamos instalado biserver-ce y haremos click derecho/Ejecutar como administrador sobre el archivo start_pentaho.bat. Esto abrirá una ventana de consola que arrancará el servidor Tomcat que soporta nuestra plataforma y empezará a desplegar la aplicación.
Tras unos instantes, nuestro servidor quedará arrancado, desplegado y accesible. Para acceder a él desde nuestro equipo, abriremos el navegador y accederemos a localhost a través del puerto 8080: http://localhost:8080/.
Nos debería aparecer la pantalla de login del servidor BI. Haremos click en Login as an Evaluator y a continuación en el botón GO bajo la opción de Administrator.
A continuación accederemos al panel de control de nuestro servidor de análisis. Sólo queda comprobar que Pivot4J está correctamente instalado. Haremos click en Create New y comprobamos si aparece la opción Pivot4J View:
En caso afirmativo, ya tendremos todo listo para empezar a explotar y analizar los cubos de datos. Si la opción no aparece, lo más probable es que hayamos instalado versiones incompatibles de Pentaho Business Analytics y Pivot4J (por ejemplo PBA 5.3 + PivotJ4 1.0 o PBA 6.0 + PivotJ 0.9).
Ya sólo queda crear una conexión con nuestra base de datos (desde la opción Manage Data Sources del panel de control) o empezar a trabajar con los datos de ejemplo que se incluyen (SampleData y SteelWheels).
En futuras entradas, veremos más sobre esta herramienta, así como mucha más información referente a Big Data y DataWarehouse.