Inteligencia de negocios en un mundo de millones de datos

Mtro. Víctor Becerra Cordoba

 

Descargar artículo

 

Maestro en Tecnologías Web y en Administración de Negocios, Especialista en Redes y Sistemas Distribuidos, así como en Tecnologías Web, Ingeniero en Sistemas Computacionales. Director de la micro empresa Newsoft Mx.

Resumen

El presente trabajo da a conocer una visión global acerca de la inteligencia de negocios en el mundo actual, donde constantemente se habla del término Big Data, entendiendo que se trata del procesamiento de millones de datos, de grandes cantidades como Zeta bytes. Con esto nace una nueva situación a enfrentar por parte de todos los negocios, como el poder procesar esta gran cantidad de información, priorizando velocidad y precisión de los datos, para poder tomar decisiones más acertadas sobre el futuro de los negocios, tanto las corporaciones privadas como públicas. 

Cabe mencionar que actualmente existen compañías que desarrollan este análisis e incluso cuentan con herramientas que de fácil acceso, con las cuales se puede realizar este proceso y algunas son gratuitas, lo que indica que este procesamiento de datos, es una necesidad de todos, pero viene aquí la pregunta que da sentido a este artículo ¿Cuántas personas o instituciones realizan este proceso? Es por ello que, a continuación, se mencionan herramientas y se describe de forma sencilla y práctica la inteligencia de negocios.

Palabras clave

Big data, inteligencia de negocios, análisis de datos, almacenes de datos, herramientas para procesamiento de información, inteligencia artificial.

Introducción

Hoy en día, se vive la constante evolución en el área de las tecnologías de la información (TI), que permite que se vean de forma integral y no fraccionada, pues las TI son el eje central de toda estrategia empresarial / corporativa. Aunado a esto, el entorno se ha transformado, se ha vuelto más complejo, lo cual exige un cambio constante, permaneciendo en la mejora continua.

Además, es necesario tener presente que lo más importante en la actualidad es el conocimiento, siendo más relevante que el capital, el trabajo y los recursos naturales; recordemos que el conocimiento es la información interpretada (Valle, Puerta, & Núñez, 2017).

Hace 22 años se tuvo contacto con un equipo de cómputo y hace 21 años se tuvo el primer acercamiento con un sistema de información donde almacenaban todos los kárdex de estudiantes, así como su información administrativa. Por otro lado, cerca de 20 años han pasado desde la primera vez que se pudo observar el sistema administrativo y el site principal de la compañía Nestlé México, S. A. de C. V., en la ciudad de Lagos de Moreno, por mencionar algún ejemplo en particular. 

A partir de entonces y hasta la fecha se han implementado y gestionado una buena cantidad de sistemas; sin embargo, la inteligencia de negocios que se puede obtener con los datos que han originado estos sistemas no ha sido tan sofisticada. Siendo este caso, el mismo para algunas organizaciones educativas públicas y privadas y de varias PyME y, por consiguiente, de algunas industrias en las que se ha logrado realizar servicios en sus sistemas de información. Incluso varias de ellas, a pesar de ser transnacionales, no cuentan con un sistema que permita la optimización de los datos, mucho menos generar conocimientos; otras solo almacenan los datos para permitir la funcionalidad del sistema, pero no realizan análisis de estos para la toma de decisiones.

Lo anterior muestra que estas organizaciones se encuentran en una situación complicada al no contar con una correcta gestión de la información de sus sistemas; es decir, un sistema de planificación de recursos empresariales (ERP: por sus siglas en inglés, Enterprise Resource Planning), que permita la información en tiempo real, su obtención de forma clara y rápida, con acceso desde su dispositivo móvil y, sobre todo, que sus bases de datos no se encuentren correctamente planeadas.

 Esto mismo lo fundamenta SAS Institute Inc., en su sitio WEB, donde hace saber que las organizaciones inteligentes usan la analítica, las exitosas la integran. El 95 por ciento de las organizaciones requiere de tres meses o más para poner en producción los modelos analíticos, pues hoy en día debemos ser capaces de crear resultados a la 'velocidad de ahora'. Lo que nos tomaba de seis a ocho semanas ahora debe ser desarrollado y entregado en días en vez de meses. (SAS Institute, 2017)

Además se menciona que hace solo unos años, el término análisis incorporado se refería a los análisis que ofrecen los sistemas de gestión de la relación del cliente, (CRM: por sus siglas en inglés Customer Relationship Managment) o un sistema ERP. Dichas visualizaciones que ofrecen estos sistemas están cambiando para incluir el análisis visual como una parte transparente de una interfaz de usuario, así como paneles interactivos de analítica, análisis automatizados y en tiempo real, por lo cual están pasando de ser parte de un proceso de negocio operacional para acercar los resultados del análisis a tomadores de decisiones y acción. (TDWI Advancing all things, 2014)

“Estamos seguros de que mediante la implantación de un sistema de CRM fiable e invertir en la formación de su personal para su manejo adecuado, a largo plazo, los resultados aparecerán y se dará un gran paso en el aumento de la lealtad de sus clientes” (Delers & Cadiat, 2017)

Metodología

Durante un periodo de 3 meses se realizó el análisis e investigación sobre la situación que se menciona con anterioridad, como parte de la práctica docente de nivel Maestría en Tecnologías de la Información Empresarial, en la Universidad de La Salle Bajío y como complemento a la práctica profesional en la consultoría de implementación de sistemas ERP y CRM, en León de los Aldama (Guanajuato), Lagos de Moreno (Jalisco) e Irapuato (Guanajuato), donde se analizó la realidad de 20 PyME de estas ciudades: 10 con actividades en el sector industrial y 10 en el educativo, donde se examinó si cuentan con algún sistema ERP, CRM, si realizan técnicas para crear su almacén de datos (DW), minería de datos (DM), inteligencia de negocios (BI) y procesamiento de miles de datos, conocido como Big Data (BD).

En el siguiente tablero, se marca con una X si es realizada alguna de estas actividades:

Tabla 1
Resultados de análisis de uso de sistemas y técnicas de procesamiento de datos

Núm. Sector ERP CRM DW DM BI Big Data
1 Empresarial X X X X X X
2 Empresarial X          
3 Empresarial X          
4 Empresarial            
5 Empresarial            
6 Empresarial X X X X X X
7 Empresarial X X X X X X
8 Empresarial X          
9 Empresarial X          
10 Empresarial X          
11 Educativo            
12 Educativo            
13 Educativo            
14 Educativo            
15 Educativo            
16 Educativo            
17 Educativo            
18 Educativo            
19 Educativo            
20 Educativo            

Fuente: Elaboración propia del autor

Tras esta visualización, se puede observar que el sector educativo es un área de gran oportunidad para la implementación de los sistemas ERP y CRM, además de las técnicas mencionadas. Mientras que en lo que respecta al sector empresarial, se deja claro que con base a los datos, solamente el 20 % de estas empresas encuestadas cuenta con ellos y genera las técnicas; por lo tanto, al vivir en una era de grandes millones de datos, aún no se realiza su trato de forma adecuada, lo cual imposibilita la obtención de beneficios que estos pueden dar.

“Desde la perspectiva de marketing, dice Shoemaker, la TI es el sistema nervioso que evoluciona las formas de organización de marketing (Valle, Puerta, & Núñez, 2017)”

Debido a lo anterior, se comenzó la búsqueda de herramientas que permitieran el proceso de gran información, así como la aplicación de las técnicas que se mencionaron. De la búsqueda realizada, solamente se consideraron las herramientas con mayor impacto y usabilidad.

Es importante conocer la necesidad de procesar grandes millones de datos, para esto nos remitiremos al webinar ofrecido por Platzi, donde se menciona que en tan solo una década, del 2005 al 2015, el procesamiento de información paso de ser de 130 a 7910 exabytes  (Platzi, 2017), tal como se muestra en la imagen 1.


Imagen 1. Evolución del proceso de información de la década 2005 – 2015
Fuente: Platzi, 2017

Dentro de esta investigación, es importante mencionar que para este procesamiento de gran cantidad de datos, se cuentan con herramientas como Hadoop y Spark, siendo la primera una de las más utilizadas, mientras que Spark resulta ser la evolución de Hadoop, logrando el procesamiento a mayor velocidad que su antecesor, por lo cual es importante el comenzar a conocer sus procesos y técnicas, que como se puede observar en la imagen 2. Cuentan con grandes utilidades o módulos que facilitan la integración de estos procesos, esto con referencia al webinar ofrecido por Software Guru.


Imagen 2. Módulos de Hadoop
Fuente: Software Guru, 2017

De la misma forma, se realizaron pruebas con la herramienta Pentaho, la cual tiene dos distribuciones, una comercial y una de uso para la comunidad. Esta última se puede utilizar de forma gratuita, aunque tiene algunas limitaciones; sin embargo, se pueden realizar una gran cantidad de procedimientos que ayudan a llevar a cabo las técnicas que se han mencionado, desde el almacenamiento de datos, hasta la generación de cuadros de mando  o control (dashboards); los cuales se generan con la creación del proceso de extracción, transformación y carga, lo que abreviado se conoce como ETL (por sus siglas en inglés  Extraction, Transformation and Load), 

Lo anterior, se puede visualizar en la imagen 3, utilizando las herramientas de este software, como son un “archivo de entrada de csv”, “tabla de salida de datos”, “transformaciones”, entre otros. Todo ello se procesó en una máquina virtual.


Imagen 3. Diagrama de proceso de ETL en herramienta Pentaho
Fuente: Elaboración propia del autor

Resultados
Primeramente, se debe considerar que con base a la Tabla 1, es posible considerar que existe un gran campo de acción en el sector educativo para aplicar el uso de sistemas ERP y CRM, además de todas las técnicas mostradas; lo cual tendría como resultado, una toma de decisiones más asertiva y la mejora de los servicios que se ofrecen, pues con esto todas las operaciones estarían integradas y se evitaría la duplicidad de información.  Ahora bien, al aplicar las técnicas, se hace la depuración para obtener los cuadros de mando adecuados, que permiten el tener a la mano la información precisa. 

Se puede tener en cuenta que la industria aún no cuenta con los recursos tecnológicos que le permitan el realizar las integraciones de estos datos, por lo cual también es un sector donde se pueden aplicar todas estas tecnologías de análisis de millones de datos. En ambos sectores se pueden aplicar el uso de las herramientas que fueron encontradas en la investigación realizada,

La herramienta SAS (Sistema de Análisis de Datos, por sus siglas en inglés, Staticial Analysis System) desarrollada por la empesa SAS Institute Inc., es una de las que más preponderantes en el mercado de la analítica de datos. En su sitio WEB publica un resultado muy abstracto de la aplicación de su herramienta a la empresa Nestlé, mejorando la precisión de su planificación de la demanda, cálculos más precisos al momento de ejecutar una promoción, entre otras más. (SAS Institute, 2017). 

Otro ejemplo que se puede revisar, es el elaborado por la institución gubernamental INIFAP, gracias al informe de la Dra. Teresa García y el Dr. Isaías López, realizada el pasado 15 de mayo del 2009, donde se instruye el uso de manejo de datos utilizando SAS. Este programa es el paquete estadístico de más prestigio y se encuentra entre los más poderosos instrumentos de manejo y análisis de datos en el mundo, además es distribuido en más de 120 países para aproximadamente 3.5 millones de usuarios. Este software no puede comprarse, solo se adquieren licencias de uso, se puede ver un ejemplo en la imagen 4 (García Peniche & López Guerrero, 2017).


Imagen 4. Ejercicio aplicado en el software SAS
Fuente: García Peniche & López Guerrero, 2017

Otra de las herramientas que fueron analizadas para el procesamiento de millones de datos e inteligencia de negocios, a través de las técnicas que se mencionaron, fue Pentaho y Cloudera. Haciendo uso de la primera en su versión de Community.

Cabe mencionar que el uso de estas herramientas o software analítico, requiere de gran capacidad de los equipos de cómputo; por ejemplo, al usar Pentaho, se destinaron, para la máquina virtual, 2 procesadores con 2 núcleos, 1TB de almacenamiento de disco duro y 8GB de memoria RAM. Lo anterior para poder hacer un análisis y visualizar un gráfico como el de la imagen 5, el cual sería colocado en un dashboard, el cual que se obtuvo gracias al cubo generado el proceso de ETL.

En este caso, se tomaron los datos de ejemplo que vienen con el software y que hablan de la empresa Steelwheels. Específicamente de sus datos de ventas, de los cuales también se obtuvieron varios gráficos en un solo paso y estos se pueden integrar al cuadro de mando, tal como lo ilustra la imagen 6.


Imagen 5. Gráfico de pastel generado en Pentaho con los datos muestra
Fuente: Elaboración propia del autor


Imagen 6. Gráfico de pastel generado en Pentaho con los datos muestra
Fuente: Elaboración propia del autor

Respecto a Pentaho solo resta compartir que su funcionalidad está bajo 3 herramientas: Pentaho Server, Pentaho Data Integration y Pentaho Report Designer. Todas funcionan con la máquina virtual de Java, en el caso de Pentaho Server, es necesario realizar la instalación de servidor WEB Apache Tomcat, específicamente en el puerto 8080.

A todo esto, es importante que recordemos el proceso que recomienda Ralph Kimball, en conjunto a Margy Ross, en su libro “Kit de herramientas del almacén de datos”, en inglés “The Data Warehouse Toolkit” (2013). En dicho proceso se hace mención de los pasos que se deben cumplir para realizar de forma correcta nuestro almacén de datos, data warehouse, el cual que se enfoca en 3 líneas:

  • La primera consiste en la tecnología, en donde se involucra el diseño de la arquitectura técnica, la selección de productos e implementación y el crecimiento.
  • La línea 2 contempla los datos, los cuales tienen que ver con el modelado dimensional, el diseño físico, diseño e implementación del subsistema de ETL y, por último, la implementación.
  • La tercera línea es el fin de todo lo anterior y la causa de este artículo, pues tiene la aplicación de inteligencia de negocios, la cual, como vimos con anterioridad, es poco utilizada o generada. (Kimball & Ross, 2013).

Debido a esto, los autores nos recomiendan en esta fase, contemplar las especificaciones de aplicaciones de inteligencia de negocios, el desarrollo de aplicaciones de inteligencia de negocios y el mantenimiento. Esto se visualiza en la imagen 7.


Imagen 7. Diagrama para creación de un almacén de datos
Fuente: Kimball & Ross, 2013

Además de lo que ya ha sido mencionado,  es importante el recordar lo descrito por Duarte y coautores, acerca de la alineación entre negocio y TI, donde se deja claro que es necesario el realizar un Balance Scorecard, en el cual se alinea el área financiera, que corresponde a los accionistas; el área de los clientes, donde se resuelve cómo debemos ser vistos por nuestros clientes;  los procesos internos, esto para satisfacer a nuestros clientes y accionistas preguntándonos ¿en qué proceso deberíamos alcanzar la excelencia? y, por último, el área de aprendizaje y crecimiento, donde se responde la pregunta ¿cómo sostendremos el cambio y mejora? Tal como lo ilustra la imagen 8.


Imagen 8. Diagrama explicativo del Balance Scorecard
Fuente: Valle, Puerta & Núñez, 2017

Otra herramienta analizada fue Cloudera, de la empresa Cloudera Inc., la cual no fue probada y solo se realizó su análisis conforme a la información publicada en su sitio WEB. La razón por la cual no fue probada se debe a que los requerimientos de hardware son altos, se debe de contar con un procesador de 4 núcleos, 12GB de memoria RAM y un disco duro de 1TB, lo cual en su momento, no fue posible. 

Sin embargo, es importante mencionar que cuenta con una buena cantidad de casos de éxito que dan fe de la gran capacidad que tiene, tal como se ve en la imagen 9, donde se puede observar a empresas como Samsung, Cisco, Siemens, entre otras.


Imagen 9. Empresas que utilizan los servicios de inteligencia de negocios
Fuente: SAS Institute, 2017

Cabe mencionar que cuenta con varios productos como Enterprise Data Hub, Analytic DB, Operational DB, Data Science & Engineering y Essentials, las cuales se pueden descargar del enlace de https://www.cloudera.com/downloads.html. Entre estas se encuentran Quick Starts, Cloudera Manager y Cloudera Director; de estas 3 versiones, la primera opción es de uso libre y tiene limitaciones.

Esta distribución puede usarse en software de virtualización de Virtual Box, VMWare, entre otros, en la imagen 10, se aprecian las distribuciones existentes y los componentes que le forman, los cuales dan fe de la rapidez de procesamiento, pues entre sus características, se enlista el uso de Apache Kudu y Apache Spark 2.


Imagen 10. Página WEB de distribuciones de Cloudera con mención de algunas de sus características
Fuente: Cloudera Inc, 2017


Conclusiones

El estudio realizado acerca de las instituciones educativas y empresariales, deja clara la gran área de oportunidad de aplicación en su organización, además de estas técnicas de datos, también es necesario y urgente una toma de decisiones basada en la inteligencia de negocios que sea generada a través del uso y aplicación de alguna de las herramientas mencionadas.

Con los estudios y técnicas aplicadas, fue posible obtener un gran aprendizaje sobre el uso correcto de las herramientas y sus ventajas o aplicaciones que se ofrecen, debido a que algunas deben de implementarse sobre ciertas características de hardware y software, dejando en común la gran demanda de recursos físicos, para este proceso.

Cabe mencionar que las pruebas que se realizaron no se comparan a la gran cantidad de datos que se puede procesar en alguna de las empresas, por lo que debe considerarse que será relativo el incremento de la capacidad de hardware conforme al incremento de procesamiento de información.

Las herramientas Pentaho, Cloudera y SAS, son líderes en el mercado de la analítica de datos e inteligencia de negocios al contar con gran capacidad y casos de éxito de aplicación, esto aplica para cualquiera de sus distribuciones.

La inteligencia de negocios es más que una ventaja competitiva, es la herramienta decisiva para asegurar el éxito de toda decisión corporativa, en constante trabajo y armonía con las tecnologías de la información.

Agradecimientos
 

Agradezco el apoyo brindado por la Mtra. Marisol Pérez Servín, Mtra. Edel María Espino Ledezma, el Mtro. Moisés Matamoros Muñoz, el Mtro. Juan Carlos Amezcua Fonseca y el Mtro. Enrique Aguilar Vargas, por confiar en esta investigación y la oportunidad brindada para llevarse a cabo. 


A la Universidad De La Salle Bajío, por brindar el espacio de sus aulas donde impartir el conocimiento y a los directivos de TI que facilitaron la información para este análisis.

Agradezco a mi esposa y mi hijo por siempre motivarme a superarme. A Dios por darme la fuerza espiritual y mental.

Referencias
Data, T. A. (27 de julio de 2014). https://tdwi.org/Home.aspx. Obtenido de https://www.sas.com/content/dam/SAS/en_us/doc/whitepaper2/tdwi-operationalizing-embedding-analytics-for-action-108112.pdf
Delers, A., & Cadiat, A. C. (2017). La Estrategia CRM - Las Claves para aumentar y fidelizar a la clientela. España: Primento, en 50 minutos.

García Peniche, T., & López Guerrero, I. (22 de julio de 2017). INIFAP. Obtenido de http://biblioteca.inifap.gob.mx:8080/xmlui/bitstream/handle/123456789/1569/Introduccion_al_manejo_de_datos_utilizando_SAS.pdf?sequence=1

Inc, S. I. (27 de julio de 2017). SAS the power to now. Obtenido de https://www.sas.com/es_mx/campaigns/analytics/operationalizing-and-embedding-analytics-for-action.html?utm_campaign=LCT_Analytics_for_action&utm_source=facebook&utm_medium=cpM

Institute Inc, S. (30 de julio de 2017). SAS. Obtenido de http://blogs.sas.com/content/sasla/2017/06/20/una-vision-mejorada-da-nestle-la-ventaja-competitiva/

Kimball, R., & Ross, M. (2013). The Data Warehouse Toolkit. Canada: Wiley.
Platzi. (30 de 05 de 2017). Platzi. Obtenido de https://youtu.be/WgAakVRAAwM

Referencias de imágenes
Sai Kiran Anagani (2016)
Recuperada de https://unsplash.com/collections/173229/work-online (imagen publicada bajo licencia Creative Commons de Atribución-No comercial Genérica 2.0 de acuerdo a: https://creativecommons.org/licenses/by-nc/2.0/).