BLOG

TREELOGIC, THE DIGITAL TRANFORMATION

ROSARIO PRIEGO| 11/03/2019

If I am asked about a notable trend in the world of technology in recent years, I would definitely choose applications containerisation, because it seems to me that it has provided a method and the suitable facilities for research, development and software production at all levels.

Big Data in Kubernetes Age
Application containerisation provides scalability, resilience, efficiency and speed.

Also, it has very wide-ranging uses from the point of view of development, data science, operations and architecture. If I was asked to give a name to this technology, I would definitely choose Docker and Kubernetes.


As a developer, Docker has allowed me to learn, research and test a host of new tools very quickly, cleanly and in an organised manner. It has revolutionised the philosophy of DevOps and has a large community of developers behind it, who expand and improve the images on which new applications are being produced. It adds the features of portability, lightness, flexibility, isolation and abstraction, which let you create solutions much faster and much more reliably.


Also, as a tool for container orchestration, Kubernetes has brought easy scalability, resilience, ease of communication between containers, reduced emphasis on load balancing and ease of managing version upgrades, among many other features. It should also be noted that it has allowed Docker containers to be connected to different servers, in the cloud and in mixed environments.


Both have the benefits of scalability, resilience, efficiency and speed. What do these words mean for us? I have always linked them to the Big Data world. Thus, it makes you think that these two worlds are made for each other. However, is it so easy to adapt the par excellence Big Data tools to the Kubernetes world?


At Treelogic, we have worked with Big Data tools to analyse how these goals can be achieved with K8s. However, I am afraid that there will be more questions than answers at this juncture; still, I hope this is a good starting point for choosing a stable architecture in Big Data projects.

Treelogic: Big Data y Analytics

Treelogic: Big Data y Analytics

In theory, replicating the operation of HDFS on Kubernetes is not difficult. HDFS has two types of daemons: Name Nodes and Data Nodes. In general, the indications aim to generate one or several StatefulSets for the Name Node and several Stafulsets for the Data Nodes.


Having HDFS on Kubernetes provides some benefits, such as having several HDFS environments differentiated by their namespace, portability and load balancing between nodes. On the other hand, there are several disadvantages to bear in mind:

La visión artificial es una disciplina muy amplia que tiene múltiples usos. En este caso, nos centraremos en las aplicaciones en el ámbito industrial y, más concretamente, en el relevante papel que ocupan los servicios de visión artificial en la Industria 4.0.


El concepto de Industria 4.0 trata de reflejar la nueva evolución de la industria apoyada en soluciones tecnológicas e innovadoras conocidas como “habilitadores digitales”. La visión estratégica del concepto Industria 4.0 recalca la importancia de convertir cualquier industria en una factoría de datos capaz de gestionar y automatizar eficientemente sus procesos productivos, independientemente del sector de negocio.


Que una industria pueda adquirir el estatus de factoría de datos conlleva que sea capaz de digitalizar las actividades de sus procesos y convertir los datos que maneja en conocimiento útil para la toma de decisiones. Es necesario recalcar la importancia de convertir datos en conocimiento, ya que recopilar información de un proceso es condición necesaria pero no suficiente para mejorar el mismo.


En este ámbito, la información no estructurada que proviene de imágenes o archivos de vídeo aporta innumerables oportunidades para adquirir el máximo conocimiento de un determinado proceso. A diferencia del resto de información estructurada generada por sensores con la que puede contar una empresa, tanto las imágenes como los vídeos deben ser procesados y analizados previamente a ser incorporados a un sistema de control, a un sistema de apoyo a la decisión o a una solución específica de Business Intelligence.


Aquellos proveedores tecnológicos que sean capaces de construir soluciones que asimilen la información contenida en una imagen de forma similar a nuestra percepción visual, tendrán una posición predominante como habilitadores digitales en la industria 4.0.


La aproximación de Treelogic en este campo consiste en combinar técnicas de Visión Artificial con Aprendizaje Automático. Las soluciones desarrolladas a partir de esta combinación presentan un importante potencial, dado que pueden ser aplicadas tanto a diferentes sectores, como a diferentes problemáticas, yendo un paso más allá de las limitaciones propias de las técnicas tradicionales de análisis de imagen.


Treelogic ha apostado por personal especializado en estas dos disciplinas trabajando de forma colaborativa. Gracias a ello, es posible afrontar proyectos complejos en los que, partiendo de un análisis del aspecto, forma y tamaño de aquello que se quiera analizar (personas, objetos, vehículos, máquinas, infraestructuras, etc.), se llegue a interpretar y predecir los comportamientos que están teniendo lugar, utilizando para ello los movimientos, posturas, dinámicas o tendencias que se adoptan a lo largo del tiempo.


La inversión de todo tipo de industrias en esta tecnología, especializada en la interpretación de imágenes o vídeos, desencadena ventajas competitivas evidentes, pudiendo traducirse en mejoras de procesos, ahorro de costes o adaptación de los puestos de trabajo tradicionales, en favor de actividades con una especialización digital y tecnológica que favorezca el nivel de automatización y control de la industria.


Sobre este último punto, es relevante hacer hincapié en el valor añadido que aporta esta transición tecnológica a los empleados, dado que su trabajo estará apoyado por soluciones tecnológicas que facilitan sus tareas, aumentan la eficiencia de los procesos, incrementan los niveles de seguridad y automatizan al máximo posible las actividades industriales.


Por tanto, es evidente concluir que no hay un único camino para adoptar medidas innovadoras en el sector industrial, ni todas las soluciones tienen el mismo encaje en cualquier ámbito, sino que para cada empresa se debe planificar un planteamiento y estrategia de innovación adaptado a su operativa, en el cual los servicios que se desplieguen se encuentren totalmente personalizados para los requisitos de funcionamiento y resultados esperados en cada caso.


En este sentido, Treelogic, como proveedor tecnológico, actúa como motor del cambio ante determinadas situaciones o problemáticas, aplicando una filosofía de desarrollo ágil, flexible y adaptado a las necesidades de cada uno de sus clientes. El objetivo principal de nuestra actuación es conocer su operativa interna e involucrarnos en sus necesidades reales, de tal modo que sea posible construir soluciones personalizadas sustentadas por el uso de las tecnologías que mejor se adecúen, evitando sistemas rígidos o generalistas.


Nuestra concepción se basa en dar respuesta mediante solucionas innovadoras y personalizadas a retos actuales de las industrias, creando un marco común de trabajo que facilite el diálogo y entendimiento entre expertos tecnólogos y responsables de fabricación o negocio. Consideramos que esta forma de trabajar y relacionarse con nuestros clientes permite acometer con éxito proyectos que busquen optimizar procesos productivos y obtener la máxima rentabilidad de los recursos humanos y materiales con los que se cuenta.


En este marco de trabajo, procesos de trazabilidad, control de calidad, mantenimiento predictivo, soporte a la producción, seguridad industrial, control de procesos, logística, medición, detección de presencia, guiado o caracterización de comportamientos tienen un amplio abanico de posibilidades mediante la aplicación de técnicas de Visión Artificial combinadas con estrategias de Inteligencia Artificial y Aprendizaje Automático.

Treelogic: Big Data y Analytics

At Treelogic, we are strongly committed to kappa architectures, and Kafka is one of the most widely used star tools.


Our objective for testing this technology in Kubernetes was to introduce a Kafka and a Zookeeper cluster so that both could be quickly scaled up or down.


To do this, both Zookeeper and Kafka had to be StatefulSets. However, we came across the problem of persistence, as Kubernetes did not provide the dynamic provisioning of volumes when using an NFS server, as was our case.


It is true that there are solutions such as storageOS or glusterFS, but it is easier to use cloud storage and, in that case, it would also be a good idea to migrate the Kubernetes cluster completely to the cloud to avoid network latency problems in access and writing.


Other problems come from autoscaling: if you want to scale up the number of brokers, the reassignment of partitions should be executed so that the new broker can accept writing and reading. If the load falls and you have to scale down, you would be reassigning partitions very often and this does not seem very productive.


In addition, each client needs to be connected in particular with the broker where its partition is for production/consumption. Thus, it is not enough to use a LoadBalancer, as each message has to be redirected to the specific broker. There are ways to solve it, as explained by Confluent here, but a team with networking and storage experience is needed.


It seems that the persistence of data distributed in Kubernetes is still in development and is not highly recommended for production .

Treelogic: Big Data y Analytics

A group of companies had to be involved in the Spark on Kubernetes project to rewrite the driver code and the Spark executor so it could be adapted to Kubernetes.


The latest versions of Spark (from version 2.3.0 onwards) have information already available to lanzar spark-submit on Kubernetes.


Using Kubernetes to launch Spark jobs benefits us, as in the rest of the cases, in:

La visión artificial es una disciplina muy amplia que tiene múltiples usos. En este caso, nos centraremos en las aplicaciones en el ámbito industrial y, más concretamente, en el relevante papel que ocupan los servicios de visión artificial en la Industria 4.0.


El concepto de Industria 4.0 trata de reflejar la nueva evolución de la industria apoyada en soluciones tecnológicas e innovadoras conocidas como “habilitadores digitales”. La visión estratégica del concepto Industria 4.0 recalca la importancia de convertir cualquier industria en una factoría de datos capaz de gestionar y automatizar eficientemente sus procesos productivos, independientemente del sector de negocio.


Que una industria pueda adquirir el estatus de factoría de datos conlleva que sea capaz de digitalizar las actividades de sus procesos y convertir los datos que maneja en conocimiento útil para la toma de decisiones. Es necesario recalcar la importancia de convertir datos en conocimiento, ya que recopilar información de un proceso es condición necesaria pero no suficiente para mejorar el mismo.


En este ámbito, la información no estructurada que proviene de imágenes o archivos de vídeo aporta innumerables oportunidades para adquirir el máximo conocimiento de un determinado proceso. A diferencia del resto de información estructurada generada por sensores con la que puede contar una empresa, tanto las imágenes como los vídeos deben ser procesados y analizados previamente a ser incorporados a un sistema de control, a un sistema de apoyo a la decisión o a una solución específica de Business Intelligence.


Aquellos proveedores tecnológicos que sean capaces de construir soluciones que asimilen la información contenida en una imagen de forma similar a nuestra percepción visual, tendrán una posición predominante como habilitadores digitales en la industria 4.0.


La aproximación de Treelogic en este campo consiste en combinar técnicas de Visión Artificial con Aprendizaje Automático. Las soluciones desarrolladas a partir de esta combinación presentan un importante potencial, dado que pueden ser aplicadas tanto a diferentes sectores, como a diferentes problemáticas, yendo un paso más allá de las limitaciones propias de las técnicas tradicionales de análisis de imagen.


Treelogic ha apostado por personal especializado en estas dos disciplinas trabajando de forma colaborativa. Gracias a ello, es posible afrontar proyectos complejos en los que, partiendo de un análisis del aspecto, forma y tamaño de aquello que se quiera analizar (personas, objetos, vehículos, máquinas, infraestructuras, etc.), se llegue a interpretar y predecir los comportamientos que están teniendo lugar, utilizando para ello los movimientos, posturas, dinámicas o tendencias que se adoptan a lo largo del tiempo.


La inversión de todo tipo de industrias en esta tecnología, especializada en la interpretación de imágenes o vídeos, desencadena ventajas competitivas evidentes, pudiendo traducirse en mejoras de procesos, ahorro de costes o adaptación de los puestos de trabajo tradicionales, en favor de actividades con una especialización digital y tecnológica que favorezca el nivel de automatización y control de la industria.


Sobre este último punto, es relevante hacer hincapié en el valor añadido que aporta esta transición tecnológica a los empleados, dado que su trabajo estará apoyado por soluciones tecnológicas que facilitan sus tareas, aumentan la eficiencia de los procesos, incrementan los niveles de seguridad y automatizan al máximo posible las actividades industriales.


Por tanto, es evidente concluir que no hay un único camino para adoptar medidas innovadoras en el sector industrial, ni todas las soluciones tienen el mismo encaje en cualquier ámbito, sino que para cada empresa se debe planificar un planteamiento y estrategia de innovación adaptado a su operativa, en el cual los servicios que se desplieguen se encuentren totalmente personalizados para los requisitos de funcionamiento y resultados esperados en cada caso.


En este sentido, Treelogic, como proveedor tecnológico, actúa como motor del cambio ante determinadas situaciones o problemáticas, aplicando una filosofía de desarrollo ágil, flexible y adaptado a las necesidades de cada uno de sus clientes. El objetivo principal de nuestra actuación es conocer su operativa interna e involucrarnos en sus necesidades reales, de tal modo que sea posible construir soluciones personalizadas sustentadas por el uso de las tecnologías que mejor se adecúen, evitando sistemas rígidos o generalistas.


Nuestra concepción se basa en dar respuesta mediante solucionas innovadoras y personalizadas a retos actuales de las industrias, creando un marco común de trabajo que facilite el diálogo y entendimiento entre expertos tecnólogos y responsables de fabricación o negocio. Consideramos que esta forma de trabajar y relacionarse con nuestros clientes permite acometer con éxito proyectos que busquen optimizar procesos productivos y obtener la máxima rentabilidad de los recursos humanos y materiales con los que se cuenta.


En este marco de trabajo, procesos de trazabilidad, control de calidad, mantenimiento predictivo, soporte a la producción, seguridad industrial, control de procesos, logística, medición, detección de presencia, guiado o caracterización de comportamientos tienen un amplio abanico de posibilidades mediante la aplicación de técnicas de Visión Artificial combinadas con estrategias de Inteligencia Artificial y Aprendizaje Automático.

As well as other benefits, such as portability and the ease of carrying our processes to the cloud.


However, there are other pending challenges, such as the location of the data (as already noted in the first section of this text), job queues and the improvement of resource management. Although as they point out in Spark's own page, they are already working on these.

Treelogic: Big Data y Analytics

Regarding persistence (e.g. distributed dynamic persistence and data location), I think that Kubernetes and the Big Data tools still have a long way to go. However , steps are definitely being taken to improve and solve the difficulties involved in the most data-focused applications.


As pointed out in this articlethe data life cycle is very different from the applications life cycle”. Big Data tools tend to be “data centric” and complex; not exactly monolithic, but they will cause problems when trying to obtain scalability, flexibility and fault tolerance.


However, it is not all bad news, there are tools like Kafka Streams that go very well with their deployment in Kubernetes. In fact, Confluent advises starting out there to get used to it.


Another positive point is that seeing all the effort and the great community working behind projects such as Apache Spark on Kubernetes, there is no doubt that the road being travelled will continue to bear fruit.

Treelogic: Big Data y Analytics

Although there is a wide variety of tools for managing and monitoring the multitude of microservices deployed in Kubernetes, when we think of an Ambari/Cloudera Manager equivalent for managing all the services of a typical Big Data distribution to keep them synchronised (we are talking about HDFS, Zookeeper , Hbase, Spark, Hue, Oozie, Fume, Hive, etc), we are presented with another great challenge to tackle. 


At Treelogic, we will continue working with Kubernetes for Big Data and Machine Learning environments and tools, but we also recognize the importance and the need for traditional Hadoop distributions, such as Hortonworks or Cloudera, and even more now that they merged (maybe to deal with this new competitor?).

Treelogic: Big Data y Analytics

RELATED POSTS

KAPPA ARCHITECTURE

The vast majority of us who are dedicated to Big Data will have begun in this field after hearing talk of the famous Vs. There were originally three: volume, variety and velocity; which turned into four with the addition of value, thanks to Machine Learning or Artificial Intelligence. 


Read more

TREELOGIC BIG DATA ARCHITECTURES

The millions of pieces of data that are currently generated in the digital age would be of no use without systems to channel all that information. The group of technologies that enables the mass processing of this data set is what is known as Big Data. 


Read more

THE TREELOGIC APPROACH: WE DEAL WITH DATA

One of Treelogic’s main objectives, in all of our projects, is to help the client discover how data can add value to their business. Identifying and exploiting the competitive advantage within any sector is fundamental in order to achieve the best market position. 


Read more