EQUIPO TREELOGIC | 25/01/2019
Los millones de datos que se generan actualmente en la era digital no servirían de nada sin sistemas que canalicen toda esa información. El conjunto de tecnologías que permite el tratamiento masivo de ese conjunto de datos es lo que se conoce como Big Data.
El Internet de las cosas, ese concepto de interconexión entre dispositivos que ya hemos tratado más de una vez en este blog, provoca que el envío y recepción de datos sea continuo y prácticamente ilimitado. A este concepto se le conoce como streaming de datos. Como vemos, estamos tratando con una cantidad de información colosal que necesita una planificación y organización muy bien estructurada, para que los procesos de almacenamiento, transmisión y análisis de datos sean tan rápidos como eficientes.
En Treelogic sabemos muy bien cómo se construyen arquitecturas de Big Data. Llevamos a nuestras espaldas gran cantidad de proyectos relacionados con esta tecnología, como por ejemplo el análisis y detección de redes de fraude, el seguimiento y localización de productos de cliente en tiempo real o el etiquetado y clasificación de movimientos bancarios, que nos han permitido ser un referente en el ámbito de la transformación digital.
Nuestro equipo es un grupo multidisciplinar formado por grandes profesionales con amplia experiencia, capaces de adaptarse a cualquier necesidad del cliente. El diseño de la estructura del sistema Big Data de Treelogic siempre se adecuará a las demandas de los diferentes tipos de procesamiento de datos. El volumen, la tipología de sincronización o la fuente de información, entre otros muchos factores, hacen que cada proyecto sea único y con especializaciones concretas a las que nos ajustamos totalmente.
Antes de iniciar cualquier proyecto relacionado con Big Data, hay que tener muy claras las fuentes de información de las que vamos a recopilar los datos. Es fundamental identificar de forma precisa de dónde obtendremos esos datos, con el objetivo de definir la arquitectura Big Data. Independientemente de si la fuente es interna o externa, los sistemas Big Data deben recopilar la información almacenada en los centros de datos para procesarla rápidamente, y de este modo, obtener análisis de alto valor para alcanzar los objetivos previamente establecidos.
Se debe tener también en cuenta el tipo de transmisión entre el emisor y receptor, y cómo afecta al caso de uso en cuestión. Se dan ocasiones en las que la comunicación es síncrona, es decir, la comunicación entre ambos sistemas es directa y en tiempo real. Mientras que en otros casos la información llega a nuestros sistemas tiempo después de que ésta haya sido generada, información asíncrona. No tiene la misma importancia, por ejemplo, a la hora de procesar un cargo bancario el trabajar con el instante de tiempo en que realmente se generó ese cargo, frente al momento en el que nuestros sistemas lo acabaron por procesar, pues una situación u otra podría desembocar en un descubierto y, por lo tanto, una penalización o no al cliente.
El almacenamiento de los datos es otro de los puntos básicos de cualquier arquitectura Big Data. La información para las múltiples operaciones que se dan en una estructura de este tipo se deposita en los centros de datos, y tiene que transmitirse de forma ágil y segura. De esta forma, se consigue garantizar que la transmisión de la información sea eficaz dentro del conjunto de la arquitectura Big Data.
Ahora, dependiendo de cómo sea la tipología de las fuentes de datos y/o necesidades posteriores de procesamiento o de explotación, existen diferentes configuraciones del almacén de información. Por ejemplo, en el caso de tratar con datos en streaming, la capa de almacenamiento tendrá que disponer de una latencia mínima, y nuestro sistema debe asegurarse que una vez capturado el dato éste es almacenado, no se pierde bajo ninguna circunstancia y se encuentra accesible por el resto de sistemas de manera inmediata. Es decir, se garantiza la tolerancia a fallos, disponibilidad y accesibilidad al dato. En otros casos, si lo que se plantea es el estudio o análisis de redes, por ejemplo de clientes, la información será conveniente que sea almacenada en forma de grafos, además de almacenarse en crudo, raw data.
La tercera capa en nuestro habitual diseño de una arquitectura Big Data es la del procesamiento, que también depende del proyecto y de sus necesidades. Si el conjunto de datos es muy grande y no existe una necesidad de respuesta en tiempo real, la mejor opción será trabajar con herramientas de procesamiento distribuido y en paralelo, por ejemplo Apache Spark. Otra opción es que el procesamiento deba ser en tiempo real, que los datos lleguen de manera inmediata a la capa de análisis, para agilizar aún más el proceso. En tal caso optaremos por herramientas puramente basadas en streaming de datos, por ejemplo Apache Flink o Apache Storm.
Otra serie de puntos fundamentales en cualquier arquitectura Big Data son:
Para cualquier proyecto relacionado con el Big Data la clase de datos con la que se va a trabajar es uno de los principales puntos clave. Hay muchas clasificaciones de datos, pero los que están relacionados con su origen y estructura son las categorizaciones más comunes. Elaborar estas tipologías sirve para hacer más sencillo de entender la enorme complejidad de las estructuras Big Data.
Bajo este parámetro, podemos agrupar los datos en tres tipologías claramente diferenciadas:
Estructurados
Los datos que se encuadran dentro de esta categoría son aquellos que están definidos previamente y se almacenan de manera ordenada. Son los más fáciles de tratar por la parte analítica de la arquitectura Big Data, porque están claramente estandarizados. Por ejemplo: bases de datos.
No estructurados
Aquellos que, por cómo se generan y recopilan, no es posible su ordenación dentro de una clasificación concreta. Son datos que no presentan valores previos y se necesita un mayor esfuerzo para almacenarlos y, posteriormente, procesarlos. Por ejemplo: un video o una imagen.
Semiestructurados
Es el tipo de información que está entre los anteriores grupos de datos. No tiene formatos o estructuras estables. pero se pueden simplificar usando marcadores o etiquetas. Por ejemplo: XML, JSON.
Por otro lado, si organizamos la información desde el punto de vista de su procedencia, encontramos cinco fuentes de datos:
Generados por humanos
Toda aquella información producida por las personas. Por ejemplo: la grabación de una llamada telefónica.
En Treelogic somos expertos en el desarrollo de este tipo de estructuras digitales relacionadas con la gestión masiva de información. Estas arquitecturas Big Data tienen como finalidad ofrecer soluciones mediante la interpretación de información, basada en el análisis y la generación de informes, a las organizaciones que las implementan para que se tomen las decisiones adecuadas de manera eficiente.
Una muestra de nuestra experiencia son las soluciones informáticas que llevamos años implementando en sectores tan complejos como la banca y los seguros. En ellos se manejan millones de datos a diario y las empresas punteras tienen como objetivo conseguir de esa masiva información oportunidades de negocio. Pero para alcanzar esa coyuntura, es necesario extraer datos y analizarlos para poder llegar a realizar predicciones de comportamiento que permitan obtener una ventaja sobre la competencia.
De este modo, las recomendaciones que ofrecen las arquitecturas de Big Data de Treelogic para empresas financieras y seguros, entre otras, sirven para entender mejor a los usuarios y ofrecerles mejores oportunidades.
Algo que reclaman sobre todo clientes como aseguradoras o bancos, es poder predecir el comportamiento de los usuarios y poder evitar situaciones de fraude. Y gracias al avanzado nivel de nuestra tecnología, en Treelogic tenemos la capacidad de poder ofrecer a este tipo de organizaciones lo que buscan.
BIG DATA EN TIEMPOS DE KUBERNETES
La contenerización de aplicaciones ha proporcionado un método idóneo para la investigación, desarrollo y producción del software. ¿Cómo se adecúan las herramientas Big Data a este mundo?
ARQUITECTURA KAPPA
La gran mayoría de los que nos dedicamos al Big Data nos habremos iniciado en este mundo habiendo escuchado el discurso de las famosas V’s. Tres eran en sus inicios: volumen, variedad y velocidad; que pasaron a ser cuatro, valor, gracias al aprendizaje automático.
DEEP LEARNING, APRENDIZAJE PROFUNDO
Desde que en la década de los años 50 se comenzó a hablar de Inteligencia Artificial, no se ha parado de investigar, avanzar y desarrollar este tipo de tecnología. Su principal objetivo reside en poder dotar a sistemas informáticos y digitales de procesos que imiten el funcionamiento del cerebro humano.
TO DEEP, OR NOT TO DEEP, THAT IS THE QUESTION
El Deep Learning es un campo de investigación activo y está revolucionando otros ámbitos dentro del paraguas de la inteligencia artificial. Uno de estos ámbitos es la visión artificial o Computer Vision.
LA APROXIMACIÓN TREELOGIC: WE DEAL WITH DATA
Uno de los principales objetivos que tenemos en Treelogic, para cualquiera de nuestros proyectos, es ayudar al cliente a descubrir cómo los datos otorgan valor a su negocio.
SEGURIDAD INFORMÁTICA EN LA INDUSTRIA 4.0
Cualquier sistema de prevención y detección de fraude o un uso inapropiado de algún procedimiento o dispositivo digital, se puede englobar en el concepto de seguridad informática.
LA REVOLUCIÓN DEL INTERNET DE LAS COSAS
El Internet de las cosas, o IoT por sus siglas en inglés, engloba cualquier dispositivo que se conecte a la red y se comunique con otros objetos digitales, como una nevera, un termostato o la alarma de seguridad de nuestro hogar.
SMART CITIES, LAS METRÓPOLIS DEL FUTURO
Consecuencia de la digitalización, el machine learning y la automatización se está impulsando el innovador concepto de Smart City. Una evolución natural de las ciudades tradicionales hacia un nuevo enfoque más digital, moderno e inteligente, capaz de optimizar sus recursos y servicios gracias a las nuevas tecnologías.
INDUSTRIA 4.O, LA ÚLTIMA REVOLUCIÓN
Big data, Inteligencia Artificial (IA), Machine Learning, Deep Learning, visión artificial o automatización son términos que están muy de moda y que forman parte del último gran movimiento socioeconómico de nuestra era, la cuarta revolución industrial. Un cambio que ya está transformando los procesos productivos y que nos afecta en nuestra vida cotidiana.
TREELOGIC, LA TRANSFORMACIÓN DIGITAL
Nuestras capacidades se aplican en múltiples escenarios y las soluciones que desarrollamos para mejorar procesos productivos, en ámbitos como la predicción de calidad y ayuda en la toma de decisiones, entre otros, están transformando a nuestros clientes en organizaciones integradas en el mundo tecnológico.