Hemos entrado en la era de la economía de la información, donde los datos se han convertido en el activo más crítico de toda organización. Las estrategias basadas en datos ahora son un imperativo competitivo para tener éxito en todas las industrias. Para apoyar objetivos de negocio como el crecimiento de los ingresos, la rentabilidad, y la satisfacción del cliente, las organizaciones están cada vez más, confiando en los datos para tomar decisiones. Esto es lo que vertebra las iniciativas de transformación digital.
Pero para proporcionar a la empresa los datos que necesita para impulsar la transformación digital, las organizaciones deben resolver dos problemas al mismo tiempo.
Los datos deben ser oportunos, porque la transformación digital es todo sobre la velocidad y la aceleración del tiempo de comercialización, ya sea que proporciona respuestas en tiempo real para los equipos comerciales o entregando experiencias de cliente personalizadas. Sin embargo, la mayoría de las empresas están detrás de la curva cuando se trata de entregar iniciativas tecnológicas rápidamente.
Pero si bien la velocidad es fundamental, no es suficiente. Para que los datos puedan permitir una toma de decisiones eficaz y ofrecer una experiencia al cliente extraordinario, las organizaciones necesitan datos que puedan confiar. Este también es un gran desafío para las organizaciones. Ser capaz de confiar en sus datos es lo que nos permite estar en orden con la regulación y la confianza del cliente, y es sobre que las personas adecuadas utilicen los datos adecuados para las decisiones correctas. Y esto también es un gran desafío para Organizaciones.
Según Harvard Business Review, en promedio, el 47% de los registros de datos se crean con errores que impactan en el trabajo.
La velocidad y la confianza a menudo están en desacuerdo, por lo que es común para que las organizaciones se centren en uno u otro. Muchas organizaciones tienden a satisfacer la demanda de velocidad para cumplir con las expectativas de los usuarios. Estas organizaciones permiten a los desarrolladores codificar manualmente integraciones o hacer proyectos únicos con integración usando herramientas de nicho para obtener resultados rápidamente. Si bien estas tácticas pueden resolver la velocidad a corto plazo, no son escalables, según la empresa crece se crean riesgos de calidad y cumplimiento por falta de supervisión.
Por otra parte, organizaciones que intentan resolver el problema de la confianza en los datos a menudo crean una cultura del «no» con el establecimiento de estrictos controles y un enfoque autoritario de la gobernanza. Este modelo requiere muchos recursos, es engorroso y restrictivo y lento, obstaculizando la innovación y la agilidad tan necesario para ser competitivo en el entorno empresarial actual.
La gobernanza de datos evoluciona para abordar el Cumplimiento, la Comercialización, Confianza
Normas de privacidad y protección de datos, como el Reglamento general de protección de datos de la UE (GDPR), han sido los principales impulsores de las iniciativas de gobernanza de datos y la aparición de soluciones de gobernanza. Han ampliado el alcance de la gobernanza de datos desde un enfoque técnico (gestión de datos maestros, catálogos de datos, calidad de los datos, etc.) para incluir la privacidad, protección y soberanía de los datos. Pero las organizaciones tienen un apetito cada vez mayor por aprovechar sus datos para obtener ventajas comerciales, ya sea a través de la colaboración interna, el intercambio de datos entre ecosistemas, comercialización directa o como base para la toma de decisiones empresariales impulsada por la IA. Mientras lo hace, las organizaciones deben tener cuidado de mantener la confianza de los empleados, socios y clientes en su enfoque de aprovechar los datos (y la tecnología impulsada por los datos). Esto requiere gobernanza de datos y herramientas de gobernanza de datos para intensificar una vez más y permitir que las empresas basadas en datos aprovechen sus datos de manera responsable, de forma ética y satisfaciendo las distintas regulaciones.
La agilidad en la gestión de datos se ha convertido en una prioridad fundamental para las organizaciones en un entorno cada vez más diverso, distribuido y complejo.
Los desafíos crecientes en la gestión de los datos:
- Multiplicidad de fuentes y tipos de datos (multicloud, hibrido, IoT, etc)
- El creciente número de silos de datos
- Mayor complejidad de la integración de datos
- Aumento de la demanda de intercambio de datos en tiempo real o impulsado por eventos
- Un aumento en la demanda de modelos de datos y asignación de esquemas y semánticas, dirigidos por el negocio.
- Una necesidad real de informar y automatizar partes de la integración de datos, lo que eventualmente conducirá a una gestión de datos reforzada.
Para reducir los errores humanos y los costos generales, los líderes de datos deben mirar más allá de las prácticas tradicionales de administración de datos y cambiar hacia soluciones modernas como la integración de datos habilitada por IA.
«El concepto de diseño emergente llamado» data fabric» puede ser una solución sólida para los desafíos de gestión de datos siempre presentes, como los ciclos de integración de datos de alto costo y bajo valor, el mantenimiento frecuente de integraciones anteriores, la creciente demanda de tiempo real e intercambio de datos impulsado por eventos, etc.
¿Qué es Data Fabric?
Gartner define data fabric como un concepto de diseño que sirve como una capa integrada (fabric) de datos y procesos de conexión. Data fabric utiliza análisis continuo sobre activos de metadatos existentes, detectables e inferenciados para respaldar el diseño, la implementación y la utilización de datos integrados y reutilizables en todos los entornos, incluidas las plataformas híbridas y multinube.
Consideraciones para tener en cuenta con respecto al data fabric
- Data fabric no es simplemente una combinación de tecnologías tradicionales y contemporáneas, sino un concepto de diseño que cambia el enfoque de las cargas de trabajo humanas y automatizadas.
- Las tecnologías nuevas y futuras, como los gráficos de conocimiento semántico, la gestión activa de metadatos y el aprendizaje automático integrado (ML), son necesarias para realizar el diseño de la data fabric.
- El diseño optimiza la gestión de datos mediante la automatización de tareas repetitivas como la creación de perfiles de conjuntos de datos, el descubrimiento y la alineación de esquemas con nuevas fuentes de datos y, en su forma más avanzada, la reparación de los trabajos de integración de datos fallidos.
- Ninguna solución independiente existente puede facilitar una arquitectura de data fabric completa. Los líderes de datos pueden garantizar una arquitectura de data fabric utilizando una combinación de soluciones compradas y creadas. Por ejemplo, pueden optar por una plataforma de gestión de datos prometedora con un 65-70% de las capacidades necesarias para crear un data fabric. Las capacidades que faltan se pueden lograr con una solución propia.
Data fabric aprovecha las capacidades humanas y de la máquina para acceder a los datos o respaldar su consolidación cuando sea apropiado. Identifica y conecta continuamente datos de aplicaciones dispares para descubrir relaciones únicas y relevantes para el negocio entre los puntos de datos disponibles. Esta información apoya la toma de decisiones, proporcionando más valor a través del acceso y comprensión rápida que las prácticas tradicionales de gestión de datos.
Los data fabric incluyen tecnologías de gestión de datos nuevas y futuras y enfoques de integración de datos entregados a través de prácticas de gestión de datos colaborativas (como DataOps). Estos incluyen (pero no se limitan a) integración de datos de streaming, virtualización de datos, enriquecimiento semántico, metadatos activos asistidos por AI / ML, knowledge graphs y graph DBMS (entre otras bases de datos no relacionales).
Los 5 pilares de un data fabric completo
- La capacidad de data fabric para buscar, integrar, catalogar y compartir continuamente todas las formas de metadatos: debería poder hacer esto en todos los entornos, incluidas las plataformas híbridas y multinube, y en el edge. Luego, estos metadatos deben representarse, junto con sus intrincadas relaciones, en un modelo de knowledge graph conectado que los equipos de negocio puedan comprender.
- La capacidad de realizar análisis sobre metadatos conectados en un gráfico de conocimiento: la salida de analítica resultante debe usarse como entrada (en forma de datos de entrenamiento) para informar y enriquecer los algoritmos de IA / ML que se entregan como parte del fabric. Estos algoritmos AI / ML ayudan a ofrecer un diseño de integración dinámica que se puede ajustar a los requisitos cambiantes de integración de datos.
- La capacidad de usar algoritmos AI / ML para entregar mapas de procesamiento e infraestructura de administración de datos «justo a tiempo» para casos de uso de integración de datos: Estos mapas se ajustarán dinámicamente y brindarán orientación y recomendaciones sobre la administración de datos clave y las consideraciones de integración. Se pueden utilizar para responder preguntas clave, como:
«¿Cuál es el entorno de procesamiento óptimo para esta carga de trabajo?» (Spark frente al almacén de datos existente, por ejemplo)
«¿Cuál es la mejor manera de entregar estos datos integrados?» (extracción física, transformación y carga (ETL), virtualización de datos o una combinación de los dos enfoques, por ejemplo)
- Una sólida red troncal de integración de datos: esto es esencial para el diseño de data fabric. El data fabric debe ser lo suficientemente flexible para entregar datos integrados a través de una combinación de estilos de entrega de datos (incluidos, entre otros, ETL, streaming, replicación, mensajería y virtualización de datos). Un data fabric completo también debe admitir la entrega de datos en todas las latencias necesarias (por lotes o streaming) y todos los tipos de consumidores de datos, incluidos los usuarios de TI (para requisitos de integración complejos) y los usuarios de negocio (para la preparación de datos de autoservicio). Por último, un data fabric debe poder realizar la integración de datos en un entorno de nube híbrida y multicloud y tratar la integración como una disciplina independiente del entorno, proveedor, plataforma o nube.
- La capacidad de automatizar la orquestación de datos: esto será clave para cualquier diseño de data fabric exitoso. La separación del almacenamiento y procesamiento se está convirtiendo en la clave en la gestión de datos en un entorno híbrido / multinube. Esto significa que los data fabric ahora requieren automatización para administrar y orquestar sus pipelines de datos que a menudo atraviesan los límites de la organización y los ecosistemas. Las diversas facetas de la orquestación en los entornos de datos actuales incluyen la coordinación, el mantenimiento y la operacionalización de los flujos de datos, la optimización del rendimiento, la programación de las cargas de trabajo de integración y más. La gestión de estos requiere que su data fabric, automatice la mayoría de las partes de la orquestación para hacer que los equipos de gestión de datos sean más productivos.
Te gustaría saber más acerca de Data Fabric y lo que desde nuestro Tech Hub estamos desarrollando para ayudar a nuestros clientes? ¡No dudes en escribirnos!