Aunque todavía es un concepto relativamente novedoso el Data Lake ya ha sido adoptado por muchas organizaciones.

Su función principal es almacenar datos estructurados y no estructurados en un lugar central para facilitar a los científicos de datos y otros usuarios de investigación y exploración analizar datos. Sin un Data Lake estos usuarios desperdiciarían mucho tiempo en buscar todos los datos antes de poder comenzar con su trabajo real: el análisis.

En resumen se supone que el Data Lake acorta el proceso de preparación de los datos que precede al trabajo analítico como tal.

Sin embargo la arquitectura original de los Data Lakes tiene dos inconvenientes graves:

- Uso restringido de los datos: está diseñado exclusivamente para los científicos de datos y no para otros profesionales y departamentos de la empresa. 

- Los datos tienen que moverse físicamente lo que conlleva ciertos problemas

El experto holandés en Big Data y Data Warehousing Rick van der Lans propone la puesta en marcha de lo que denomina Data Lakes "multipropósito" que permitan el acceso a los datos no sólo de los científicos de datos (para los que se hicieron originalmente). Se trataría de permitir el acceso a ese valioso "maná" que son los datos, también, de los típicos usuarios "self-service" de las aplicaciones de BI tradicionales: Recursos Humanos, Márketing, Comercial...

De esta forma las inversiones en Data Lakes se amortizan más fácilmente. 

Los problemas de la naturaleza física de los Data Lake

Originariamente los Data Lake exigen que los datos se copien "físicamente" a un almacén centralizado lo que supone diversas restricciones:

- Los Big Data pueden ser "demasiado grandes" para poder copiarse a ese repositorio centralizado
- Ciertos departamentos "no cooperativos" pueden restringir la copia de "sus" datos ya sea por políticas de empresa u otras razones
- Las cada vez más restrictivas políticas de datos y normativas pueden también restringir la copia de datos
- Los datos almacenados en repositorios securizados no deberían abandonar esos repositorios
- Al copiarse los datos de un sitio a otro puede perderse Metadata
- Algunos datos se deben refrescar de forma periódica y el hecho de tener que copiarse físicamente puede ser restrictivo

En este webinar Rick explicará cómo resolver estas 2 "restricciones" o carencias de los actuales Data Lake mediante la creación de Data Lakes lógicos y multipropósito en los que la Virtualización de datos tiene un papel fundamental. 

Hora

10:30 - 11:30 hs GMT+1

Video del webinar

Organizador

Denodo
Compartir
Enviar a un amigo
Mi email *
Email destinatario *
Comentario *
Repite estos números *
Control de seguridad
Junio / 2025 354 webinars
Lunes
Martes
Miércoles
Jueves
Viernes
Sábado
Domingo
Lun 26 de Junio de 2025
Mar 27 de Junio de 2025
Mié 28 de Junio de 2025
Jue 29 de Junio de 2025
Vie 30 de Junio de 2025
Sáb 31 de Junio de 2025
Dom 01 de Junio de 2025
Lun 02 de Junio de 2025
Mar 03 de Junio de 2025
Mié 04 de Junio de 2025
Jue 05 de Junio de 2025
Vie 06 de Junio de 2025
Sáb 07 de Junio de 2025
Dom 08 de Junio de 2025
Lun 09 de Junio de 2025
Mar 10 de Junio de 2025
Mié 11 de Junio de 2025
Jue 12 de Junio de 2025
Vie 13 de Junio de 2025
Sáb 14 de Junio de 2025
Dom 15 de Junio de 2025
Lun 16 de Junio de 2025
Mar 17 de Junio de 2025
Mié 18 de Junio de 2025
Jue 19 de Junio de 2025
Vie 20 de Junio de 2025
Sáb 21 de Junio de 2025
Dom 22 de Junio de 2025
Lun 23 de Junio de 2025
Mar 24 de Junio de 2025
Mié 25 de Junio de 2025
Jue 26 de Junio de 2025
Vie 27 de Junio de 2025
Sáb 28 de Junio de 2025
Dom 29 de Junio de 2025
Lun 30 de Junio de 2025
Mar 01 de Junio de 2025
Mié 02 de Junio de 2025
Jue 03 de Junio de 2025
Vie 04 de Junio de 2025
Sáb 05 de Junio de 2025
Dom 06 de Junio de 2025

Publicidad

Lo más leído »

Publicidad

Más Secciones »

Hola Invitado