Aunque todavía es un concepto relativamente novedoso el Data Lake ya ha sido adoptado por muchas organizaciones.

Su función principal es almacenar datos estructurados y no estructurados en un lugar central para facilitar a los científicos de datos y otros usuarios de investigación y exploración analizar datos. Sin un Data Lake estos usuarios desperdiciarían mucho tiempo en buscar todos los datos antes de poder comenzar con su trabajo real: el análisis.

En resumen se supone que el Data Lake acorta el proceso de preparación de los datos que precede al trabajo analítico como tal.

Sin embargo la arquitectura original de los Data Lakes tiene dos inconvenientes graves:

- Uso restringido de los datos: está diseñado exclusivamente para los científicos de datos y no para otros profesionales y departamentos de la empresa. 

- Los datos tienen que moverse físicamente lo que conlleva ciertos problemas

El experto holandés en Big Data y Data Warehousing Rick van der Lans propone la puesta en marcha de lo que denomina Data Lakes "multipropósito" que permitan el acceso a los datos no sólo de los científicos de datos (para los que se hicieron originalmente). Se trataría de permitir el acceso a ese valioso "maná" que son los datos, también, de los típicos usuarios "self-service" de las aplicaciones de BI tradicionales: Recursos Humanos, Márketing, Comercial...

De esta forma las inversiones en Data Lakes se amortizan más fácilmente. 

Los problemas de la naturaleza física de los Data Lake

Originariamente los Data Lake exigen que los datos se copien "físicamente" a un almacén centralizado lo que supone diversas restricciones:

- Los Big Data pueden ser "demasiado grandes" para poder copiarse a ese repositorio centralizado
- Ciertos departamentos "no cooperativos" pueden restringir la copia de "sus" datos ya sea por políticas de empresa u otras razones
- Las cada vez más restrictivas políticas de datos y normativas pueden también restringir la copia de datos
- Los datos almacenados en repositorios securizados no deberían abandonar esos repositorios
- Al copiarse los datos de un sitio a otro puede perderse Metadata
- Algunos datos se deben refrescar de forma periódica y el hecho de tener que copiarse físicamente puede ser restrictivo

En este webinar Rick explicará cómo resolver estas 2 "restricciones" o carencias de los actuales Data Lake mediante la creación de Data Lakes lógicos y multipropósito en los que la Virtualización de datos tiene un papel fundamental. 

Hora

10:30 - 11:30 hs GMT+1

Video del webinar

Organizador

Denodo
Compartir
Enviar a un amigo
Mi email *
Email destinatario *
Comentario *
Repite estos números *
Control de seguridad
Agosto / 2025 272 webinars
Lunes
Martes
Miércoles
Jueves
Viernes
Sábado
Domingo
Lun 28 de Agosto de 2025
Mar 29 de Agosto de 2025
Mié 30 de Agosto de 2025
Jue 31 de Agosto de 2025
Vie 01 de Agosto de 2025
Sáb 02 de Agosto de 2025
Dom 03 de Agosto de 2025
Lun 04 de Agosto de 2025
Mar 05 de Agosto de 2025
Mié 06 de Agosto de 2025
Jue 07 de Agosto de 2025
Vie 08 de Agosto de 2025
Sáb 09 de Agosto de 2025
Dom 10 de Agosto de 2025
Lun 11 de Agosto de 2025
Mar 12 de Agosto de 2025
Mié 13 de Agosto de 2025
Jue 14 de Agosto de 2025
Vie 15 de Agosto de 2025
Sáb 16 de Agosto de 2025
Dom 17 de Agosto de 2025
Lun 18 de Agosto de 2025
Mar 19 de Agosto de 2025
Mié 20 de Agosto de 2025
Jue 21 de Agosto de 2025
Vie 22 de Agosto de 2025
Sáb 23 de Agosto de 2025
Dom 24 de Agosto de 2025
Lun 25 de Agosto de 2025
Mar 26 de Agosto de 2025
Mié 27 de Agosto de 2025
Jue 28 de Agosto de 2025
Vie 29 de Agosto de 2025
Sáb 30 de Agosto de 2025
Dom 31 de Agosto de 2025

Publicidad

Lo más leído »

Publicidad

Más Secciones »

Hola Invitado