Aunque todavía es un concepto relativamente novedoso el Data Lake ya ha sido adoptado por muchas organizaciones.

Su función principal es almacenar datos estructurados y no estructurados en un lugar central para facilitar a los científicos de datos y otros usuarios de investigación y exploración analizar datos. Sin un Data Lake estos usuarios desperdiciarían mucho tiempo en buscar todos los datos antes de poder comenzar con su trabajo real: el análisis.

En resumen se supone que el Data Lake acorta el proceso de preparación de los datos que precede al trabajo analítico como tal.

Sin embargo la arquitectura original de los Data Lakes tiene dos inconvenientes graves:

- Uso restringido de los datos: está diseñado exclusivamente para los científicos de datos y no para otros profesionales y departamentos de la empresa. 

- Los datos tienen que moverse físicamente lo que conlleva ciertos problemas

El experto holandés en Big Data y Data Warehousing Rick van der Lans propone la puesta en marcha de lo que denomina Data Lakes "multipropósito" que permitan el acceso a los datos no sólo de los científicos de datos (para los que se hicieron originalmente). Se trataría de permitir el acceso a ese valioso "maná" que son los datos, también, de los típicos usuarios "self-service" de las aplicaciones de BI tradicionales: Recursos Humanos, Márketing, Comercial...

De esta forma las inversiones en Data Lakes se amortizan más fácilmente. 

Los problemas de la naturaleza física de los Data Lake

Originariamente los Data Lake exigen que los datos se copien "físicamente" a un almacén centralizado lo que supone diversas restricciones:

- Los Big Data pueden ser "demasiado grandes" para poder copiarse a ese repositorio centralizado
- Ciertos departamentos "no cooperativos" pueden restringir la copia de "sus" datos ya sea por políticas de empresa u otras razones
- Las cada vez más restrictivas políticas de datos y normativas pueden también restringir la copia de datos
- Los datos almacenados en repositorios securizados no deberían abandonar esos repositorios
- Al copiarse los datos de un sitio a otro puede perderse Metadata
- Algunos datos se deben refrescar de forma periódica y el hecho de tener que copiarse físicamente puede ser restrictivo

En este webinar Rick explicará cómo resolver estas 2 "restricciones" o carencias de los actuales Data Lake mediante la creación de Data Lakes lógicos y multipropósito en los que la Virtualización de datos tiene un papel fundamental. 

Hora

10:30 - 11:30 hs GMT+1

Video del webinar

Organizador

Denodo
Compartir
Enviar a un amigo
Mi email *
Email destinatario *
Comentario *
Repite estos números *
Control de seguridad
Mayo / 2025 302 webinars
Lunes
Martes
Miércoles
Jueves
Viernes
Sábado
Domingo
Lun 28 de Mayo de 2025
Mar 29 de Mayo de 2025
Mié 30 de Mayo de 2025
Jue 01 de Mayo de 2025
Vie 02 de Mayo de 2025
Sáb 03 de Mayo de 2025
Dom 04 de Mayo de 2025
Lun 05 de Mayo de 2025
Mar 06 de Mayo de 2025
Mié 07 de Mayo de 2025
Jue 08 de Mayo de 2025
Vie 09 de Mayo de 2025
Sáb 10 de Mayo de 2025
Dom 11 de Mayo de 2025
Lun 12 de Mayo de 2025
Mar 13 de Mayo de 2025
Mié 14 de Mayo de 2025
Jue 15 de Mayo de 2025
Vie 16 de Mayo de 2025
Sáb 17 de Mayo de 2025
Dom 18 de Mayo de 2025
Lun 19 de Mayo de 2025
Mar 20 de Mayo de 2025
Mié 21 de Mayo de 2025
Jue 22 de Mayo de 2025
Vie 23 de Mayo de 2025
Sáb 24 de Mayo de 2025
Dom 25 de Mayo de 2025
Lun 26 de Mayo de 2025
Mar 27 de Mayo de 2025
Mié 28 de Mayo de 2025
Jue 29 de Mayo de 2025
Vie 30 de Mayo de 2025
Sáb 31 de Mayo de 2025
Dom 01 de Mayo de 2025

Publicidad

Lo más leído »

Publicidad

Más Secciones »

Hola Invitado