Snowflake ha dado un paso audaz al anunciar la disponibilidad en vista previa pública de su nueva funcionalidad, Snowpark Connect para Apache Spark™. Esta herramienta representa un avance significativo, permitiendo a los usuarios de Spark ejecutar su código directamente sobre el motor de Snowflake, lo que promete incrementar el rendimiento, reducir costos y simplificar notablemente la operación para organizaciones que manejan grandes volúmenes de datos.
La clave de esta innovación reside en su arquitectura cliente-servidor desacoplada, introducida en la versión 3.4 de Apache Spark™. Esta estructura permite que el código de usuario esté separado del clúster que realiza el procesamiento, permitiendo que los trabajos de Spark sean gestionados por el robusto motor de Snowflake. Esto se traduce en la posibilidad de utilizar Spark DataFrame, Spark SQL y funciones definidas por el usuario sin la necesidad de mantener entornos Spark aislados, y sin preocuparse por las actualizaciones y compatibilidades de versiones. Snowflake se encarga del escalado dinámico y la optimización, aliviando así la carga operativa de los desarrolladores.
Esta integración traslada el procesamiento de datos hacia Snowflake, estableciendo un marco único de gobernanza desde el inicio del flujo de datos. De este modo, se garantiza coherencia, seguridad y cumplimiento normativo a lo largo de todo el ciclo de vida de los datos, evitando la duplicación de esfuerzos. Un estudio de Snowflake resalta que los clientes que utilizan Snowpark Client para crear pipelines en lenguajes como Python, Java o Scala, han visto un aumento de rendimiento del 5,6 veces y un ahorro del 41% en costos comparado con los entornos Spark tradicionales.
Snowpark Connect para Spark se construye sobre la arquitectura de Spark Connect, permitiendo que las aplicaciones envíen un plan lógico no resuelto a un clúster remoto para su procesamiento. Esta funcionalidad es compatible con las versiones 3.5.x de Spark, asegurando a los usuarios acceso a las últimas mejoras.
Además, elimina la necesidad de mover datos entre Spark y Snowflake, un proceso que históricamente ha sido costoso y complejo. Ahora, es posible ejecutar código Spark directamente en Snowflake a través de diversas plataformas y herramientas como Snowflake Notebooks, Jupyter, VSCode y otros, garantizando una integración fluida con diferentes sistemas de almacenamiento, incluyendo Apache Iceberg™.
Con Snowpark Connect, Snowflake se consolida como un líder en ofrecer soluciones unificadas y eficientes para desarrolladores y científicos de datos, maximizando la potencia de Spark dentro de su ya robusto ecosistema en la nube.
Más información y referencias en Noticias Cloud.