Automatizar la importación de CSV a PostgreSQL usando Airflow y Docker

Página delantera > AI > Automatizar la importación de CSV a PostgreSQL usando Airflow y Docker

Automatizar la importación de CSV a PostgreSQL usando Airflow y Docker

Publicado el 2025-04-12

Navegar:341

Este tutorial demuestra construir una tubería de datos robusta utilizando Apache Airflow, Docker y PostgreSQL para automatizar la transferencia de datos de los archivos CSV a una base de datos. Cubriremos conceptos de flujo de aire central como DAG, tareas y operadores para una gestión eficiente de flujo de trabajo.

Este proyecto muestra la creación de una tubería de datos confiable que lee los datos de CSV y lo escribe en una base de datos PostgreSQL. Integraremos varios componentes de flujo de aire para garantizar el manejo eficiente de datos y mantener la integridad de los datos.

Objetivos de aprendizaje:

GRASP CORE APACHE AIRFLOW CONCECTS: DAGS, Tareas y Operadores.
configure y configure Apache Airflow con Docker para la automatización de flujo de trabajo.
Integre PostgreSQL para la gestión de datos dentro de Airflow Pipelines.
Lectura maestra de los archivos CSV y automatizar la inserción de datos en una base de datos PostgreSQL.
construir e implementar tuberías de datos escalables y eficientes usando Airflow y Docker.

Prerrequisitos:

Docker Desktop, VS Code, Docker Compose
Comprensión básica de los contenedores y comandos Docker
comandos básicos de Linux
Básico de conocimiento de Python
Experiencia construyendo imágenes de Docker de DockerFiles y usando Docker Compose

¿Qué es Apache Airflow?

Apache Airflow (Airflow) es una plataforma para autorizar, programar y monitorear mediante programación de flujos de trabajo. La definición de flujos de trabajo como código mejora la mantenibilidad, el control de versiones, las pruebas y la colaboración. Su interfaz de usuario simplifica la visualización de las tuberías, el progreso del monitoreo y la resolución de problemas.

Automating CSV to PostgreSQL Ingestion with Airflow and Docker

Airflow Terminology:

Workflow: un proceso paso a paso para lograr un objetivo (por ejemplo, hornear un pastel).
dag (gráfico acíclico dirigido): un plan de flujo de trabajo que muestra las dependencias de tareas y la orden de ejecución. Es una representación visual del flujo de trabajo.
tarea: una sola acción dentro de un flujo de trabajo (por ejemplo, mezclar ingredientes).
operadores: bloques de construcción de tareas, definiendo acciones como ejecutar scripts de python o ejecutar sql. Los operadores clave incluyen pythonoperator , dummyOperator , y postgResoperator .
xcoms (comunicación cruzada): Habilitar tareas para comunicar y compartir datos.
Connections: Administrar credenciales para conectarse a sistemas externos (por ejemplo, bases de datos).

configurando Apache Airflow con Docker y DockerFile:

Uso de Docker asegura un entorno consistente y reproducible. A dockerfile automatiza la creación de imágenes. Las siguientes instrucciones deben guardar como dockerfile (sin extensión):

FROM apache/airflow:2.9.1-python3.9
USER root
COPY requirements.txt /requirements.txt
RUN pip3 install --upgrade pip && pip3 install --no-cache-dir -r /requirements.txt
RUN pip3 install apache-airflow-providers-apache-spark apache-airflow-providers-amazon
RUN apt-get update && apt-get install -y gcc python3-dev openjdk-17-jdk && apt-get clean

this dockerfile usa una imagen oficial de flujo de aire, instala dependencias de requiradores.txt e instala los proveedores de flujo de aire necesarios (se muestran ejemplos de chispa y AWS; puede necesitar otros).

Docker Compose Configuration:

docker-compose.yml orquesta los contenedores Docker. La siguiente configuración define los servicios para el servidor web, el planificador, el gatillo, el CLI, el init y PostgreSQL. Tenga en cuenta el uso de la sección x-airflow-common para configuraciones compartidas y la conexión a la base de datos PostgreSQL. (El completo docker-compose.yml es demasiado largo para incluir aquí, pero las secciones clave se muestran arriba).

Project Setup and Execution:

Crear un directorio de proyecto.
agregue los archivos dockerfile y docker-compose.yml .
create requería.txt enumerando los paquetes de python necesarios (por ejemplo, pandas).
run Docker -composo up -d para iniciar los contenedores.
Acceda a Airflow ui en http: // localhost: 8080 .
cree una conexión PostgreSQL en el Airflow ui (usando write_to_psql como ID de conexión).
crea un archivo de muestra input.csv .

Función Dag y Python:

The Airflow dag ( sample.py ) define el flujo de trabajo:

a postgreseperator crea la tabla de base de datos.
a pythonoperator ( generate_insert_queries ) lee el csv y genera sql insertar declaraciones, salvarlos a dags/sql/sql /_queries.sql .
otro postgreseperator ejecuta el sql generado.

(el código completo sample.py es demasiado largo para incluir aquí, pero las secciones clave se muestran arriba).

Conclusión:

Este proyecto demuestra una tubería de datos completa usando Airflow, Docker y PostgreSQL. Destaca los beneficios de la automatización y el uso de Docker para entornos reproducibles. El uso de operadores y la estructura DAG son clave para la gestión eficiente de flujo de trabajo.

(las secciones restantes, incluidas las preguntas frecuentes y el repositorio de GitHub, se omiten para la brevedad. Están presentes en la entrada original.)

Último tutorial Más>

Detección de género con OpenCV y RoboFlow en Python - Analytics Vidhya
Introducción La detección de género de las imágenes faciales es una de las muchas aplicaciones fascinantes de la visión por computadora. En este proy...

AI Publicado el 2025-04-29
Pensamiento de la máquina primero: el surgimiento de la IA estratégica
STRATEGIC AI Prologue 11. May 1997, New York City. It was a beautiful spring day in New York City. The skies were clear, and temperatures were climbin...

AI Publicado el 2025-04-29
8 recomendaciones de API esenciales gratuitas y pagadas para LLM
aprovechando el poder de los LLM: una guía para las API para modelos de lenguaje grandes En el panorama comercial dinámico de hoy, las apis (interf...

AI Publicado el 2025-04-21
Guía del usuario: modelo Falcon 3-7B Instruce
Tii's Falcon 3: un salto revolucionario en AI de código abierto La ambiciosa búsqueda de TII de redefinir AI alcanza nuevas alturas con el mode...

AI Publicado el 2025-04-20
Deepseek-v3 vs. GPT-4O y Llama 3.3 70b: el modelo de IA más fuerte revelado
The evolution of AI language models has set new standards, especially in the coding and programming landscape. Leading the c...

AI Publicado el 2025-04-18
Top 5 Herramientas de presupuesto inteligente de IA
desbloqueando la libertad financiera con AI: aplicaciones de presupuesto superior en India ¿Estás cansado de preguntarte constantemente a dónde va ...

AI Publicado el 2025-04-17
Explicación detallada de la función de Excel Sumproduct - Escuela de Análisis de Datos
Función Sumproduct de Excel: una potencia de análisis de datos desbloquea la potencia de la función Sumproduct de Excel para el análisis de datos s...

AI Publicado el 2025-04-16
La investigación en profundidad está completamente abierta, los beneficios del usuario de ChatGPT más
Investigación profunda de Openai: un cambio de juego para AI Research Openai ha desatado una investigación profunda para todos los suscriptores de ...

AI Publicado el 2025-04-16
Amazon Nova Today Real Experience and Review - Analytics Vidhya
Amazon presenta nova: modelos de base de vanguardia para AI y creación de contenido mejoradas El reciente evento de Invent 2024 de Amazon exhibió a...

AI Publicado el 2025-04-16
5 formas de usar la función de tarea de sincronización de chatgpt
Las nuevas tareas programadas de Chatgpt: automatizar su día con ai chatgpt recientemente presentó una función de cambio de juego: tareas programad...

AI Publicado el 2025-04-16
¿Cuál de los tres chatbots de IA responde al mismo aviso es el mejor?
con opciones como Claude, ChatGpt y Gemini, elegir un chatbot puede sentirse abrumador. Para ayudar a cortar el ruido, puse los tres a la prueba u...

AI Publicado el 2025-04-15
Chatgpt es suficiente, no se necesita una máquina de chat de IA dedicada
En un mundo con nuevos chatbots de IA que se lanzarán a diario, puede ser abrumador decidir cuál es el correcto "uno". Pero en mi experienc...

AI Publicado el 2025-04-14
Momento de la IA india: competencia con China y Estados Unidos en IA generativa
Ambiciones AI de la India: una actualización de 2025 con China y Estados Unidos invirtiendo en gran medida en IA generativa, India está acelerando ...

AI Publicado el 2025-04-13
Automatizar la importación de CSV a PostgreSQL usando Airflow y Docker
Este tutorial demuestra construir una tubería de datos robusta utilizando Apache Airflow, Docker y PostgreSQL para automatizar la transferencia de da...

AI Publicado el 2025-04-12
Algoritmos de inteligencia de enjambres: implementaciones de tres python
Imagine watching a flock of birds in flight. There's no leader, no one giving directions, yet they swoop and glide together in perfect harmony. It may...

AI Publicado el 2025-03-24

Clasificación Más>

Aprende japonés Aprender coreano Aprender chino Aprender idioma extranjero Juego Problema comun Periféricos tecnológicos AI Tutoriales de software Programación Artículo