Project ini adalah implementasi End-to-End Data Engineering Pipeline untuk menganalisis ketersediaan dan sebaran stasiun sepeda di London (Transport for London). Tujuan utamanya adalah membangun sistem otomatis yang menampung data mentah, membersihkannya, dan menyajikannya dalam bentuk Dashboard Geospasial interaktif.
Project ini mensimulasikan lingkungan kerja Modern Data Stack menggunakan Mage AI sebagai orkestrator dan Google BigQuery sebagai Data Warehouse.
- Orchestration: Mage AI (Modern replacement for Airflow)
- Containerization: Podman (Daemonless container engine)
- Data Warehouse: Google BigQuery
- Language: Python (Pandas) & SQL
- Cloud Platform: Google Cloud Platform (GCP) - Sandbox Environment
- Visualization: Looker Studio
- Infrastructure: Infrastructure as Code (via Docker/Podman Compose)
- Extract: Mengambil data real-time/batch dari API London Transport menggunakan Python.
- Transform (Python): Normalisasi data JSON ke format tabular (Pandas DataFrame) dan validasi tipe data.
- Load: Upload data ke Google BigQuery menggunakan autentikasi Service Account (IAM).
- Modeling (SQL): Transformasi lanjutan di dalam Data Warehouse:
- Membersihkan null values.
- Mengonversi kolom Latitude & Longitude terpisah menjadi satu kolom location (ST_GEOGPOINT) untuk keperluan visualisasi peta.
- Visualize: Menghubungkan BigQuery ke Looker Studio untuk memantau metrik stasiun terpadat dan sebaran lokasi.
- GCP Authentication: Mengelola keamanan akses menggunakan Service Account dengan prinsip Least Privilege (BigQuery Admin role) untuk menghubungkan environment lokal (Podman) dengan Cloud.
- Geospatial Data Handling: Mengatasi limitasi visualisasi standar dengan melakukan feature engineering pada level SQL (menggabungkan Lat/Lon menjadi GeoPoint).
- Cost Optimization: Menggunakan GCP Sandbox Mode untuk membangun infrastruktur data tanpa biaya (Zero-cost engineering).
- Link Looker Studio: https://lookerstudio.google.com/reporting/d05ab512-4132-4da3-87ec-b16dcf8048db