feat/spark3.5: Spark History Server / fixes worker links on web-ui (#172)

iobruno · iobruno · commit 0668bb88c338 · 2026-02-20T01:44:18.000-03:00
* Add Spark History Server to the Spark Standalone cluster
* Configure eventLog for Spark Master and Workers
* Set `SPARK_PUBLIC_DNS=localhost` so Web UI worker links are accessible from the host
* Pin PySpark to 3.5.7 to prevent version mismatches between Driver and Workers
* Move Jupyter notebooks from `pyspark-4.x/` to `module5-batch-processing/`
* Major refactor of `fhv_zones_gcs.py`
* Update README with spark-submit instructions
* Drop unused `compose.yml` on root dir
diff --git a/module5-batch-processing/compose.spark-3.5-standalone.yaml b/module5-batch-processing/compose.spark-3.5-standalone.yaml
@@ -5,12 +5,15 @@ x-spark-common:
   image: *spark-image
   environment:
     &spark-common-env
-    SPARK_NO_DAEMONIZE: true    # Forces the process to run in foreground (req. for Docker)
+    SPARK_NO_DAEMONIZE: true      # Forces the process to run in foreground (req. for Docker)
+    SPARK_PUBLIC_DNS: localhost   # Ensures Web UI links point to localhost instead of container IPs
+    GOOGLE_APPLICATION_CREDENTIALS: "/secrets/gcp_credentials.json"
   volumes:
     &spark-common-vol
-    - vol-spark-extra-jars:/opt/spark/extra-jars/
+    - ./logs/:/opt/spark/logs/
     - ./spark-3.5-standalone.conf:/opt/spark/conf/spark-standalone.conf
     - ~/.gcp/spark_credentials.json:/secrets/gcp_credentials.json
+    - vol-spark-extra-jars:/opt/spark/extra-jars/
   depends_on:
     &spark-common-depends-on
     spark-init:
@@ -77,7 +80,24 @@ services:
     depends_on:
       spark-master:
         condition: service_started
-    restart: on-failure:3
+    restart: on-failure:5
+
+  spark-history-server:
+    <<: *spark-common
+    container_name: spark-history-server
+    command: |
+      /opt/spark/sbin/start-history-server.sh
+      --properties-file /opt/spark/conf/spark-standalone.conf
+    environment:
+      <<: *spark-common-env
+      SPARK_HISTORY_OPTS: >-
+        -Dspark.history.fs.logDirectory=/opt/spark/logs/
+    ports:
+      - '18080:18080'
+    depends_on:
+      spark-master:
+        condition: service_started
+    restart: on-failure:5
 
   spark-init:
     image: *spark-image
@@ -89,10 +109,10 @@ services:
       - |
         apt-get update && apt-get install curl -y
         curl --create-dirs -O --output-dir /opt/spark/extra-jars/ https://repo1.maven.org/maven2/com/google/cloud/bigdataoss/gcs-connector/hadoop3-2.2.32/gcs-connector-hadoop3-2.2.32-shaded.jar
+        chown -R 185:185 /opt/spark/extra-jars/
     volumes:
       - vol-spark-extra-jars:/opt/spark/extra-jars/
 
-
 volumes:
   vol-spark-extra-jars:
-    name: vol-spark-extra-jars
+    name: vol-spark-extra-jars
diff --git a/module5-batch-processing/compose.yaml b/module5-batch-processing/compose.yaml
diff --git a/module5-batch-processing/notebooks/pyspark_connect_dataframe-api_gcs.ipynb b/module5-batch-processing/notebooks/pyspark_connect_dataframe-api_gcs.ipynb
@@ -91,7 +91,8 @@
       "|              B00037|2019-10-01 00:08:12|2019-10-01 00:28:47|         264|         198|   NULL|                B00037|\n",
       "|              B00053|2019-10-01 00:05:24|2019-10-01 00:53:03|         264|         264|   NULL|                  NULL|\n",
       "+--------------------+-------------------+-------------------+------------+------------+-------+----------------------+\n",
-      "only showing top 20 rows\n"
+      "only showing top 20 rows\n",
+      "\n"
      ]
     }
    ],
@@ -213,7 +214,8 @@
       "|        19|       Queens|           Bellerose|   Boro Zone|\n",
       "|        20|        Bronx|             Belmont|   Boro Zone|\n",
       "+----------+-------------+--------------------+------------+\n",
-      "only showing top 20 rows\n"
+      "only showing top 20 rows\n",
+      "\n"
      ]
     }
    ],
@@ -283,7 +285,7 @@
     "fhv.coalesce(6) \\\n",
     "    .write \\\n",
     "    .mode(\"overwrite\") \\\n",
-    "    .parquet(\"gs://iobruno-lakehouse-raw/tmp/spark-connect-dataframe-api/\")"
+    "    .parquet(\"gs://iobruno-lakehouse-raw/spark-connect/jupyter-dataframe-api/\")"
    ]
   },
   {
@@ -411,7 +413,7 @@
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "/Users/iobruno/Vault/data-engineering-labs/module5-batch-processing/pyspark-4.x/.venv/lib/python3.13/site-packages/pyspark/sql/connect/expressions.py:1091: UserWarning: WARN WindowExpression: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation.\n",
+      "/Users/iobruno/Vault/data-engineering-labs/module5-batch-processing/pyspark-3.x/.venv/lib/python3.13/site-packages/pyspark/sql/connect/expressions.py:948: UserWarning: WARN WindowExpression: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation.\n",
       "  warnings.warn(\n"
      ]
     },
diff --git a/module5-batch-processing/notebooks/pyspark_connect_sparksql_gcs.ipynb b/module5-batch-processing/notebooks/pyspark_connect_sparksql_gcs.ipynb
@@ -98,7 +98,8 @@
       "|              B00037|2019-10-01 00:08:12|2019-10-01 00:28:47|         264|         198|   NULL|                B00037|\n",
       "|              B00053|2019-10-01 00:05:24|2019-10-01 00:53:03|         264|         264|   NULL|                  NULL|\n",
       "+--------------------+-------------------+-------------------+------------+------------+-------+----------------------+\n",
-      "only showing top 20 rows\n"
+      "only showing top 20 rows\n",
+      "\n"
      ]
     }
    ],
@@ -236,7 +237,8 @@
       "|        19|       Queens|           Bellerose|   Boro Zone|\n",
       "|        20|        Bronx|             Belmont|   Boro Zone|\n",
       "+----------+-------------+--------------------+------------+\n",
-      "only showing top 20 rows\n"
+      "only showing top 20 rows\n",
+      "\n"
      ]
     }
    ],
@@ -334,7 +336,7 @@
     "df.coalesce(6)\\\n",
     "    .write\\\n",
     "    .mode(\"overwrite\")\\\n",
-    "    .parquet(\"gs://iobruno-lakehouse-raw/tmp/spark-connect-sparksql/\")"
+    "    .parquet(\"gs://iobruno-lakehouse-raw/spark-connect/jupyter-sparksql/\")"
    ]
   },
   {
diff --git a/module5-batch-processing/pyspark-3.x/README.md b/module5-batch-processing/pyspark-3.x/README.md
@@ -33,9 +33,32 @@ pre-commit install
 
 **4.** Spin up the Spark Cluster with:
 ```shell
-docker compose -f ../compose.yaml up -d
+docker compose -f ../compose.spark-3.5-standalone.yaml up -d
 ```
 
+**5.** Spark Web UI
+- Spark Master Web UI can be accessed at [http://localhost:4040](http://localhost:4040)
+- Spark History Server can be accessed at [http://localhost:18080](http://localhost:18080)
+
+
+## Spark-submit Application
+
+### Local (Spark Driver running on local machine)
+
+With `--deploy-mode client` (default), the Spark Driver runs locally and doesn't pick up [spark-3.5-standalone.conf](../compose.spark-3.5-standalone.yaml), so the `--conf spark.hadoop.*` options must be set explicitly.
+
+```shell
+spark-submit \
+    --master spark://localhost:7077 \
+    --packages "com.google.cloud.bigdataoss:gcs-connector:hadoop3-2.2.32" \
+    --conf spark.eventLog.enabled=true \
+    --conf spark.eventLog.dir=file://$(pwd)/../logs/ \
+    --conf spark.driver.userClassPathFirst=true \
+    --conf spark.executor.userClassPathFirst=true \
+    --conf spark.hadoop.fs.gs.impl=com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem \
+    --conf spark.hadoop.fs.AbstractFileSystem.gs.impl=com.google.cloud.hadoop.fs.gcs.GoogleHadoopFS \
+    fhv_zones_gcs.py
+```
 
 ## Compatibility Matrix
 
diff --git a/module5-batch-processing/pyspark-3.x/fhv_zones_gcs.py b/module5-batch-processing/pyspark-3.x/fhv_zones_gcs.py
@@ -1,4 +1,3 @@
-from os import environ as env
 from os import getenv
 
 from pyspark.sql import DataFrame, SparkSession
@@ -47,41 +46,35 @@ def join_dfs_with_spark_sql(spark: SparkSession) -> DataFrame:
     )
 
 
-def config_spark_session(name: str, master: str = "local[*]") -> SparkSession:
-    spark = (
+def get_spark_session() -> SparkSession:
+    return (
         SparkSession.builder
         .config("spark.sql.execution.arrow.pyspark.enabled", "true")
         .config("spark.driver.memory", "2g")
-        .config("spark.executor.memory", "8g")
+        .config("spark.executor.memory", "4g")
         .config("spark.cores.max", 8)
-        .appName(name)
-        .master(master)
+        .appName("pyspark-3.5-pipeline")
         .getOrCreate()
     )
-    spark._jsc.hadoopConfiguration().set(
-        "google.cloud.auth.service.account.json.keyfile", env["GOOGLE_APPLICATION_CREDENTIALS"]
-    )
-    return spark
-
 
 def main():
-    spark_master = getenv(key="SPARK_MASTER", default="local[*]")
-    spark = config_spark_session(name="pyspark-playground", master=spark_master)
+    spark = get_spark_session()
+    logger = spark._jvm.org.apache.log4j.LogManager.getLogger(__name__)
 
     fhv_gcs_path = getenv(
         key="FHV_GCS_PATH",
-        default="gs://iobruno-datalake-raw/dtc_ny_taxi_tripdata/fhv/fhv_tripdata_2019-01.snappy.parquet",
+        default="gs://iobruno-lakehouse-raw/nyc_tlc_dataset/fhv_trip_data/fhv_tripdata_2019-01.snappy.parquet",
     )
     zone_lookup_gcs_path = getenv(
         key="ZONE_LOOKUP_PATH",
-        default="gs://iobruno-datalake-raw/dtc_ny_taxi_tripdata/zone_lookup/taxi_zone_lookup.csv.gz",
+        default="gs://iobruno-lakehouse-raw/nyc_tlc_dataset/zone_lookup/taxi_zone_lookup.csv.gz",
     )
 
-    print(f"Now fetching 'FHV' Dataset: {fhv_gcs_path}")
-
+    logger.info(f"Now fetching 'FHV' Dataset: {fhv_gcs_path}")
     fhv: DataFrame = spark.read.parquet(fhv_gcs_path)
-    print(f"Now fetching 'Zone Lookup' Dataset: {zone_lookup_gcs_path}")
+    fhv.createTempView("fhv")
 
+    logger.info(f"Now fetching 'Zone Lookup' Dataset: {zone_lookup_gcs_path}")
     zones: DataFrame = (
         spark.read
         .option("header", True)
@@ -95,21 +88,22 @@ def main():
         )
         .csv(path=zone_lookup_gcs_path)
     )
-
-    print("Creating Temporaty Views from DataFrames...")
-    fhv.createTempView("fhv")
     zones.createTempView("zones")
 
     # Join DataFrames with SparkSQL
-    print("Joining DataFrames with SparkSQL")
+    logger.info("Joining DataFrames with SparkSQL")
     sdf = join_dfs_with_spark_sql(spark)
 
-    print("Preparing to write resulting DataFrame...")
-    sdf.write.option("compression", "snappy").mode("overwrite").parquet(
-        "gs://iobruno-datalake-raw/spark-warehouse/"
+    logger.info("Preparing to write resulting DataFrame...")
+    (
+        sdf.write
+        .option("compression", "snappy")
+        .mode("overwrite")
+        .parquet("gs://iobruno-lakehouse-raw/spark-warehouse/")
     )
 
-    print("All done!")
+    logger.info("All done!")
+    spark.stop()
 
 
 if __name__ == "__main__":
diff --git a/module5-batch-processing/pyspark-3.x/pyproject.toml b/module5-batch-processing/pyspark-3.x/pyproject.toml
@@ -6,7 +6,7 @@ readme = "README.md"
 requires-python = ">=3.12,<3.14"
 
 dependencies = [
-    "pyspark[connect]>=3.5.7,<4.0",
+    "pyspark[connect]==3.5.7,<4.0",
     "pyarrow>=23.0.0,<24.0",
 ]
 
diff --git a/module5-batch-processing/pyspark-3.x/uv.lock b/module5-batch-processing/pyspark-3.x/uv.lock
diff --git a/module5-batch-processing/spark-3.5-standalone.conf b/module5-batch-processing/spark-3.5-standalone.conf
@@ -14,6 +14,10 @@ spark.worker.cleanup.interval=600
 spark.shuffle.service.db.enabled=true
 spark.shuffle.service.db.backend=ROCKSDB
 
+# Event Log (History Server)
+spark.eventLog.enabled=true
+spark.eventLog.dir=/opt/spark/logs/
+
 # Classpath
 spark.driver.extraClassPath=/opt/spark/extra-jars/*
 spark.executor.extraClassPath=/opt/spark/extra-jars/*

Original file line number	Diff line number	Diff line change
`@@ -91,7 +91,8 @@`
`91`	`91`	`"\| B00037\|2019-10-01 00:08:12\|2019-10-01 00:28:47\| 264\| 198\| NULL\| B00037\|\n",`
`92`	`92`	`"\| B00053\|2019-10-01 00:05:24\|2019-10-01 00:53:03\| 264\| 264\| NULL\| NULL\|\n",`
`93`	`93`	`"+--------------------+-------------------+-------------------+------------+------------+-------+----------------------+\n",`
`94`		`- "only showing top 20 rows\n"`
	`94`	`+ "only showing top 20 rows\n",`
	`95`	`+ "\n"`
`95`	`96`	`]`
`96`	`97`	`}`
`97`	`98`	`],`
`@@ -213,7 +214,8 @@`
`213`	`214`	`"\| 19\| Queens\| Bellerose\| Boro Zone\|\n",`
`214`	`215`	`"\| 20\| Bronx\| Belmont\| Boro Zone\|\n",`
`215`	`216`	`"+----------+-------------+--------------------+------------+\n",`
`216`		`- "only showing top 20 rows\n"`
	`217`	`+ "only showing top 20 rows\n",`
	`218`	`+ "\n"`
`217`	`219`	`]`
`218`	`220`	`}`
`219`	`221`	`],`
`@@ -283,7 +285,7 @@`
`283`	`285`	`"fhv.coalesce(6) \\\n",`
`284`	`286`	`" .write \\\n",`
`285`	`287`	`" .mode(\"overwrite\") \\\n",`
`286`		`- " .parquet(\"gs://iobruno-lakehouse-raw/tmp/spark-connect-dataframe-api/\")"`
	`288`	`+ " .parquet(\"gs://iobruno-lakehouse-raw/spark-connect/jupyter-dataframe-api/\")"`
`287`	`289`	`]`
`288`	`290`	`},`
`289`	`291`	`{`
`@@ -411,7 +413,7 @@`
`411`	`413`	`"name": "stderr",`
`412`	`414`	`"output_type": "stream",`
`413`	`415`	`"text": [`
`414`		`- "/Users/iobruno/Vault/data-engineering-labs/module5-batch-processing/pyspark-4.x/.venv/lib/python3.13/site-packages/pyspark/sql/connect/expressions.py:1091: UserWarning: WARN WindowExpression: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation.\n",`
	`416`	`+ "/Users/iobruno/Vault/data-engineering-labs/module5-batch-processing/pyspark-3.x/.venv/lib/python3.13/site-packages/pyspark/sql/connect/expressions.py:948: UserWarning: WARN WindowExpression: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation.\n",`
`415`	`417`	`" warnings.warn(\n"`
`416`	`418`	`]`
`417`	`419`	`},`
Original file line number	Diff line number	Diff line change
`@@ -98,7 +98,8 @@`
`98`	`98`	`"\| B00037\|2019-10-01 00:08:12\|2019-10-01 00:28:47\| 264\| 198\| NULL\| B00037\|\n",`
`99`	`99`	`"\| B00053\|2019-10-01 00:05:24\|2019-10-01 00:53:03\| 264\| 264\| NULL\| NULL\|\n",`
`100`	`100`	`"+--------------------+-------------------+-------------------+------------+------------+-------+----------------------+\n",`
`101`		`- "only showing top 20 rows\n"`
	`101`	`+ "only showing top 20 rows\n",`
	`102`	`+ "\n"`
`102`	`103`	`]`
`103`	`104`	`}`
`104`	`105`	`],`
`@@ -236,7 +237,8 @@`
`236`	`237`	`"\| 19\| Queens\| Bellerose\| Boro Zone\|\n",`
`237`	`238`	`"\| 20\| Bronx\| Belmont\| Boro Zone\|\n",`
`238`	`239`	`"+----------+-------------+--------------------+------------+\n",`
`239`		`- "only showing top 20 rows\n"`
	`240`	`+ "only showing top 20 rows\n",`
	`241`	`+ "\n"`
`240`	`242`	`]`
`241`	`243`	`}`
`242`	`244`	`],`
`@@ -334,7 +336,7 @@`
`334`	`336`	`"df.coalesce(6)\\\n",`
`335`	`337`	`" .write\\\n",`
`336`	`338`	`" .mode(\"overwrite\")\\\n",`
`337`		`- " .parquet(\"gs://iobruno-lakehouse-raw/tmp/spark-connect-sparksql/\")"`
	`339`	`+ " .parquet(\"gs://iobruno-lakehouse-raw/spark-connect/jupyter-sparksql/\")"`
`338`	`340`	`]`
`339`	`341`	`},`
`340`	`342`	`{`
Original file line number	Diff line number	Diff line change
`@@ -6,7 +6,7 @@ readme = "README.md"`
`6`	`6`	`requires-python = ">=3.12,<3.14"`
`7`	`7`
`8`	`8`	`dependencies = [`
`9`		`- "pyspark[connect]>=3.5.7,<4.0",`
	`9`	`+ "pyspark[connect]==3.5.7,<4.0",`
`10`	`10`	`"pyarrow>=23.0.0,<24.0",`
`11`	`11`	`]`
`12`	`12`