Optimize system_check to prevent large dataset scans

2019-02-21 13:12:41 -08:00 · 2019-02-21 13:12:41 -08:00 · b832abd81d
--- a/mozetl/system_check.py
+++ b/mozetl/system_check.py
@ -55,10 +55,8 @@ def main(
            )
        )

-        main_summary = spark.read.parquet(input_path)
-        subset = main_summary.where(
-            "submission_date_s3 = '{}'".format(ds_nodash)
-        ).where("sample_id='{}'".format(1))
+        path = "{}/submission_date_s3={}/sample_id={}".format(input_path, ds_nodash, 1)
+        subset = spark.read.parquet(path)
        print("Saw {} documents".format(subset.count()))

        summary = subset.select(