Optimize system_check to prevent large dataset scans

This commit is contained in:
Anthony Miyaguchi 2019-02-21 13:12:41 -08:00 коммит произвёл Anthony Miyaguchi
Родитель 2b41147234
Коммит b832abd81d
1 изменённых файлов: 2 добавлений и 4 удалений

Просмотреть файл

@ -55,10 +55,8 @@ def main(
)
)
main_summary = spark.read.parquet(input_path)
subset = main_summary.where(
"submission_date_s3 = '{}'".format(ds_nodash)
).where("sample_id='{}'".format(1))
path = "{}/submission_date_s3={}/sample_id={}".format(input_path, ds_nodash, 1)
subset = spark.read.parquet(path)
print("Saw {} documents".format(subset.count()))
summary = subset.select(