Add Parquet data type to BaseSQLToGCSOperator (#13359)

2020-12-31 17:32:09 +07:00 · 2020-12-31 17:32:09 +07:00 · 406181d64a
--- a/airflow/providers/google/cloud/transfers/sql_to_gcs.py
+++ b/airflow/providers/google/cloud/transfers/sql_to_gcs.py
@ -22,6 +22,8 @@ import warnings
 from tempfile import NamedTemporaryFile
 from typing import Optional, Sequence, Union

+import pyarrow as pa
+import pyarrow.parquet as pq
 import unicodecsv as csv

 from airflow.models import BaseOperator
@ -185,6 +187,8 @@ class BaseSQLToGCSOperator(BaseOperator):
        tmp_file_handle = NamedTemporaryFile(delete=True)
        if self.export_format == 'csv':
            file_mime_type = 'text/csv'
+        elif self.export_format == 'parquet':
+            file_mime_type = 'application/octet-stream'
        else:
            file_mime_type = 'application/json'
        files_to_upload = [
@ -198,6 +202,9 @@ class BaseSQLToGCSOperator(BaseOperator):

        if self.export_format == 'csv':
            csv_writer = self._configure_csv_file(tmp_file_handle, schema)
+        if self.export_format == 'parquet':
+            parquet_schema = self._convert_parquet_schema(cursor)
+            parquet_writer = self._configure_parquet_file(tmp_file_handle, parquet_schema)

        for row in cursor:
            # Convert datetime objects to utc seconds, and decimals to floats.
@ -208,6 +215,12 @@ class BaseSQLToGCSOperator(BaseOperator):
                if self.null_marker is not None:
                    row = [value if value is not None else self.null_marker for value in row]
                csv_writer.writerow(row)
+            elif self.export_format == 'parquet':
+                if self.null_marker is not None:
+                    row = [value if value is not None else self.null_marker for value in row]
+                row_pydic = {col: [value] for col, value in zip(schema, row)}
+                tbl = pa.Table.from_pydict(row_pydic, parquet_schema)
+                parquet_writer.write_table(tbl)
            else:
                row_dict = dict(zip(schema, row))

@ -232,7 +245,8 @@ class BaseSQLToGCSOperator(BaseOperator):
                self.log.info("Current file count: %d", len(files_to_upload))
                if self.export_format == 'csv':
                    csv_writer = self._configure_csv_file(tmp_file_handle, schema)
-
+                if self.export_format == 'parquet':
+                    parquet_writer = self._configure_parquet_file(tmp_file_handle, parquet_schema)
        return files_to_upload

    def _configure_csv_file(self, file_handle, schema):
@ -243,6 +257,30 @@ class BaseSQLToGCSOperator(BaseOperator):
        csv_writer.writerow(schema)
        return csv_writer

+    def _configure_parquet_file(self, file_handle, parquet_schema):
+        parquet_writer = pq.ParquetWriter(file_handle.name, parquet_schema)
+        return parquet_writer
+
+    def _convert_parquet_schema(self, cursor):
+        type_map = {
+            'INTERGER': pa.int64(),
+            'FLOAT': pa.float64(),
+            'NUMERIC': pa.float64(),
+            'BIGNUMERIC': pa.float64(),
+            'BOOL': pa.bool_(),
+            'STRING': pa.string(),
+            'BYTES': pa.binary(),
+            'DATE': pa.date32(),
+            'DATETIME': pa.date64(),
+            'TIMESTAMP': pa.timestamp('s'),
+        }
+
+        columns = [field[0] for field in cursor.description]
+        bq_types = [self.field_to_bigquery(field) for field in cursor.description]
+        pq_types = [type_map.get(bq_type, pa.string()) for bq_type in bq_types]
+        parquet_schema = pa.schema(zip(columns, pq_types))
+        return parquet_schema
+
    @abc.abstractmethod
    def query(self):
        """Execute DBAPI query."""
--- a/tests/providers/google/cloud/transfers/test_sql_to_gcs.py
+++ b/tests/providers/google/cloud/transfers/test_sql_to_gcs.py
@ -18,8 +18,9 @@
 import json
 import unittest
 from unittest import mock
-from unittest.mock import Mock
+from unittest.mock import MagicMock, Mock

+import pandas as pd
 import unicodecsv as csv

 from airflow.providers.google.cloud.hooks.gcs import GCSHook
@ -36,6 +37,11 @@ SCHEMA = [
 ]
 COLUMNS = ["column_a", "column_b", "column_c"]
 ROW = ["convert_type_return_value", "convert_type_return_value", "convert_type_return_value"]
+CURSOR_DESCRIPTION = [
+    ("column_a", "3", 0, 0, 0, 0, False),
+    ("column_b", "253", 0, 0, 0, 0, False),
+    ("column_c", "10", 0, 0, 0, 0, False),
+]
 TMP_FILE_NAME = "temp-file"
 INPUT_DATA = [
    ["101", "school", "2015-01-01"],
@ -52,13 +58,15 @@ OUTPUT_DATA = json.dumps(
 SCHEMA_FILE = "schema_file.json"
 APP_JSON = "application/json"

+OUTPUT_DF = pd.DataFrame([['convert_type_return_value'] * 3] * 3, columns=COLUMNS)
+

 class DummySQLToGCSOperator(BaseSQLToGCSOperator):
    def field_to_bigquery(self, field):
        pass

    def convert_type(self, value, schema_type):
-        pass
+        return 'convert_type_return_value'

    def query(self):
        pass
@ -69,13 +77,10 @@ class TestBaseSQLToGCSOperator(unittest.TestCase):
    @mock.patch.object(csv.writer, "writerow")
    @mock.patch.object(GCSHook, "upload")
    @mock.patch.object(DummySQLToGCSOperator, "query")
-    @mock.patch.object(DummySQLToGCSOperator, "field_to_bigquery")
    @mock.patch.object(DummySQLToGCSOperator, "convert_type")
-    def test_exec(
-        self, mock_convert_type, mock_field_to_bigquery, mock_query, mock_upload, mock_writerow, mock_tempfile
-    ):
+    def test_exec(self, mock_convert_type, mock_query, mock_upload, mock_writerow, mock_tempfile):
        cursor_mock = Mock()
-        cursor_mock.description = [("column_a", "3"), ("column_b", "253"), ("column_c", "10")]
+        cursor_mock.description = CURSOR_DESCRIPTION
        cursor_mock.__iter__ = Mock(return_value=iter(INPUT_DATA))
        mock_query.return_value = cursor_mock
        mock_convert_type.return_value = "convert_type_return_value"
@ -99,6 +104,7 @@ class TestBaseSQLToGCSOperator(unittest.TestCase):

        mock_tempfile.return_value = mock_file

+        # Test CSV
        operator = DummySQLToGCSOperator(
            sql=SQL,
            bucket=BUCKET,
@ -109,7 +115,7 @@ class TestBaseSQLToGCSOperator(unittest.TestCase):
            export_format="csv",
            gzip=True,
            schema=SCHEMA,
-            google_cloud_storage_conn_id='google_cloud_default',
+            gcp_conn_id='google_cloud_default',
        )
        operator.execute(context=dict())

@ -140,6 +146,7 @@ class TestBaseSQLToGCSOperator(unittest.TestCase):

        cursor_mock.__iter__ = Mock(return_value=iter(INPUT_DATA))

+        # Test JSON
        operator = DummySQLToGCSOperator(
            sql=SQL, bucket=BUCKET, filename=FILENAME, task_id=TASK_ID, export_format="json", schema=SCHEMA
        )
@ -160,6 +167,27 @@ class TestBaseSQLToGCSOperator(unittest.TestCase):
        mock_upload.assert_called_once_with(BUCKET, FILENAME, TMP_FILE_NAME, mime_type=APP_JSON, gzip=False)
        mock_close.assert_called_once()

+        mock_query.reset_mock()
+        mock_flush.reset_mock()
+        mock_upload.reset_mock()
+        mock_close.reset_mock()
+        cursor_mock.reset_mock()
+
+        cursor_mock.__iter__ = Mock(return_value=iter(INPUT_DATA))
+
+        # Test parquet
+        operator = DummySQLToGCSOperator(
+            sql=SQL, bucket=BUCKET, filename=FILENAME, task_id=TASK_ID, export_format="parquet", schema=SCHEMA
+        )
+        operator.execute(context=dict())
+
+        mock_query.assert_called_once()
+        mock_flush.assert_called_once()
+        mock_upload.assert_called_once_with(
+            BUCKET, FILENAME, TMP_FILE_NAME, mime_type='application/octet-stream', gzip=False
+        )
+        mock_close.assert_called_once()
+
        # Test null marker
        cursor_mock.__iter__ = Mock(return_value=iter(INPUT_DATA))
        mock_convert_type.return_value = None
@ -182,3 +210,69 @@ class TestBaseSQLToGCSOperator(unittest.TestCase):
                mock.call(["NULL", "NULL", "NULL"]),
            ]
        )
+
+    def test__write_local_data_files_csv(self):
+        op = DummySQLToGCSOperator(
+            sql=SQL,
+            bucket=BUCKET,
+            filename=FILENAME,
+            task_id=TASK_ID,
+            schema_filename=SCHEMA_FILE,
+            export_format="csv",
+            gzip=False,
+            schema=SCHEMA,
+            gcp_conn_id='google_cloud_default',
+        )
+        cursor = MagicMock()
+        cursor.__iter__.return_value = INPUT_DATA
+        cursor.description = CURSOR_DESCRIPTION
+
+        files = op._write_local_data_files(cursor)
+        file = files[0]['file_handle']
+        file.flush()
+        df = pd.read_csv(file.name)
+        assert df.equals(OUTPUT_DF)
+
+    def test__write_local_data_files_json(self):
+        op = DummySQLToGCSOperator(
+            sql=SQL,
+            bucket=BUCKET,
+            filename=FILENAME,
+            task_id=TASK_ID,
+            schema_filename=SCHEMA_FILE,
+            export_format="json",
+            gzip=False,
+            schema=SCHEMA,
+            gcp_conn_id='google_cloud_default',
+        )
+        cursor = MagicMock()
+        cursor.__iter__.return_value = INPUT_DATA
+        cursor.description = CURSOR_DESCRIPTION
+
+        files = op._write_local_data_files(cursor)
+        file = files[0]['file_handle']
+        file.flush()
+        df = pd.read_json(file.name, orient='records', lines=True)
+        assert df.equals(OUTPUT_DF)
+
+    def test__write_local_data_files_parquet(self):
+        op = DummySQLToGCSOperator(
+            sql=SQL,
+            bucket=BUCKET,
+            filename=FILENAME,
+            task_id=TASK_ID,
+            schema_filename=SCHEMA_FILE,
+            export_format="parquet",
+            gzip=False,
+            schema=SCHEMA,
+            gcp_conn_id='google_cloud_default',
+        )
+        cursor = MagicMock()
+        cursor.__iter__.return_value = INPUT_DATA
+        cursor.description = CURSOR_DESCRIPTION
+
+        files = op._write_local_data_files(cursor)
+        file = files[0]['file_handle']
+        file.flush()
+        df = pd.read_parquet(file.name)
+        assert df.equals(OUTPUT_DF)