input data registered as data asset

This commit is contained in:
Maggie Mhanna 2022-11-06 08:07:32 +00:00
Родитель 3d5640d0dc
Коммит bd21b7abd9
5 изменённых файлов: 12 добавлений и 6 удалений

Просмотреть файл

@ -1,7 +1,6 @@
azureml-mlflow==1.38.0
azureml-ai-ml==1.0.0
pyarrow==10.0.0
scikit-learn==0.24.1
pandas==1.2.1
joblib==1.2.0
matplotlib==3.3.3
matplotlib==3.3.3

Просмотреть файл

@ -75,7 +75,7 @@ def main(args):
arr = os.listdir(args.raw_data)
print(arr)
data = pd.read_csv((Path(args.raw_data) / 'taxi-data.csv'))
data = pd.read_csv((Path(args.raw_data)))
data = data[NUMERIC_COLS + CAT_NOM_COLS + CAT_ORD_COLS + [TARGET_COL]]
# ------------- Split Data ------------- #

Просмотреть файл

@ -82,7 +82,9 @@ def test_prep_data():
df = pd.DataFrame(data)
df.to_csv(os.path.join(raw_data, "taxi-data.csv"))
raw_data= os.path.join(raw_data, "taxi-data.csv")
cmd = f"python data-science/src/prep/prep.py --raw_data={raw_data} --train_data={train_data} --val_data={val_data} --test_data={test_data}"
p = subprocess.Popen(cmd, stdout=subprocess.PIPE, shell=True)
out, err = p.communicate()
result = str(out).split('\\n')

Просмотреть файл

@ -5,9 +5,9 @@ description: Training Pipeline to train a model that predicts taxi fare price
# <inputs_and_outputs>
inputs:
input: #using local data, will create an anonymous data asset
type: uri_folder
path: ../../../data/
input:
type: uri_file
path: azureml:taxi-data@latest
enable_monitoring: "true"
table_name: 'taximonitoring'

Просмотреть файл

@ -53,6 +53,11 @@ stages:
environment_name: taxi-train-env
environment_file: mlops/azureml/train/train-env.yml
enable_monitoring: $(enable_monitoring)
- template: templates/${{ variables.version }}/register-data.yml@mlops-templates
parameters:
data_type: uri_file
data_name: taxi-data
data_file: mlops/azureml/train/data.yml
- checkout: rai-vnext-preview
path: s/
- template: register-rai-components.yml