DeepSpeech/stats.py

#!/usr/bin/env python3
import argparse
import functools
import pandas

from deepspeech_training.util.helpers import secs_to_hours
from pathlib import Path


def read_csvs(csv_files):
    # Relative paths are relative to CSV location
    def absolutify(csv, path):
        path = Path(path)
        if path.is_absolute():
            return str(path)
        return str(csv.parent / path)

    sets = []
    for csv in csv_files:
        file = pandas.read_csv(csv, encoding='utf-8', na_filter=False)
        file['wav_filename'] = file['wav_filename'].apply(functools.partial(absolutify, csv))
        sets.append(file)

    # Concat all sets, drop any extra columns, re-index the final result as 0..N
    return pandas.concat(sets, join='inner', ignore_index=True)


def main():
    parser = argparse.ArgumentParser()

    parser.add_argument("-csv", "--csv-files", help="Str. Filenames as a comma separated list", required=True)
    parser.add_argument("--sample-rate", type=int, default=16000, required=False, help="Audio sample rate")
    parser.add_argument("--channels", type=int, default=1, required=False, help="Audio channels")
    parser.add_argument("--bits-per-sample", type=int, default=16, required=False, help="Audio bits per sample")
    args = parser.parse_args()
    in_files = [Path(i).absolute() for i in args.csv_files.split(",")]

    csv_dataframe = read_csvs(in_files)
    total_bytes = csv_dataframe['wav_filesize'].sum()
    total_files = len(csv_dataframe)
    total_seconds = ((csv_dataframe['wav_filesize'] - 44) / args.sample_rate / args.channels / (args.bits_per_sample // 8)).sum()

    print('Total bytes:', total_bytes)
    print('Total files:', total_files)
    print('Total time:', secs_to_hours(total_seconds))

if __name__ == '__main__':
    main()
Computing audio hours at import 2019-05-28 12:19:14 +03:00			`#!/usr/bin/env python3`
			`import argparse`
Package training code to avoid sys.path hacks 2020-03-25 19:07:29 +03:00			`import functools`
			`import pandas`

Revert "Merge pull request #3237 from lissyx/rename-training-package" This reverts commit 3dcb3743acc14ed9de63110709446791892f8936, reversing changes made to 457198c88d7ad96ee4596cb21deaeca77c277898. 2020-08-25 16:36:22 +03:00			`from deepspeech_training.util.helpers import secs_to_hours`
Package training code to avoid sys.path hacks 2020-03-25 19:07:29 +03:00			`from pathlib import Path`


			`def read_csvs(csv_files):`
			`# Relative paths are relative to CSV location`
			`def absolutify(csv, path):`
			`path = Path(path)`
			`if path.is_absolute():`
			`return str(path)`
			`return str(csv.parent / path)`

			`sets = []`
			`for csv in csv_files:`
			`file = pandas.read_csv(csv, encoding='utf-8', na_filter=False)`
			`file['wav_filename'] = file['wav_filename'].apply(functools.partial(absolutify, csv))`
			`sets.append(file)`

			`# Concat all sets, drop any extra columns, re-index the final result as 0..N`
			`return pandas.concat(sets, join='inner', ignore_index=True)`
Computing audio hours at import 2019-05-28 12:19:14 +03:00

			`def main():`
			`parser = argparse.ArgumentParser()`

			`parser.add_argument("-csv", "--csv-files", help="Str. Filenames as a comma separated list", required=True)`
			`parser.add_argument("--sample-rate", type=int, default=16000, required=False, help="Audio sample rate")`
			`parser.add_argument("--channels", type=int, default=1, required=False, help="Audio channels")`
			`parser.add_argument("--bits-per-sample", type=int, default=16, required=False, help="Audio bits per sample")`
			`args = parser.parse_args()`
Package training code to avoid sys.path hacks 2020-03-25 19:07:29 +03:00			`in_files = [Path(i).absolute() for i in args.csv_files.split(",")]`
Computing audio hours at import 2019-05-28 12:19:14 +03:00
			`csv_dataframe = read_csvs(in_files)`
			`total_bytes = csv_dataframe['wav_filesize'].sum()`
Package training code to avoid sys.path hacks 2020-03-25 19:07:29 +03:00			`total_files = len(csv_dataframe)`
			`total_seconds = ((csv_dataframe['wav_filesize'] - 44) / args.sample_rate / args.channels / (args.bits_per_sample // 8)).sum()`
Computing audio hours at import 2019-05-28 12:19:14 +03:00
Package training code to avoid sys.path hacks 2020-03-25 19:07:29 +03:00			`print('Total bytes:', total_bytes)`
			`print('Total files:', total_files)`
			`print('Total time:', secs_to_hours(total_seconds))`
Computing audio hours at import 2019-05-28 12:19:14 +03:00
			`if __name__ == '__main__':`
			`main()`