nextml-code
diff --git a/‎template/{{cookiecutter.repository_name}}/{{cookiecutter.package_name}}/train-context.py
Lines changed: 97 additions & 0 deletions b/‎template/{{cookiecutter.repository_name}}/{{cookiecutter.package_name}}/train-context.py
Lines changed: 97 additions & 0 deletions
diff --git a/‎template/{{cookiecutter.repository_name}}/{{cookiecutter.package_name}}/train-nofunc.py
Lines changed: 99 additions & 0 deletions b/‎template/{{cookiecutter.repository_name}}/{{cookiecutter.package_name}}/train-nofunc.py
Lines changed: 99 additions & 0 deletions
diff --git a/‎template/{{cookiecutter.repository_name}}/{{cookiecutter.package_name}}/train.py
Lines changed: 34 additions & 85 deletions b/‎template/{{cookiecutter.repository_name}}/{{cookiecutter.package_name}}/train.py
Lines changed: 34 additions & 85 deletions
diff --git a/‎workflow/functional/interleaved.py
Lines changed: 0 additions & 29 deletions b/‎workflow/functional/interleaved.py
Lines changed: 0 additions & 29 deletions
@@ -0,0 +1,97 @@
+from functools import partial
+from pathlib import Path
+import numpy as np
+import random
+import argparse
+import torch
+import torch.nn.functional as F
+import ignite
+import logging
+import workflow
+from workflow.functional import starcompose
+from workflow.torch import set_seeds
+from workflow.ignite import worker_init
+from workflow.ignite.handlers.learning_rate import (
+    LearningRateScheduler, warmup, cyclical
+)
+from datastream import Datastream
+
+from {{cookiecutter.package_name}} import (
+    datastream, architecture, metrics, log_examples
+)
+
+
+def train(config):
+    set_seeds(config['seed'])
+    device = torch.device('cuda' if config['use_cuda'] else 'cpu')
+
+    model = architecture.Model().to(device)
+    optimizer = torch.optim.Adam(
+        model.parameters(), lr=config['learning_rate']
+    )
+
+    train_state = dict(model=model, optimizer=optimizer)
+
+    if Path('model').exists():
+        print('Loading model checkpoint')
+        workflow.ignite.handlers.ModelCheckpoint.load(
+            train_state, 'model/checkpoints', device
+        )
+        workflow.torch.set_learning_rate(optimizer, config['learning_rate'])
+
+
+    evaluate_data_loaders = {
+        f'evaluate_{name}': datastream.data_loader(
+            batch_size=config['eval_batch_size'],
+            num_workers=config['n_workers'],
+            collate_fn=tuple,
+        )
+        for name, datastream in datastream.evaluate_datastreams().items()
+    }
+
+    gradient_data_loader = (
+        datastream.GradientDatastream()
+        .data_loader(
+            batch_size=config['batch_size'],
+            num_workers=config['n_workers'],
+            n_batches_per_epoch=config['n_batches_per_epoch'],
+            worker_init_fn=partial(worker_init, config['seed'], trainer),
+            collate_fn=tuple,
+        )
+    )
+
+    tensorboard_logger = torch.utils.tensorboard.SummaryWriter()
+    early_stopping = workflow.EarlyStopping(...)
+
+    for epoch in tqdm(range(config['max_epochs'])):
+        for examples in tqdm(gradient_data_loader):
+            with workflow.train(model, optimizer):
+                predictions = model.predictions(
+                    architecture.FeatureBatch.from_examples(examples)
+                )
+                loss = predictions.loss(examples)
+                loss.backward()
+
+            metrics.gradient_metrics(
+                examples, predictions, loss, tensorboard_logger
+            )
+            # optional: schedule learning rate
+
+        for name, data_loader in evaluate_data_loaders:
+            for examples in tqdm(data_loader):
+                with workflow.eval(model):
+                    predictions = model.predictions(
+                        architecture.FeatureBatch.from_examples(examples)
+                    )
+                    loss = predictions.loss(examples)
+
+                # TODO: metrics need state?
+                # metrics.evaluate_metrics(
+                #     examples, predictions, loss, tensorboard_logger
+                # )
+
+        improved, out_of_patience = early_stopping.score(output)
+        if improved:
+            torch.save(train_state, 'model_checkpoint.pt')
+        elif out_of_patience(output):
+            break
@@ -0,0 +1,99 @@
+from functools import partial
+from pathlib import Path
+import numpy as np
+import random
+import argparse
+import torch
+import torch.nn.functional as F
+import ignite
+import logging
+import workflow
+from workflow.functional import starcompose
+from workflow.torch import set_seeds
+from workflow.ignite import worker_init
+from workflow.ignite.handlers.learning_rate import (
+    LearningRateScheduler, warmup, cyclical
+)
+from datastream import Datastream
+
+from {{cookiecutter.package_name}} import (
+    datastream, architecture, metrics, log_examples
+)
+
+
+def train(config):
+    set_seeds(config['seed'])
+    device = torch.device('cuda' if config['use_cuda'] else 'cpu')
+
+    model = architecture.Model().to(device)
+    optimizer = torch.optim.Adam(
+        model.parameters(), lr=config['learning_rate']
+    )
+
+    train_state = dict(model=model, optimizer=optimizer)
+
+    if Path('model').exists():
+        print('Loading model checkpoint')
+        workflow.ignite.handlers.ModelCheckpoint.load(
+            train_state, 'model/checkpoints', device
+        )
+        workflow.torch.set_learning_rate(optimizer, config['learning_rate'])
+
+
+    evaluate_data_loaders = {
+        f'evaluate_{name}': datastream.data_loader(
+            batch_size=config['eval_batch_size'],
+            num_workers=config['n_workers'],
+            collate_fn=tuple,
+        )
+        for name, datastream in datastream.evaluate_datastreams().items()
+    }
+
+    gradient_data_loader = (
+        datastream.GradientDatastream()
+        .data_loader(
+            batch_size=config['batch_size'],
+            num_workers=config['n_workers'],
+            n_batches_per_epoch=config['n_batches_per_epoch'],
+            worker_init_fn=partial(worker_init, config['seed'], trainer),
+            collate_fn=tuple,
+        )
+    )
+
+    tensorboard_logger = torch.utils.tensorboard.SummaryWriter()
+    early_stopping = workflow.EarlyStopping(...)
+
+    for epoch in tqdm(range(config['max_epochs'])):
+
+        with workflow.module_train(model):
+            for examples in tqdm(gradient_data_loader):
+                predictions = model.predictions(
+                    architecture.FeatureBatch.from_examples(examples)
+                )
+                loss = predictions.loss(examples)
+                loss.backward()
+                optimizer.step()
+                optimizer.zero_grad()
+
+                metrics.gradient_metrics(
+                    examples, predictions, loss, tensorboard_logger
+                )
+                # optional: schedule learning rate
+
+        with torch.no_grad, workflow.module_eval(model):
+            for name, data_loader in evaluate_data_loaders:
+                for examples in tqdm(data_loader):
+                    predictions = model.predictions(
+                        architecture.FeatureBatch.from_examples(examples)
+                    )
+                    loss = predictions.loss(examples)
+                    # TODO: metrics need state?
+                    # metrics.evaluate_metrics(
+                    #     examples, predictions, loss, tensorboard_logger
+                    # )
+
+        improved, out_of_patience = early_stopping.score(output)
+        if improved:
+            torch.save(train_state, 'model_checkpoint.pt')
+        elif out_of_patience(output):
+            break
@@ -22,9 +22,7 @@
 
 
 def train(config):
-
     set_seeds(config['seed'])
-
     device = torch.device('cuda' if config['use_cuda'] else 'cpu')
 
     model = architecture.Model().to(device)
@@ -39,23 +37,18 @@ def train(config):
         workflow.ignite.handlers.ModelCheckpoint.load(
             train_state, 'model/checkpoints', device
         )
-
         workflow.torch.set_learning_rate(optimizer, config['learning_rate'])
 
-    n_parameters = sum([
-        p.shape.numel() for p in model.parameters() if p.requires_grad
-    ])
-    print(f'n_parameters: {n_parameters:,}')
-
+    # 
     def process_batch(examples):
         predictions = model.predictions(
             architecture.FeatureBatch.from_examples(examples)
         )
         loss = predictions.loss(examples)
         return predictions, loss
 
-    @workflow.ignite.decorators.train(model, optimizer)
-    def train_batch(engine, examples):
+    @workflow.torch.decorators.train(model, optimizer)
+    def train_batch(examples):
         predictions, loss = process_batch(examples)
         loss.backward()
         return dict(
@@ -64,8 +57,8 @@ def train_batch(engine, examples):
             loss=loss,
         )
 
-    @workflow.ignite.decorators.evaluate(model)
-    def evaluate_batch(engine, examples):
+    @workflow.torch.decorators.evaluate(model)
+    def evaluate_batch(examples):
         predictions, loss = process_batch(examples)
         return dict(
             examples=examples,
@@ -82,78 +75,34 @@ def evaluate_batch(engine, examples):
         for name, datastream in datastream.evaluate_datastreams().items()
     }
 
-    trainer, evaluators, tensorboard_logger = workflow.ignite.trainer(
-        train_batch,
-        evaluate_batch,
-        evaluate_data_loaders,
-        metrics=dict(
-            progress=metrics.progress_metrics(),
-            train=metrics.train_metrics(),
-            **{
-                name: metrics.evaluate_metrics()
-                for name in evaluate_data_loaders.keys()
-            }
-        ),
-        optimizers=optimizer,
-    )
-
-    workflow.ignite.handlers.ModelScore(
-        lambda: -evaluators['evaluate_early_stopping'].state.metrics['loss'],
-        train_state,
-        {
-            name: metrics.evaluate_metrics()
-            for name in evaluate_data_loaders.keys()
-        },
-        tensorboard_logger,
-        config,
-    ).attach(trainer, evaluators)
-
-    tensorboard_logger.attach(
-        trainer,
-        log_examples('train', trainer),
-        ignite.engine.Events.EPOCH_COMPLETED,
-    )
-    tensorboard_logger.attach(
-        evaluators['evaluate_compare'],
-        log_examples('evaluate_compare', trainer),
-        ignite.engine.Events.EPOCH_COMPLETED,
+    gradient_data_loader = (
+        datastream.GradientDatastream()
+        .data_loader(
+            batch_size=config['batch_size'],
+            num_workers=config['n_workers'],
+            n_batches_per_epoch=config['n_batches_per_epoch'],
+            worker_init_fn=partial(worker_init, config['seed'], trainer),
+            collate_fn=tuple,
+        )
     )
 
-    if config.get('search_learning_rate', False):
-
-        def search(config):
-            def search_(step, multiplier):
-                return (
-                    step,
-                    (1 / config['minimum_learning_rate'])
-                    ** (step / config['n_batches'])
-                )
-            return search_
-
-        LearningRateScheduler(
-            optimizer,
-            search(config),
-        ).attach(trainer)
-
-    else:
-        LearningRateScheduler(
-            optimizer,
-            starcompose(
-                warmup(150),
-                cyclical(length=500),
-            ),
-        ).attach(trainer)
-
-    trainer.run(
-        data=(
-            datastream.GradientDatastream()
-            .data_loader(
-                batch_size=config['batch_size'],
-                num_workers=config['n_workers'],
-                n_batches_per_epoch=config['n_batches_per_epoch'],
-                worker_init_fn=partial(worker_init, config['seed'], trainer),
-                collate_fn=tuple,
-            )
-        ),
-        max_epochs=config['max_epochs'],
-    )
+    tensorboard_logger = torch.utils.tensorboard.SummaryWriter()
+    early_stopping = workflow.EarlyStopping(...)
+
+    for epoch in tqdm(range(config['max_epochs'])):
+        for examples in tqdm(gradient_data_loader):
+            output = train_batch(examples)
+            metrics.gradient_metrics(output, tensorboard_logger)
+            # optional: schedule learning rate
+
+        for name, data_loader in evaluate_data_loaders:
+            for examples in tqdm(data_loader):
+                output = evaluate_batch(examples)
+                # TODO: metrics need state?
+                metrics.evaluate_metrics(output, tensorboard_logger)
+
+        improved, out_of_patience = early_stopping.score(output)
+        if improved:
+            torch.save(train_state, 'model_checkpoint.pt')
+        elif out_of_patience(output):
+            break