random seed fixed at the beginning of each example python script (#277)

ORNL · Sep 6, 2024 · 3a5bdf9 · 3a5bdf9
1 parent a92b460
commit 3a5bdf9
Show file tree

Hide file tree

Showing 16 changed files with 85 additions and 27 deletions.
diff --git a/examples/ani1_x/train.py b/examples/ani1_x/train.py
@@ -4,15 +4,17 @@
 from mpi4py import MPI
 import argparse
 
-import glob
+import numpy as np
 
 import random
-import numpy as np
 
 import torch
-from torch import tensor
-from torch_geometric.data import Data
 
+# FIX random seed
+random_state = 0
+torch.manual_seed(random_state)
+
+from torch_geometric.data import Data
 from torch_geometric.transforms import Distance, Spherical, LocalCartesian
 
 import hydragnn
@@ -132,6 +134,8 @@ def convert_trajectories_to_graphs(self):
                         flush=True,
                     )
 
+        random.shuffle(self.dataset)
+
     def iter_data_buckets(self, h5filename, keys=["wb97x_dz.energy"]):
         """Iterate over buckets of data in ANI HDF5 file.
         Yields dicts with atomic numbers (shape [Na,]) coordinated (shape [Nc, Na, 3])

diff --git a/examples/csce/train_gap.py b/examples/csce/train_gap.py
@@ -9,11 +9,8 @@
 
 import logging
 import sys
-from tqdm import tqdm
 from mpi4py import MPI
-from itertools import chain
 import argparse
-import time
 
 import hydragnn
 from hydragnn.utils.print_utils import print_distributed, iterate_tqdm, log
@@ -35,10 +32,11 @@
 except ImportError:
     pass
 
-import torch_geometric.data
 import torch
-import torch.distributed as dist
 
+# FIX random seed
+random_state = 0
+torch.manual_seed(random_state)
 
 csce_node_types = {"C": 0, "F": 1, "H": 2, "N": 3, "O": 4, "S": 5}
 

diff --git a/examples/ising_model/train_ising.py b/examples/ising_model/train_ising.py
@@ -31,6 +31,10 @@
 import torch
 import torch.distributed as dist
 
+# FIX random seed
+random_state = 0
+torch.manual_seed(random_state)
+
 import warnings
 
 ## For create_configurations

diff --git a/examples/lsms/lsms.py b/examples/lsms/lsms.py
@@ -11,7 +11,6 @@
 from hydragnn.utils.lsmsdataset import LSMSDataset
 from hydragnn.utils.serializeddataset import SerializedWriter, SerializedDataset
 from hydragnn.preprocess.load_data import split_dataset
-from hydragnn.utils.print_utils import log
 
 try:
     from hydragnn.utils.adiosdataset import AdiosWriter, AdiosDataset
@@ -21,6 +20,10 @@
 import torch
 import torch.distributed as dist
 
+# FIX random seed
+random_state = 0
+torch.manual_seed(random_state)
+
 
 def info(*args, logtype="info", sep=" "):
     getattr(logging, logtype)(sep.join(map(str, args)))

diff --git a/examples/md17/md17.py b/examples/md17/md17.py
@@ -1,6 +1,11 @@
 import os, json
 
 import torch
+
+# FIX random seed
+random_state = 0
+torch.manual_seed(random_state)
+
 import torch_geometric
 
 # deprecated in torch_geometric 2.0

diff --git a/examples/mptrj/train.py b/examples/mptrj/train.py
@@ -4,13 +4,14 @@
 from mpi4py import MPI
 import argparse
 
-import glob
-
 import random
-import numpy as np
 
 import torch
-from torch import tensor
+
+# FIX random seed
+random_state = 0
+torch.manual_seed(random_state)
+
 from torch_geometric.data import Data
 
 from torch_geometric.transforms import Distance, Spherical, LocalCartesian
@@ -165,6 +166,8 @@ def __init__(
                         flush=True,
                     )
 
+        random.shuffle(self.dataset)
+
     def check_forces_values(self, forces):
 
         # Calculate the L2 norm for each row

diff --git a/examples/multidataset/train.py b/examples/multidataset/train.py
@@ -5,6 +5,11 @@
 import argparse
 
 import torch
+
+# FIX random seed
+random_state = 0
+torch.manual_seed(random_state)
+
 import numpy as np
 
 import hydragnn

diff --git a/examples/multidataset_hpo/gfm.py b/examples/multidataset_hpo/gfm.py
@@ -29,6 +29,10 @@
 ## FIMME
 torch.backends.cudnn.enabled = False
 
+# FIX random seed
+random_state = 0
+torch.manual_seed(random_state)
+
 
 def info(*args, logtype="info", sep=" "):
     getattr(logging, logtype)(sep.join(map(str, args)))

diff --git a/examples/multidataset_hpo/gfm_deephyper_multi.py b/examples/multidataset_hpo/gfm_deephyper_multi.py
@@ -4,6 +4,10 @@
 
 torch.backends.cudnn.enabled = False
 
+# FIX random seed
+random_state = 0
+torch.manual_seed(random_state)
+
 # deprecated in torch_geometric 2.0
 try:
     from torch_geometric.loader import DataLoader

diff --git a/examples/multidataset_hpo/gfm_deephyper_multi_perlmutter.py b/examples/multidataset_hpo/gfm_deephyper_multi_perlmutter.py
@@ -4,6 +4,10 @@
 
 torch.backends.cudnn.enabled = False
 
+# FIX random seed
+random_state = 0
+torch.manual_seed(random_state)
+
 # deprecated in torch_geometric 2.0
 try:
     from torch_geometric.loader import DataLoader
@@ -163,7 +167,7 @@ def run(trial, dequed=None):
         evaluator,
         acq_func="UCB",
         multi_point_strategy="cl_min",  # Constant liar strategy
-        random_state=42,
+        random_state=random_state,
         # Location where to store the results
         log_dir=log_name,
         # Number of threads used to update surrogate model of BO

diff --git a/examples/ogb/train_gap.py b/examples/ogb/train_gap.py
@@ -39,6 +39,10 @@
 import torch
 import torch.distributed as dist
 
+# FIX random seed
+random_state = 0
+torch.manual_seed(random_state)
+
 deepspeed_available = True
 try:
     import deepspeed

diff --git a/examples/open_catalyst_2020/train.py b/examples/open_catalyst_2020/train.py
@@ -4,14 +4,13 @@
 from mpi4py import MPI
 import argparse
 
-import glob
-
 import random
-import numpy as np
 
 import torch
-from torch import tensor
-from torch_geometric.data import Data
+
+# FIX random seed
+random_state = 0
+torch.manual_seed(random_state)
 
 import hydragnn
 from hydragnn.utils.time_utils import Timer
@@ -105,6 +104,8 @@ def __init__(
                     flush=True,
                 )
 
+        random.shuffle(self.dataset)
+
     def check_forces_values(self, forces):
 
         # Calculate the L2 norm for each row

diff --git a/examples/open_catalyst_2022/train.py b/examples/open_catalyst_2022/train.py
@@ -4,13 +4,16 @@
 from mpi4py import MPI
 import argparse
 
-import glob
+import numpy as np
 
 import random
-import numpy as np
 
 import torch
-from torch import tensor
+
+# FIX random seed
+random_state = 0
+torch.manual_seed(random_state)
+
 from torch_geometric.data import Data
 
 from torch_geometric.transforms import Distance, Spherical, LocalCartesian
@@ -112,6 +115,8 @@ def __init__(
                         flush=True,
                     )
 
+        random.shuffle(self.dataset)
+
     def ase_to_torch_geom(self, atoms):
         # set the atomic numbers, positions, and cell
         atomic_numbers = torch.Tensor(atoms.get_atomic_numbers()).unsqueeze(1)

diff --git a/examples/qm7x/train.py b/examples/qm7x/train.py
@@ -25,11 +25,18 @@
 
 import numpy as np
 
-from torch_geometric.data import Data
-from torch_geometric.transforms import RadiusGraph, Distance
 import torch
+
+# FIX random seed
+random_state = 0
+torch.manual_seed(random_state)
+
 import torch.distributed as dist
 
+from torch_geometric.data import Data
+from torch_geometric.transforms import RadiusGraph, Distance
+
+
 try:
     from hydragnn.utils.adiosdataset import AdiosWriter, AdiosDataset
 except ImportError:
@@ -118,8 +125,6 @@ def read_setids(self, dirpath, setids_files):
             mol_ids = list(fMOL.keys())
 
             if self.dist:
-                ## Random shuffle dirlist to avoid the same test/validation set
-                random.seed(43)
                 random.shuffle(mol_ids)
 
                 x = torch.tensor(len(mol_ids), requires_grad=False).to(get_device())

diff --git a/examples/qm9/qm9.py b/examples/qm9/qm9.py
@@ -1,6 +1,11 @@
 import os, json
 
 import torch
+
+# FIX random seed
+random_state = 0
+torch.manual_seed(random_state)
+
 import torch_geometric
 
 # deprecated in torch_geometric 2.0

diff --git a/hydragnn/preprocess/load_data.py b/hydragnn/preprocess/load_data.py
@@ -12,6 +12,8 @@
 import os
 import socket
 
+import random
+
 import torch
 import torch.distributed as dist
 import torch_geometric
@@ -304,7 +306,9 @@ def split_dataset(
 ):
     if not stratify_splitting:
         perc_val = (1 - perc_train) / 2
+        dataset = list(dataset)
         data_size = len(dataset)
+        random.shuffle(dataset)
         trainset = dataset[: int(data_size * perc_train)]
         valset = dataset[
             int(data_size * perc_train) : int(data_size * (perc_train + perc_val))