dataset

Hyunji
Commit 198c41b4ed57345e5613dbcaa122688cc393c061 198c41b4 1 parent ebfe69fd
Showing 1 changed file with 411 additions and 0 deletions
3DCNN_VGGNet_2DResNet/dataset.py
--- a/3DCNN_VGGNet_2DResNet/dataset.py 0 → 100644
View file @198c41b
+++ b/3DCNN_VGGNet_2DResNet/dataset.py 0 → 100644
View file @198c41b
+ import os
+ import numpy as np
+ import pandas as pd
+ import nibabel as nib
+ from collections import defaultdict
+ 
+ import torch
+ from torch.utils.data import Dataset
+ import matplotlib.pyplot as plt
+ 
+ import medicaltorch.transforms as mt_transforms
+ import torchvision as tv
+ import torchvision.utils as vutils
+ import transforms as tf
+ 
+ from tqdm import *
+ 
+ def linked_augmentation(gm_batch, wm_batch, transform):
+ 
+     gm_batch_size = gm_batch.size(0)
+ 
+     gm_batch_cpu = gm_batch.cpu().detach()
+     gm_batch_cpu = gm_batch_cpu.numpy()
+ 
+     wm_batch_cpu = wm_batch.cpu().detach()
+     wm_batch_cpu = wm_batch_cpu.numpy()
+ 
+     samples_linked_aug = []
+     sample_linked_aug = {'input': [gm_batch_cpu,
+                                    wm_batch_cpu]}
+     # print('GM: ', sample_linked_aug['input'][0].shape)
+     # print('WM: ', sample_linked_aug['input'][1].shape)
+     out = transform(sample_linked_aug)
+     # samples_linked_aug.append(out)
+ 
+     # samples_linked_aug = mt_datasets.mt_collate(samples_linked_aug)
+     return out
+     
+ class PAC20192D(Dataset):
+     def __init__(self, ctx, set, split1=0.7, split2=0.8, portion=0.8): #set, split1=0.7, split2=0.8 ###
+         """
+         split: train/val split
+         portion: portion of the axial slices that enter the dataset
+         """
+         self.ctx = ctx
+         self.portion = portion
+         dataset_path = ctx["dataset_path"]
+ 
+         csv_path = os.path.join(dataset_path, "IXI1126.csv")
+ 
+         dataset = []
+ 
+         stratified_dataset = []
+ 
+         with open(csv_path) as fid:
+             for i, line in enumerate(fid):
+                 if i == 0:
+                     continue
+                 line = line.split(',')
+                 dataset.append({
+                     'subject': line[0],
+                     'age': float(line[1]),
+                     'gender': line[2],
+                     'site': int(line[3]),
+                     'filename': line[4].replace('\n','')
+                 })
+ 
+         sites = defaultdict(list)
+         
+         for data in dataset:
+             sites[data['site']].append(data)
+ 
+         for site in sites.keys():
+             length = len(sites[site])
+             if set == 'train':
+                 stratified_dataset += sites[site][0:int(length*split1)]
+                 print(stratified_dataset)
+             if set == 'val':
+                 stratified_dataset += sites[site][int(length*split1):int(length*split2)]
+                 print(stratified_dataset)
+             if set == 'test':
+                 stratified_dataset += sites[site][int(length*split2):]
+                 print(stratified_dataset)
+ 
+         self.dataset = stratified_dataset
+         self.slices = []
+ 
+         self.transform = tv.transforms.Compose([
+             mt_transforms.ToPIL(labeled=False),
+             mt_transforms.ElasticTransform(alpha_range=(28.0, 30.0),
+                                            sigma_range=(3.5, 4.0),
+                                            p=0.3, labeled=False),
+             mt_transforms.RandomAffine(degrees=4.6,
+                                        scale=(0.98, 1.02),
+                                        translate=(0.03, 0.03),
+                                        labeled=False),
+             mt_transforms.RandomTensorChannelShift((-0.10, 0.10)),
+             mt_transforms.ToTensor(labeled=False),
+         ])
+ 
+         self.preprocess_dataset()
+ 
+     def preprocess_dataset(self):
+         for i, data in enumerate(tqdm(self.dataset, desc="Loading dataset")):
+ 
+             #filename_gm = os.path.join(self.ctx["dataset_path"], 'gm', data['subject'] + '_gm.nii.gz')
+             filename_gm = data['filename']
+             input_image_gm = torch.FloatTensor(nib.load(filename_gm).get_fdata())
+             input_image_gm = input_image_gm.permute(2, 0, 1)
+ 
+             #filename_wm = os.path.join(self.ctx["dataset_path"], 'wm', data['subject'] + '_wm.nii.gz')
+             filename_wm = data['filename']
+             input_image_wm = torch.FloatTensor(nib.load(filename_wm).get_fdata())
+             input_image_wm = input_image_wm.permute(2, 0, 1)
+ 
+             start = int((1.-self.portion)*input_image_gm.shape[0])
+             end = int(self.portion*input_image_gm.shape[0])
+             input_image_gm = input_image_gm[start:end,:,:]
+             input_image_wm = input_image_wm[start:end,:,:]
+             for slice_idx in range(input_image_wm.shape[0]):
+                 slice_gm = input_image_gm[slice_idx,:,:]
+                 slice_wm = input_image_wm[slice_idx,:,:]
+ 
+                 slice_gm = slice_gm.unsqueeze(0)
+                 slice_wm = slice_wm.unsqueeze(0)
+ 
+                 slice = torch.cat([slice_gm, slice_wm], dim=0)
+ 
+                 # print(slice.max(), slice.min())
+                 self.slices.append({
+                     'image': slice,
+                     'age': data['age']
+                 })
+                 # plt.imshow(slice.squeeze())
+                 # plt.show()
+ 
+     def __getitem__(self, idx):
+ 
+         data = self.slices[idx]
+         #transformed = { 
+         #'input': data['image'] 
+         # } 
+         # plt.imshow(data['image'][0])
+         # plt.title('gm')
+         # plt.show()
+         # plt.imshow(data['image'][1])
+         # plt.title('wm')
+         # plt.show()
+         gm = data['image'][0].unsqueeze(0)
+         wm = data['image'][1].unsqueeze(0)
+         
+         batch = linked_augmentation(gm, wm, self.transform)
+         # print('gm: ', batch['input'][0].shape)
+         # print('wm: ', batch['input'][1].shape)
+         batch = torch.cat([batch['input'][0], batch['input'][1]], dim=0) 
+         # print('Final shape: ', batch.shape)
+ 
+         #transformed = self.transform(transformed)
+     
+         return {
+             'input': batch,
+             'label': data['age']
+         }
+ 
+     def __len__(self):
+         return len(self.slices)
+ 
+ class PAC20193D(Dataset):
+     def __init__(self, ctx, set): #set, split1=0.7, split2=0.8 ###
+         self.ctx = ctx
+         dataset_path = ctx["dataset_path"]
+ 
+         #csv_path = os.path.join(dataset_path, "IXI0923.csv")
+         csv_path_train = os.path.join(dataset_path, "train1105.csv")
+         csv_path_valid = os.path.join(dataset_path, "valid1105.csv")
+         csv_path_test = os.path.join(dataset_path, "test1105.csv")
+     
+         #dataset = []
+         dataset_train = []
+         dataset_valid = []
+         dataset_test = []
+         dataset = []
+         
+         stratified_dataset = []
+         
+         with open(csv_path_train) as fid:
+             for i, line in enumerate(fid):
+                 if i == 0:
+                     continue
+                 line = line.split(',')
+                 dataset_train.append({
+                     'subject': line[0],
+                     'age': float(line[1]),
+                     'gender': line[2],
+                     'site': int(line[3]),
+                     'filename': line[4].replace('\n','')
+                 })
+         with open(csv_path_valid) as fid:
+             for i, line in enumerate(fid):
+                 if i == 0:
+                     continue
+                 line = line.split(',')
+                 dataset_valid.append({
+                     'subject': line[0],
+                     'age': float(line[1]),
+                     'gender': line[2],
+                     'site': int(line[3]),
+                     'filename': line[4].replace('\n','')
+                 })
+         with open(csv_path_test) as fid:
+             for i, line in enumerate(fid):
+                 if i == 0:
+                     continue
+                 line = line.split(',')
+                 dataset_test.append({
+                     'subject': line[0],
+                     'age': float(line[1]),
+                     'gender': line[2],
+                     'site': int(line[3]),
+                     'filename': line[4].replace('\n','')
+                 })
+ 
+         #sites = defaultdict(list)
+         sites_train = defaultdict(list)
+         sites_valid = defaultdict(list)
+         sites_test = defaultdict(list)
+         
+         for data in dataset_train:
+             sites_train[data['site']].append(data)
+         for data in dataset_valid:
+             sites_valid[data['site']].append(data)
+         for data in dataset_test:
+             sites_test[data['site']].append(data)
+         
+         if set == 'train' :
+             for site in sites_train.keys():
+                 length_train = len(sites_train[site])
+                 stratified_dataset += sites_train[site][0:int(length_train)]
+                 print(stratified_dataset)
+         if set == 'valid':
+             for site in sites_valid.keys():
+                 length_valid = len(sites_valid[site])
+                 stratified_dataset += sites_valid[site][0:int(length_valid)]
+                 print(stratified_dataset)
+         if set == 'test':
+             for site in sites_test.keys():
+                 length_test = len(sites_test[site])
+                 stratified_dataset += sites_test[site][0:int(length_test)]
+                 print(stratified_dataset)
+ 
+ 
+         self.dataset = stratified_dataset
+ 
+         self.transform = tv.transforms.Compose([
+             tf.ImgAugTranslation(10),
+             tf.ImgAugRotation(40),
+             tf.ToTensor(),
+         ])
+ 
+ 
+     def __getitem__(self, idx):
+         data = self.dataset[idx]
+         filename = data['filename']
+         input_image = torch.FloatTensor(nib.load(filename).get_fdata())
+         input_image = input_image.permute(2, 0, 1)
+ 
+         transformed = {
+             'input': input_image
+         }
+ 
+         transformed = self.transform(transformed['input'])
+         transformed = transformed.unsqueeze(0)
+         print(transformed.shape)
+ 
+ 
+         return {
+             'input': transformed,
+             'label': data['age']
+         }
+ 
+     def __len__(self):
+         return len(self.dataset)
+ 
+ class PAC2019(Dataset):
+     def __init__(self, ctx, set, split=0.8):
+         self.ctx = ctx
+         dataset_path = ctx["dataset_path"]
+ 
+         csv_path_train = os.path.join(dataset_path, "train1105.csv")
+         csv_path_valid = os.path.join(dataset_path, "valid1105.csv")
+         csv_path_test = os.path.join(dataset_path, "test1105.csv")
+         
+         dataset_train = []
+         dataset_valid = []
+         dataset_test = []
+         dataset = []
+ 
+         stratified_dataset = []
+ 
+         with open(csv_path_train) as fid:
+             for i, line in enumerate(fid):
+                 if i == 0:
+                     continue
+                 line = line.split(',')
+                 dataset_train.append({
+                     'subject': line[0],
+                     'age': float(line[1]),
+                     'gender': line[2],
+                     'site': int(line[3]),
+                     'filename': line[4].replace('\n','')
+                 })
+         with open(csv_path_valid) as fid:
+             for i, line in enumerate(fid):
+                 if i == 0:
+                     continue
+                 line = line.split(',')
+                 dataset_valid.append({
+                     'subject': line[0],
+                     'age': float(line[1]),
+                     'gender': line[2],
+                     'site': int(line[3]),
+                     'filename': line[4].replace('\n','')
+                 })
+         with open(csv_path_test) as fid:
+             for i, line in enumerate(fid):
+                 if i == 0:
+                     continue
+                 line = line.split(',')
+                 dataset_test.append({
+                     'subject': line[0],
+                     'age': float(line[1]),
+                     'gender': line[2],
+                     'site': int(line[3]),
+                     'filename': line[4].replace('\n','')
+                 })
+ 
+        #sites = defaultdict(list)
+         sites_train = defaultdict(list)
+         sites_valid = defaultdict(list)
+         sites_test = defaultdict(list)
+ 
+         for data in dataset_train:
+             sites_train[data['site']].append(data)
+         for data in dataset_valid:
+             sites_valid[data['site']].append(data)
+         for data in dataset_test:
+             sites_test[data['site']].append(data)
+ 
+         if set == 'train' :
+             for site in sites_train.keys():
+                 length_train = len(sites_train[site])
+                 stratified_dataset += sites_train[site][0:int(length_train)]
+                 print(stratified_dataset)
+         if set == 'valid':
+             for site in sites_valid.keys():
+                 length_valid = len(sites_valid[site])
+                 stratified_dataset += sites_valid[site][0:int(length_valid)]
+                 print(stratified_dataset)
+         if set == 'test':
+             for site in sites_test.keys():
+                 length_test = len(sites_test[site])
+                 stratified_dataset += sites_test[site][0:int(length_test)]
+                 print(stratified_dataset)
+ 
+ 
+         self.dataset = stratified_dataset
+ 
+         self.transform = tv.transforms.Compose([
+             mt_transforms.ToPIL(labeled=False),
+             mt_transforms.ElasticTransform(alpha_range=(28.0, 30.0),
+                                            sigma_range=(3.5, 4.0),
+                                            p=0.3, labeled=False),
+             mt_transforms.RandomAffine(degrees=4.6,
+                                        scale=(0.98, 1.02),
+                                        translate=(0.03, 0.03),
+                                        labeled=False),
+             mt_transforms.RandomTensorChannelShift((-0.10, 0.10)),
+             mt_transforms.ToTensor(labeled=False),
+         ])
+ 
+     def __getitem__(self, idx):
+         data = self.dataset[idx]
+ 
+         filename = data['filename']
+         t1_image = torch.FloatTensor(nib.load(filename).get_fdata())
+         t1_image = t1_image.permute(2, 0, 1)
+ 
+         # transformed = {
+         #     'input': gm_image
+         # }
+         # self.transform(transformed)
+ 
+         # plt.imshow(gm_image[60,:,:])
+         # plt.show()
+         # plt.imshow(gm_image[:,60,:])
+         # plt.show()
+         # plt.imshow(gm_image[:,:,60])
+         # plt.show()
+         #
+         # raise
+ 
+ 
+         return {
+             #'t1':t1_image,
+             'input': t1_image,
+             'label': data['age']
+         }
+ 
+     def __len__(self):
+         return len(self.dataset)
+         
\ No newline at end of file