Simple Image Classification In Pytorch

2362 views Jan 21, 2025

ကျွန်တော် ဒီနေ့မှာတော့ Simple Image Classification ကို Pytorch ကို သုံးပြီး ဘယ်လို လုပ်ရလဲကို ပြောပြပေးသွားပါမယ်။

မှတ်ချက်။ ။ဒီ tutorial သည် beginners များအတွက် မဟုတ်ပါ။Neural Networks တွေနဲ့နည်းနည်းရင်းနှိးထားမှ ဖတ်လို့အဆင်ပြေပါလိမ့်မယ်။ဒါ့အပြင် စာကို သေချာဖတ်ပါ။ကျော်မဖတ်ပါနဲ့ ဘာလုပ်တယ်ဆိုတာကို အဲ့တာနားမလည်စေပါဘူး။ကျွန်တော်သည် Convolution ကဘာလဲ စတာတွေကို ပြောသွားမည်မဟုတ်ပါ။ကျွန်တော်သည် dataset ဘယ်လိုဆောက်မယ်နဲ့ pytorch ကိုသုံးပြီး ဘယ်လို train မယ်ကိုပဲ ပြပေးသွားမှာဖြစ်ပါတယ်။ဒီလို ရေးပေးရခြင်းသည် ကျွန်တော်တွေ့သလောက် pytorch tutorial ဆိုတာ မြန်မာလိုရေးထားတာရှားပါတယ်။Tensorflow,keras စတာတွေတော့ တွေ့ရပါတယ်။ဒါပေမဲ့ detailprojects blog ကို လာဖတ်တဲ့သူများဖြစ်ဖြစ် members ဝင်ထားသော သူငယ်ချင်းများဖြစ်ဖြစ် ပြောချင်တာက သူများ code တွေ content တွေကို မှီငြမ်းလို့ရပါတယ် ယူသုံးလို့လဲရပါတယ်။မှတ်ထားပေးရမွာက ကိုယ်ယူသုံးတဲ့ သူရဲ့ code ဖြစ်ဖြစ် tutorial content ဖြစ်ဖြစ် credit ဒါမှမဟုတ် တနေရာရာမှာ ဖော်ပြပေးပါ။ဒါလေးမှတ်သွားစေချင်ပါတယ်။

ဒီ tutorial တွင် ကျွန်တော်တို့ အရင်ဆုံး project structure ကို ပြောပါမယ်။အောက်မှာ ကြည်ေ့ပးပါ။

Project Folder

    data
        animals
            cats,dogs,pandas
    src
        models
        config.py
        dataset.py
        engine.py
        model.py
        test.py
        train.py

အဲ့တော့ ကျွန်တော်တို့သည် အရင်ဆုံး project folder ဆောက်လိုက်ပါ။အဲ့ထဲမှာ data နဲ့ src ဆိုတာရှိပါမယ်။data သည် images တွေထားဖို့ပါ။Animals ဆိုတဲ့ folder ထဲမှာ cats,dogs,pandas စသဖြင့် folders 3 ခုရှိပါတယ်။အဲ့ထဲမှာတော့ သက်ဆိုင်ရာပုံတွေရှိပါတယ်။
အဲ့တော့ မိတ်ဆွေက data folder ဆောက်ပြီးပြီဆိုရင် ဒီအောက်ကလင့်ခ်ကနေ download ဆွဲလိုက်ပြီး animals ထဲက folder 3 ခုကို အပေါ်က project structure တိုင်း ထားပေးပါ။

Click here to download data images           

ပြီးရင်တော့ src တွက် လိုအပ်တဲ့ code တွေကို အောက်က link ကနေ clone or download လုပ်ပြီး ယူပေးပါ။
Click here to download src files

ကဲ အကုန် လိုအပ်တာတွေ လုပ်ပြီးပြီဆိုတော့ အရင်ဆုံး src folder ထဲမှာ models folder ကို ဆောက်လိုက်ပါ။

models folder သည် ကျွန်တော်တို့ network ရဲ့ weight files တွေကိုသိမ်းဖို့ပါ။
အဲ့တော့ ကျွန်တော်သည် ဒီ code structure ဒီရက်ပိုင်း သဘောကျနေတာနဲ့ ပြီးတော့ မိတ်ဆွေတို့နဲ့ ပိုသင့်တော်ထင်လို့ တင်ပေးခြင်းဖြစ်ပါတယ်။ကျွန်တော်ရေးတာသည် သူ့ထက် နည်းနည်း complex ပိုဖြစ်ပါတယ်။ဒီ code style သည် youtube က data scientist တယောက်ရဲ့ code style ဖြစ်ပါတယ်။ကျွန်တော်ကတော့ လိုအပ်တာတွေနဲ့ ဒီ tutorial တွက် ကျွန်တော်ကြိုက်တဲ့ ပုံစံကို ပြန်ပြင်ထားပါတယ်။

အဲ့တော့ ကျွန်တော်တို့ configuration ဖြစ်တဲ့ config.py က စပြီး ကြည့်ရအောင်

Config.py

DATA_DIR = "../data/animals"
BATCH_SIZE = 128
IMAGE_WIDTH = 32
IMAGE_HEIGHT = 32
EPOCHS = 40
DEVICE = "cuda"

အဲ့တော့ ကျွန်တော်တို့ configuration ထဲမှာ DATA_DIR နဲ့ လိုအပ်တဲ့ batch_size တွေ ဘာတွေကို သတ်မှတ်လိုက်ပါတယ်။ကျွန်တော်ကတော့ GPU သုံးတာမို့လို့ cuda လို့ထားထားပါတယ်။မိတ်ဆွေတို့ cpu ပဲသုံးမယ်ဆို ဖြုတ်လိုက်ပါ။ပြီးရင်တော့ dataset.py ကနေပြီး dataset ကို စမ်းပြီး load လုပ်ကာ label များကို ယူရပါတယ်။

Dataset.py

from torchvision import transforms,datasets
from PIL import Image
import torch
import config
import glob
import os

from sklearn import preprocessing
import numpy as np 


class ClassificationDataset:
    def __init__(self,image_paths,targets,transform=None):
        self.image_paths = image_paths
        self.targets = targets
        self.transform = transform

    def __len__(self):
        return len(self.image_paths)

    def __getitem__(self,item):
        image_path = self.image_paths[item]
        target = self.targets[item]
        image = Image.open(image_path).convert('RGB') # PIL image
        
        if self.transform is not None:
            image = self.transform(image)
        return {
            "images": image,
            "targets": torch.tensor(target,dtype=torch.long),
        }


if __name__ == "__main__":
    
    transform = transforms.Compose([
            transforms.Resize(size=(32,32)),
            transforms.ToTensor(),
            transforms.Normalize((0.45820624,0.43722707,0.39191988),(0.23130463,0.22692703,0.22379072))
    ])

    label_encoder = preprocessing.LabelEncoder()

    image_paths = glob.glob(os.path.join(config.DATA_DIR,"**/*.*"),recursive=True)
    targets = [x.split("/")[-2] for x in image_paths]
    label_encoded = label_encoder.fit_transform(targets)
    dataset = ClassificationDataset(image_paths,label_encoded,transform)
    print(np.unique(label_encoded))
    print(dataset[0]['images'].size())  
    print(dataset[0]['targets'])
    print(label_encoder.inverse_transform([dataset[0]['targets'].numpy()])[0]) 

ပထမဆုံး ကျွန်တော်တို့သည် လိုအပ်တဲ့ Dataset Class ဖြစ်တဲ့ ClassificationDataset ကို ဆောက်လိုက်ပြီး __getitem__ ထဲတွင် PIL နဲ့ image ဖတ်လိုက်ပြီး pytorch transforms ကနေ လိုအပ်တဲ့ tensor format နဲ့ image ကို normalize လုပ်လိုက်ပါတယ်။ပြီးရင်တော့ dataset ကနေ load လုပ်တိုင်း image နဲ့ target labels ကို ပြန်ပို့ပေးပါတယ်။အောက်မှာ dataset ကို စမ်းသပ်ထားတဲ့ code ကိုတွေ့နိုင်ပါတယ်။

နောက်တဆင့်သည် training function နဲ့ evaluation function များကို သတ်မှတ်ပြီး batch တခုချင်းဆီမှာ ဘယ်လောက် loss,accuracy ရလဲ တွက်ဖို့ပါ။

Engine.py

from tqdm import tqdm
import torch 
import config 


def metrics_batch(output, target):
    # get output class
    pred = output.argmax(dim=1, keepdim=True)
    
    # compare output class with target class
    corrects=pred.eq(target.view_as(pred)).sum().item()
    return corrects

def train_fn(model,data_loader,optimizer):
    model.train()
    fin_loss = 0.0
    tk = tqdm(data_loader,total=len(data_loader))
    for data in tk:
        for k,v in data.items():
            data[k] = v.to(config.DEVICE)
        
        optimizer.zero_grad()
        _,loss = model(**data)
        loss.backward()
        optimizer.step()
        fin_loss += loss.item()
    
    return fin_loss / len(data_loader)


def eval_fn(model,data_loader):
    model.eval()
    fin_loss = 0.0
    fin_accuracy = 0.0
    tk = tqdm(data_loader,total=len(data_loader))
    with torch.no_grad():
        for data in tk:
            for k,v in data.items():
                data[k] = v.to(config.DEVICE)
            
            batch_preds,loss = model(**data)
            fin_loss += loss.item()
            fin_accuracy += metrics_batch(batch_preds,data['targets'])
        
        return fin_accuracy / len(data_loader),fin_loss /len(data_loader) 

အဲ့တော့ အပေါ်က code တွေသည် training batch တွက် loss တွေကို တွက်ပြီး optimizer update လုပ်ပါတယ်။eval fn သည် validation batch အတွက် validation accuracy နဲ့ validation loss ကို တွက်ပြီး ပြန်ပို့ပေးပါတယ်။ဒီမှာ loss တွေသည် model ကနေ ပြန်ပို့ပေးထားတာတွေ့မှာပါ။အဲ့တော့ ကျွန်တော်တို့ model.py ကို ကြည့်ရအောင်

Model.py

import torch.nn as nn 
import torch.nn.functional as F 
import numpy as np 
import torch 

class SmallNet(nn.Module):
    def __init__(self,num_classes=3):
        super(SmallNet,self).__init__()
        # define the conv layers
        self.conv1 = nn.Sequential(
            nn.Conv2d(3, 32, kernel_size=3, padding=1),
            nn.ReLU(),
            nn.BatchNorm2d(32),
            nn.Conv2d(32, 32, kernel_size=3, padding=1),
            nn.ReLU(),
            nn.BatchNorm2d(32),
            nn.MaxPool2d(2),
        )

        self.conv2 = nn.Sequential(
            nn.Conv2d(32, 64, kernel_size=3, padding=1),
            nn.ReLU(),
            nn.BatchNorm2d(64),
            nn.Conv2d(64, 64, kernel_size=3, padding=1),
            nn.ReLU(),
            nn.BatchNorm2d(64),
            nn.MaxPool2d(2),
        )
        
        self.num_flatten = 64 * 8 * 8
        self.fc1 = nn.Linear(self.num_flatten,512)
        self.out = nn.Linear(512,num_classes)
        
    
    def forward(self,images,targets=None):
        x = self.conv1(images)
        x = F.dropout(x, p=0.25)
        x = self.conv2(x)
        x = F.dropout(x, p=0.25)
        x = x.view(-1,self.num_flatten)
        x = F.relu(self.fc1(x))
        x = F.dropout(x, p=0.25)
        x = self.out(x)
        if targets is not None:
            loss = nn.CrossEntropyLoss()
            loss = loss(x, targets)
            return x,loss
        return x,None 

if __name__ == "__main__":
    model = SmallNet(num_classes=3)
    img = torch.rand((1,3,32,32))
    x,loss = model(img,torch.tensor([1],dtype=torch.long))

Model.py သည် small vgg architecture သဘောမျိုးသာရေးထားတာတွေ့ရမှာပါ။ဒီမှာ pytorch neural network ကို မရှင်းတော့ဘူးနော်။Intermediate reader ဆိုရင်တော့ ဒီ code ကိုကြည့်တာနဲ့ နည်းနည်းတော့ သဘောပေါက်မှာပါ။

အဲ့တော့ ကျွန်တော်တို့ လိုအပ်တဲ့ dataset class တွေ config တွေ neural network model တွေပြင်ပြီးသွားပြီမို့ စ train မှာမို့ train.py ကိုကြည့်ရအောင်

Train.py


import os
import glob
import torch
import numpy as np

from torchvision import transforms,datasets

from sklearn import preprocessing
from sklearn import model_selection

import config
import dataset
import engine
from model import SmallNet


def run_training():
    transform = transforms.Compose([
            transforms.Resize(size=(32,32)),
            transforms.ToTensor(),
            transforms.Normalize((0.45820624,0.43722707,0.39191988),(0.23130463,0.22692703,0.22379072))
    ])

    label_encoder = preprocessing.LabelEncoder()

    image_paths = glob.glob(os.path.join(config.DATA_DIR,"**/*.*"),recursive=True)
    targets = [x.split("/")[-2] for x in image_paths]
    label_encoded = np.array(label_encoder.fit_transform(targets))
    
    (train_images,test_images,train_labels,test_labels) = model_selection.train_test_split(image_paths,label_encoded,test_size=0.2,random_state=0)
    # print(len(train_images))
    # print(len(train_labels))

    train_dataset = dataset.ClassificationDataset(train_images,train_labels,transform)
    train_loader = torch.utils.data.DataLoader(train_dataset,batch_size=config.BATCH_SIZE,shuffle=True)
    
    test_dataset = dataset.ClassificationDataset(test_images,test_labels,transform)
    test_loader = torch.utils.data.DataLoader(test_dataset,batch_size=config.BATCH_SIZE,shuffle=False)

    model =SmallNet(num_classes=3)
    model.to(config.DEVICE)

    opt = torch.optim.Adam(model.parameters(),lr=3e-4)
    scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(
        opt, factor=0.8, patience=5, verbose=True
    )

    for epoch in range(config.EPOCHS):
        
        train_loss = engine.train_fn(model,train_loader,opt)
        val_accuracy,val_loss = engine.eval_fn(model,test_loader)

        print(
            f"Epoch={epoch}, Train Loss={train_loss}, Test Loss={val_loss} Accuracy={val_accuracy}"
        )
        
        scheduler.step(val_loss)

    print("Saved model...")
    torch.save(model.state_dict(),"./models/weights_latest.pt")    

if __name__ == "__main__":
    run_training()

အဲ့တော့ ကျွန်တော်တို့သည် run_training function ထဲမှာ dataset ကို load လုပ်ပြီး pytorch Dataloader ကနေတဆင့် engine.py မှာရေးထားတဲ့ training function တွေ evaluation function တွေ ပြန်ပို့ပေးကာ loss များ ရယူပြီး train လိုက်ပါတယ်။ကျွန်တော်ဒီမှာ နောက်ဆုံး weights ကို save ထားပါတယ်။လုပ်တော့မလုပ်သင့်ပေမယ့် tutorial purpose ပဲမို့ ဒီလိုလေးပဲထားခဲ့ပါတော့မယ်။

အဲ့တော့ ကျွန်တော်တို့ train.py ကို run လိုက်မယ်ဆို အောက်ပါအတိုင်း တွေ့ရပါမယ်။

ဒီမှာ ကျွန်တော်တို့ epoch 40 ထိtrian ပြီးတဲ့ခါ accuracy လေးက ကောင်းပေမယ့် train loss ,validation loss သည် ကွာနေတာ တွေ့ရပါလိမ့်မယ်။ဒါသည် overfitting ဖြစ်နေပြီး ကောင်းတဲ့အချက်တော့မဟုတ်ပါ။training data အရမ်းနည်းလို့ဖြစ်ပါတယ်။အဲ့တော့ ကိုယ့်ဘာ့သာကိုယ် ဘယ်လိုကောင်းအောင် လုပ်မလဲ စမ်းကြည့်ကြပါ။ပြီးရင်တော့ ကျွန်တော်တို့ model deployment test.py ကိုကြည့်ရအောင်။

Test.py

import numpy as np
from model import SmallNet
from PIL import Image 
import matplotlib.pyplot as plt 
from torchvision import transforms
import torch 
import argparse

ap = argparse.ArgumentParser()
ap.add_argument("-i","--input",required=True,help="Path to input image")
args = vars(ap.parse_args())

transform = transforms.Compose([
            transforms.Resize(size=(32,32)),
            transforms.ToTensor(),
            transforms.Normalize((0.45820624,0.43722707,0.39191988),(0.23130463,0.22692703,0.22379072))
    ])

labels = ['cat','dog','panda']
path2modelweight = "./models/weights_latest.pt"

model = SmallNet(num_classes=3)
model.load_state_dict(torch.load(path2modelweight))

model.eval()
image = Image.open(args['input'])

with torch.no_grad():
    x = transform(image)
    y,_ = model(x.unsqueeze(0))
    y_out = torch.softmax(y,dim=1).numpy()
    y_out = np.argmax(y_out)
    print("Label->",labels[y_out])
    fig,ax = plt.subplots()
    ax.imshow(image)
    plt.show()


ကျွန်တော်တို့ test.py တွင် argument ကဝင်လာတဲ့ image file ကို read လိုက်ပြီး model ထဲထည့်တာ prediction ကိုယူတာလေးဖြစ်ပါတယ်။အားလုံးနားလည်မယ်လို့မျှော်လင့်ပါတယ်။

အဲ့တော့ train ပြီးလို့ run မည်ဆိုလျှင် အောက်ပါတိုင်း run လို့ရပါတယ်။


ဒီမှာ jupyter notebook မသုံးပဲ ဒါမျိုးရေးရခြင်းသည် production တွက်ကော ကေင်းပါတယ်။Python code သည် python code ပါပဲ ဘယ်မှာရေးရေးတူတူပါပဲ။အားလုံးကျေးဇူးတင်ပါတယ်။