peft on vision-text transformer (GIT model) does not learn! task type not supported? #1958

zum8st8 · 2024-07-25T19:37:18Z

zum8st8
Jul 25, 2024

Hello, I have done with success a fine-tuning of the Generative Image-to-text Transformer for Vision and Language (git-base-vatex from hugging.face imported as AutoModelForCausalLM.from_pretrained). I use it for video-captioning. When I perform LoRa on it using the peft framework (peft config and get_peft_model) and try to train it in native pytorch manner, the model doesn´t learn anything (the losses remain pretty the same) indipendently form the learning rate (in range 10^-2 - 10^-5) and if I select myself the layers or leave it per default. I wonder if it caused by the task type choice: I selected CAUSAL_LM but it does the same if I do not set it. Is my kind of model perhaps not supported? Has anyone suggestions? Thank you very much!

BenjaminBossan · 2024-07-26T09:21:15Z

BenjaminBossan
Jul 26, 2024
Maintainer

It's very unlikely that the task type is the issue here, probably there is something else going on. Would it be possible for you to share the code? If not, could you share the output of calling

model.print_trainable_parameters()
model.get_model_status()
model.get_layer_status()

5 replies

zum8st8 Aug 12, 2024
Author

Hi, sorry for the delay! I share now the requested outputs:

trainable params: 1,327,104 || all params: 177,950,778 || trainable%: 0.7458
TunerModelStatus(base_model_type='GitForCausalLM', adapter_model_type='LoraModel', peft_types={'default': 'LORA'}, trainable_params=1327104, total_params=177950778, num_adapter_layers=72, enabled=True, active_adapters=['default'], merged_adapters=[], requires_grad={'default': True}, available_adapters=['default']) special variables active_adapters: ['default'] adapter_model_type: 'LoraModel' available_adapters: ['default'] base_model_type: 'GitForCausalLM' enabled: True merged_adapters: [] special variables function variables len(): 0 num_adapter_layers: 72 peft_types: {'default': 'LORA'} requires_grad: {'default': True} total_params: 177950778 trainable_params: 1327104

[TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.0.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.0.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.0.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.0.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.0.mlp.fc1'...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.0.mlp.fc2'...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.1.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.1.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.1.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.1.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.1.mlp.fc1'...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.1.mlp.fc2'...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.2.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.2.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.2.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.2.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.2.mlp.fc1'...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.2.mlp.fc2'...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.3.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.3.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.3.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.3.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.3.mlp.fc1'...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.3.mlp.fc2'...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.4.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.4.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.4.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.4.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.4.mlp.fc1'...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.4.mlp.fc2'...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.5.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.5.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.5.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.5.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.5.mlp.fc1'...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.5.mlp.fc2'...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.6.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.6.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.6.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.6.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.6.mlp.fc1'...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.6.mlp.fc2'...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.7.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.7.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.7.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.7.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.7.mlp.fc1'...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.7.mlp.fc2'...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.8.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.8.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.8.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.8.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.8.mlp.fc1'...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.8.mlp.fc2'...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.9.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.9.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.9.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.9.self_att...t': True}, available_adapters=['default']), TunerLayerStatus(name='model.git.image_encoder.vision_model.encoder.layers.9.mlp.fc1'...t': True}, available_adapters=['default']), ...]

Do you have an hint? Thank you!

BenjaminBossan Aug 12, 2024
Maintainer

From these outputs, I don't see anything wrong, although they're a little bit garbled. Would it be possible for you to share the training code?

the losses remain pretty the same

Are they 100% the same or just moving very slowly?

zum8st8 Aug 12, 2024
Author

Hi, sorry I can not share the whole code but a snippet of what I do on the git_vatex_base_model from hugging face. The losses are not 100% the same but basically not changing a lot: for comparison by fine-tuning of the base model the losses decreases from ~11 to 0.1 in 5-10 epochs according to learning rate. The behaviour below is pretty the same if I change the lr in range 10^-2 - 10^-5 (!)

{"train_loss": [11.357749938964844, 11.362075805664062, 11.359086036682129, 11.359424591064453, 11.355558395385742, 11.356078147888184, 11.356535911560059, 11.36178207397461, 11.36110782623291, 11.359647750854492, 11.362436294555664, 11.3628568649292, 11.358939170837402, 11.35700798034668, 11.36064624786377, 11.360136032104492, 11.361286163330078, 11.357857704162598, 11.361380577087402, 11.357486724853516], "val_loss": [11.378623008728027, 11.380529403686523, 11.386737823486328, 11.377673149108887, 11.37908935546875, 11.387561798095703, 11.373541831970215, 11.375514030456543, 11.380685806274414, 11.3773832321167, 11.37151050567627, 11.380703926086426, 11.385034561157227, 11.384566307067871, 11.38491439819336, 11.382623672485352, 11.381474494934082, 11.37785816192627, 11.379292488098145, 11.386744499206543], "test_loss": [11.360305786132812, 11.355127334594727, 11.354066848754883, 11.357526779174805, 11.35528564453125, 11.357337951660156, 11.35957145690918, 11.351337432861328, 11.345673561096191, 11.358471870422363, 11.35316276550293, 11.35776424407959, 11.357684135437012, 11.353288650512695, 11.348787307739258, 11.352616310119629, 11.35669994354248, 11.34734058380127, 11.348527908325195, 11.35284423828125], "val_score": [0.22393333333333335, 0.21163333333333334, 0.21820000000000003, 0.2201, 0.20933333333333332, 0.21676666666666666, 0.24723333333333336, 0.21666666666666667, 0.23013333333333333, 0.2317, 0.21760000000000002, 0.22319999999999998, 0.2277, 0.20623333333333332, 0.2161, 0.2144, 0.20566666666666666, 0.2291, 0.23140000000000002, 0.21913333333333335], "test_score": [0.214875, 0.211875, 0.21196874999999998, 0.20518750000000002, 0.22196875, 0.1999375, 0.20275, 0.19771875, 0.2180625, 0.21421875, 0.19375000000000003, 0.21631250000000002, 0.21334375000000005, 0.20268750000000005, 0.21765625, 0.23396874999999998, 0.19609375000000004, 0.20759375000000002, 0.22243750000000004, 0.21340625]}

def lora(self, lora_config):
        
        # Apply low-rank decomposition using PEFT - documentation about module selections and parameters:
        # https://stackoverflow.com/questions/76768226/target-modules-for-applying-peft-lora-on-different-models
        # https://medium.com/@manyi.yim/more-about-loraconfig-from-peft-581cf54643db
        # modules supported: `torch.nn.Linear`, `torch.nn.Embedding`, `torch.nn.Conv2d`, `transformers.pytorch_utils.Conv1D`
        try:
            # print info about model parameters
            self._info()
            # Predefined layer types and regular expression
            predefined_layer_types = ['Linear', 'Conv2d']  # Add more types as needed
            regex_patterns= 'self_attn|mlp'

            # List to store matching layer names
            matching_layer_names = []

            # Iterate through the named modules
            for name, module in self.model.git.named_modules():
                if any(isinstance(module, getattr(torch.nn, layer_type)) for layer_type in predefined_layer_types) and re.search(regex_patterns, name):
                    matching_layer_names.append(name)

            logging.info(f"{matching_layer_names}")
            
            def get_num_parameters(layer_names):
                total_parameters = 0
                for name, param in self.model.git.named_parameters():
                    if any(layer_name in name for layer_name in layer_names):
                        total_parameters += param.numel()
                return total_parameters
            
            total_parameters = get_num_parameters(matching_layer_names)
            logging.info(f"total parameters : {total_parameters}")
            self.selected_layers=matching_layer_names
            
        except Exception as err:
            logging.error(f"selecting layers for LoRa failed:{err}")
            #sys.exit(1) 
            
        try:
            peft_config = LoraConfig(task_type      = "CAUSAL_LM", 
                                    target_modules  = self.selected_layers,
                                    inference_mode  = False, 
                                    r               = lora_config["rank"], 
                                    lora_alpha      = lora_config["alpha"], 
                                    lora_dropout    = lora_config["dropout"],
                                    bias            = "none")
                                    #modules_to_save =[""] #?  ensures that these modules are serialized alongside the LoRA trainable parameters when using utilities like save_pretrained() 
            self.peft_model = get_peft_model(self.model, peft_config)
            logging.info(f"parameters after LoRa: {self.peft_model.print_trainable_parameters()}")
            
            return self.peft_model
        except Exception as err:
            logging.error(f"LoRa decomposition failed: {err}")
            raise LoRaException("LoRa decomposition failed") `

and the config is "lora_config":{"rank":8,"alpha":16,"dropout":0.05}

Thank you in advance for your Ideas!

BenjaminBossan Aug 12, 2024
Maintainer

Thanks for the additional context. I did a quick check if the model is trainable at all and it appears that yes, it works. Here is a reproducer that closely follows your code for model initialization and then trains a dummy objective:

import re

import requests
import torch
from PIL import Image
from transformers import AutoModelForCausalLM, AutoProcessor, pipeline
from peft import LoraConfig, get_peft_model

processor = AutoProcessor.from_pretrained("microsoft/git-base-vatex")
model = AutoModelForCausalLM.from_pretrained("microsoft/git-base-vatex")

predefined_layer_types = ['Linear', 'Conv2d']  # Add more types as needed
regex_patterns= 'self_attn|mlp'

# List to store matching layer names
matching_layer_names = []

# Iterate through the named modules
for name, module in model.git.named_modules():
    if any(isinstance(module, getattr(torch.nn, layer_type)) for layer_type in predefined_layer_types) and re.search(regex_patterns, name):
        matching_layer_names.append(name)

lora_config = {"rank":8,"alpha":16,"dropout":0.05}
peft_config = LoraConfig(
    task_type      = "CAUSAL_LM", 
    target_modules  = matching_layer_names,
    inference_mode  = False, 
    r               = lora_config["rank"], 
    lora_alpha      = lora_config["alpha"], 
    lora_dropout    = lora_config["dropout"],
    bias            = "none"
)
peft_model = get_peft_model(model, peft_config)

# dummy task to train on
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
text = "this is an image of two cats"
inputs = processor(text, images=image, return_tensors="pt")


if torch.cuda.is_available:
    peft_model.to(0)
    inputs = inputs.to(0)

optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)
for i in range(30):
    optimizer.zero_grad()
    outputs = model(**inputs)
    loss = (outputs.logits ** 2).sum()
    loss.backward()
    optimizer.step()
    print(i, loss.item())

For me, the loss starts out at 11,141,211 and then monotonically decreases to 2,626,418 at epoch 30. Could you try if you can reproduce this?

If yes, this means that the model is not fundamentally broken, but it's more likely related to the training process itself. If it's possible for you to show the training code, I can try to help there.

zum8st8 Aug 12, 2024
Author

Hi, thanks a lot for the example. I used it with an image of mine (somehow couldnt access the one you entered): the losses are indeed reduced rapidly ... I will think about and come to you with elements of the training code. Thanks for the moment!

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

peft on vision-text transformer (GIT model) does not learn! task type not supported? #1958

{{title}}

Replies: 1 comment 5 replies

{{title}}

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

Select a reply

peft on vision-text transformer (GIT model) does not learn! task type not supported? #1958

zum8st8 Jul 25, 2024

Replies: 1 comment · 5 replies

BenjaminBossan Jul 26, 2024 Maintainer

zum8st8 Aug 12, 2024 Author

BenjaminBossan Aug 12, 2024 Maintainer

zum8st8 Aug 12, 2024 Author

BenjaminBossan Aug 12, 2024 Maintainer

zum8st8 Aug 12, 2024 Author

zum8st8
Jul 25, 2024

Replies: 1 comment 5 replies

BenjaminBossan
Jul 26, 2024
Maintainer

zum8st8 Aug 12, 2024
Author

BenjaminBossan Aug 12, 2024
Maintainer

zum8st8 Aug 12, 2024
Author

BenjaminBossan Aug 12, 2024
Maintainer

zum8st8 Aug 12, 2024
Author