1 жил өмнө · 702a1e1cc7
--- a/configs/alt-diffusion-m18-inference.yaml
+++ b/configs/alt-diffusion-m18-inference.yaml
@@ -0,0 +1,73 @@
 
															+model:
														
 
															+  base_learning_rate: 1.0e-04
														
 
															+  target: ldm.models.diffusion.ddpm.LatentDiffusion
														
 
															+  params:
														
 
															+    linear_start: 0.00085
														
 
															+    linear_end: 0.0120
														
 
															+    num_timesteps_cond: 1
														
 
															+    log_every_t: 200
														
 
															+    timesteps: 1000
														
 
															+    first_stage_key: "jpg"
														
 
															+    cond_stage_key: "txt"
														
 
															+    image_size: 64
														
 
															+    channels: 4
														
 
															+    cond_stage_trainable: false   # Note: different from the one we trained before
														
 
															+    conditioning_key: crossattn
														
 
															+    monitor: val/loss_simple_ema
														
 
															+    scale_factor: 0.18215
														
 
															+    use_ema: False
														
 
															+
														
 
															+    scheduler_config: # 10000 warmup steps
														
 
															+      target: ldm.lr_scheduler.LambdaLinearScheduler
														
 
															+      params:
														
 
															+        warm_up_steps: [ 10000 ]
														
 
															+        cycle_lengths: [ 10000000000000 ] # incredibly large number to prevent corner cases
														
 
															+        f_start: [ 1.e-6 ]
														
 
															+        f_max: [ 1. ]
														
 
															+        f_min: [ 1. ]
														
 
															+
														
 
															+    unet_config:
														
 
															+      target: ldm.modules.diffusionmodules.openaimodel.UNetModel
														
 
															+      params:
														
 
															+        image_size: 32 # unused
														
 
															+        in_channels: 4
														
 
															+        out_channels: 4
														
 
															+        model_channels: 320
														
 
															+        attention_resolutions: [ 4, 2, 1 ]
														
 
															+        num_res_blocks: 2
														
 
															+        channel_mult: [ 1, 2, 4, 4 ]
														
 
															+        num_head_channels: 64
														
 
															+        use_spatial_transformer: True
														
 
															+        use_linear_in_transformer: True
														
 
															+        transformer_depth: 1
														
 
															+        context_dim: 1024
														
 
															+        use_checkpoint: True
														
 
															+        legacy: False
														
 
															+
														
 
															+    first_stage_config:
														
 
															+      target: ldm.models.autoencoder.AutoencoderKL
														
 
															+      params:
														
 
															+        embed_dim: 4
														
 
															+        monitor: val/rec_loss
														
 
															+        ddconfig:
														
 
															+          double_z: true
														
 
															+          z_channels: 4
														
 
															+          resolution: 256
														
 
															+          in_channels: 3
														
 
															+          out_ch: 3
														
 
															+          ch: 128
														
 
															+          ch_mult:
														
 
															+          - 1
														
 
															+          - 2
														
 
															+          - 4
														
 
															+          - 4
														
 
															+          num_res_blocks: 2
														
 
															+          attn_resolutions: []
														
 
															+          dropout: 0.0
														
 
															+        lossconfig:
														
 
															+          target: torch.nn.Identity
														
 
															+
														
 
															+    cond_stage_config:
														
 
															+      target: modules.xlmr_m18.BertSeriesModelWithTransformation
														
 
															+      params:
														
 
															+        name: "XLMR-Large"
														
--- a/modules/sd_hijack.py
+++ b/modules/sd_hijack.py
@@ -5,7 +5,7 @@ from types import MethodType
 
															 from modules import devices, sd_hijack_optimizations, shared, script_callbacks, errors, sd_unet

														
 
															 from modules.hypernetworks import hypernetwork

														
 
															 from modules.shared import cmd_opts

														
 
															-from modules import sd_hijack_clip, sd_hijack_open_clip, sd_hijack_unet, sd_hijack_xlmr, xlmr

														
 
															+from modules import sd_hijack_clip, sd_hijack_open_clip, sd_hijack_unet, sd_hijack_xlmr, xlmr, xlmr_m18

														
 
															 import ldm.modules.attention

														
 
															 import ldm.modules.diffusionmodules.model

														
@@ -208,11 +208,10 @@ class StableDiffusionModelHijack:
 
															             else:

														
 
															                 m.cond_stage_model = conditioner

														
 
															-        if type(m.cond_stage_model) == xlmr.BertSeriesModelWithTransformation:

														
 
															+        if type(m.cond_stage_model) == xlmr.BertSeriesModelWithTransformation or type(m.cond_stage_model) == xlmr_m18.BertSeriesModelWithTransformation:

														
 
															             model_embeddings = m.cond_stage_model.roberta.embeddings

														
 
															             model_embeddings.token_embedding = EmbeddingsWithFixes(model_embeddings.word_embeddings, self)

														
 
															             m.cond_stage_model = sd_hijack_xlmr.FrozenXLMREmbedderWithCustomWords(m.cond_stage_model, self)

														
 
															-

														
 
															         elif type(m.cond_stage_model) == ldm.modules.encoders.modules.FrozenCLIPEmbedder:

														
 
															             model_embeddings = m.cond_stage_model.transformer.text_model.embeddings

														
 
															             model_embeddings.token_embedding = EmbeddingsWithFixes(model_embeddings.token_embedding, self)

														
@@ -258,7 +257,6 @@ class StableDiffusionModelHijack:
 
															             if hasattr(m, 'cond_stage_model'):

														
 
															                 delattr(m, 'cond_stage_model')

														
 
															-

														
 
															         elif type(m.cond_stage_model) == sd_hijack_xlmr.FrozenXLMREmbedderWithCustomWords:

														
 
															             m.cond_stage_model = m.cond_stage_model.wrapped

														
--- a/modules/sd_models_config.py
+++ b/modules/sd_models_config.py
@@ -21,7 +21,7 @@ config_unopenclip = os.path.join(sd_repo_configs_path, "v2-1-stable-unclip-h-inf
 
															 config_inpainting = os.path.join(sd_configs_path, "v1-inpainting-inference.yaml")

														
 
															 config_instruct_pix2pix = os.path.join(sd_configs_path, "instruct-pix2pix.yaml")

														
 
															 config_alt_diffusion = os.path.join(sd_configs_path, "alt-diffusion-inference.yaml")

														
 
															-

														
 
															+config_alt_diffusion_m18 = os.path.join(sd_configs_path, "alt-diffusion-m18-inference.yaml")

														
 
															 def is_using_v_parameterization_for_sd2(state_dict):

														
 
															     """

														
@@ -95,7 +95,11 @@ def guess_model_config_from_state_dict(sd, filename):
 
															         if diffusion_model_input.shape[1] == 8:

														
 
															             return config_instruct_pix2pix

														
 
															+    

														
 
															+    # import pdb; pdb.set_trace()

														
 
															     if sd.get('cond_stage_model.roberta.embeddings.word_embeddings.weight', None) is not None:

														
 
															+        if sd.get('cond_stage_model.transformation.weight').size()[0] == 1024:

														
 
															+            return config_alt_diffusion_m18

														
 
															         return config_alt_diffusion

														
 
															     return config_default

														
--- a/modules/xlmr_m18.py
+++ b/modules/xlmr_m18.py
@@ -0,0 +1,164 @@
 
															+from transformers import BertPreTrainedModel,BertModel,BertConfig
														
 
															+import torch.nn as nn
														
 
															+import torch
														
 
															+from transformers.models.xlm_roberta.configuration_xlm_roberta import XLMRobertaConfig
														
 
															+from transformers import XLMRobertaModel,XLMRobertaTokenizer
														
 
															+from typing import Optional
														
 
															+
														
 
															+class BertSeriesConfig(BertConfig):
														
 
															+    def __init__(self, vocab_size=30522, hidden_size=768, num_hidden_layers=12, num_attention_heads=12, intermediate_size=3072, hidden_act="gelu", hidden_dropout_prob=0.1, attention_probs_dropout_prob=0.1, max_position_embeddings=512, type_vocab_size=2, initializer_range=0.02, layer_norm_eps=1e-12, pad_token_id=0, position_embedding_type="absolute", use_cache=True, classifier_dropout=None,project_dim=512, pooler_fn="average",learn_encoder=False,model_type='bert',**kwargs):
														
 
															+
														
 
															+        super().__init__(vocab_size, hidden_size, num_hidden_layers, num_attention_heads, intermediate_size, hidden_act, hidden_dropout_prob, attention_probs_dropout_prob, max_position_embeddings, type_vocab_size, initializer_range, layer_norm_eps, pad_token_id, position_embedding_type, use_cache, classifier_dropout, **kwargs)
														
 
															+        self.project_dim = project_dim
														
 
															+        self.pooler_fn = pooler_fn
														
 
															+        self.learn_encoder = learn_encoder
														
 
															+
														
 
															+class RobertaSeriesConfig(XLMRobertaConfig):
														
 
															+    def __init__(self, pad_token_id=1, bos_token_id=0, eos_token_id=2,project_dim=512,pooler_fn='cls',learn_encoder=False, **kwargs):
														
 
															+        super().__init__(pad_token_id=pad_token_id, bos_token_id=bos_token_id, eos_token_id=eos_token_id, **kwargs)
														
 
															+        self.project_dim = project_dim
														
 
															+        self.pooler_fn = pooler_fn
														
 
															+        self.learn_encoder = learn_encoder
														
 
															+
														
 
															+
														
 
															+class BertSeriesModelWithTransformation(BertPreTrainedModel):
														
 
															+
														
 
															+    _keys_to_ignore_on_load_unexpected = [r"pooler"]
														
 
															+    _keys_to_ignore_on_load_missing = [r"position_ids", r"predictions.decoder.bias"]
														
 
															+    config_class = BertSeriesConfig
														
 
															+
														
 
															+    def __init__(self, config=None, **kargs):
														
 
															+        # modify initialization for autoloading 
														
 
															+        if config is None:
														
 
															+            config = XLMRobertaConfig()
														
 
															+            config.attention_probs_dropout_prob= 0.1
														
 
															+            config.bos_token_id=0
														
 
															+            config.eos_token_id=2
														
 
															+            config.hidden_act='gelu'
														
 
															+            config.hidden_dropout_prob=0.1
														
 
															+            config.hidden_size=1024
														
 
															+            config.initializer_range=0.02
														
 
															+            config.intermediate_size=4096
														
 
															+            config.layer_norm_eps=1e-05
														
 
															+            config.max_position_embeddings=514
														
 
															+
														
 
															+            config.num_attention_heads=16
														
 
															+            config.num_hidden_layers=24
														
 
															+            config.output_past=True
														
 
															+            config.pad_token_id=1
														
 
															+            config.position_embedding_type= "absolute"
														
 
															+
														
 
															+            config.type_vocab_size= 1
														
 
															+            config.use_cache=True
														
 
															+            config.vocab_size= 250002
														
 
															+            config.project_dim = 1024
														
 
															+            config.learn_encoder = False
														
 
															+        super().__init__(config)
														
 
															+        self.roberta = XLMRobertaModel(config)
														
 
															+        self.transformation = nn.Linear(config.hidden_size,config.project_dim)
														
 
															+        # self.pre_LN=nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
														
 
															+        self.tokenizer = XLMRobertaTokenizer.from_pretrained('xlm-roberta-large')
														
 
															+        # self.pooler = lambda x: x[:,0]
														
 
															+        # self.post_init()
														
 
															+
														
 
															+        self.has_pre_transformation = True
														
 
															+        if self.has_pre_transformation:
														
 
															+            self.transformation_pre = nn.Linear(config.hidden_size, config.project_dim)
														
 
															+            self.pre_LN = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
														
 
															+        self.post_init()
														
 
															+
														
 
															+    def encode(self,c):
														
 
															+        device = next(self.parameters()).device
														
 
															+        text = self.tokenizer(c,
														
 
															+                        truncation=True,
														
 
															+                        max_length=77,
														
 
															+                        return_length=False,
														
 
															+                        return_overflowing_tokens=False,
														
 
															+                        padding="max_length",
														
 
															+                        return_tensors="pt")
														
 
															+        text["input_ids"] = torch.tensor(text["input_ids"]).to(device)
														
 
															+        text["attention_mask"] = torch.tensor(
														
 
															+            text['attention_mask']).to(device)
														
 
															+        features = self(**text)
														
 
															+        return features['projection_state'] 
														
 
															+
														
 
															+    def forward(
														
 
															+        self,
														
 
															+        input_ids: Optional[torch.Tensor] = None,
														
 
															+        attention_mask: Optional[torch.Tensor] = None,
														
 
															+        token_type_ids: Optional[torch.Tensor] = None,
														
 
															+        position_ids: Optional[torch.Tensor] = None,
														
 
															+        head_mask: Optional[torch.Tensor] = None,
														
 
															+        inputs_embeds: Optional[torch.Tensor] = None,
														
 
															+        encoder_hidden_states: Optional[torch.Tensor] = None,
														
 
															+        encoder_attention_mask: Optional[torch.Tensor] = None,
														
 
															+        output_attentions: Optional[bool] = None,
														
 
															+        return_dict: Optional[bool] = None,
														
 
															+        output_hidden_states: Optional[bool] = None,
														
 
															+    ) :
														
 
															+        r"""
														
 
															+        """
														
 
															+
														
 
															+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
														
 
															+
														
 
															+
														
 
															+        outputs = self.roberta(
														
 
															+            input_ids=input_ids,
														
 
															+            attention_mask=attention_mask,
														
 
															+            token_type_ids=token_type_ids,
														
 
															+            position_ids=position_ids,
														
 
															+            head_mask=head_mask,
														
 
															+            inputs_embeds=inputs_embeds,
														
 
															+            encoder_hidden_states=encoder_hidden_states,
														
 
															+            encoder_attention_mask=encoder_attention_mask,
														
 
															+            output_attentions=output_attentions,
														
 
															+            output_hidden_states=True,
														
 
															+            return_dict=return_dict,
														
 
															+        )
														
 
															+
														
 
															+        # # last module outputs
														
 
															+        # sequence_output = outputs[0]
														
 
															+
														
 
															+
														
 
															+        # # project every module
														
 
															+        # sequence_output_ln = self.pre_LN(sequence_output)
														
 
															+
														
 
															+        # # pooler
														
 
															+        # pooler_output = self.pooler(sequence_output_ln)
														
 
															+        # pooler_output = self.transformation(pooler_output)
														
 
															+        # projection_state = self.transformation(outputs.last_hidden_state)
														
 
															+
														
 
															+        if self.has_pre_transformation:
														
 
															+            sequence_output2 = outputs["hidden_states"][-2]
														
 
															+            sequence_output2 = self.pre_LN(sequence_output2)
														
 
															+            projection_state2 = self.transformation_pre(sequence_output2)
														
 
															+
														
 
															+            return {
														
 
															+                "projection_state": projection_state2,
														
 
															+                "last_hidden_state": outputs.last_hidden_state,
														
 
															+                "hidden_states": outputs.hidden_states,
														
 
															+                "attentions": outputs.attentions,
														
 
															+            }
														
 
															+        else:
														
 
															+            projection_state = self.transformation(outputs.last_hidden_state)
														
 
															+            return {
														
 
															+                "projection_state": projection_state,
														
 
															+                "last_hidden_state": outputs.last_hidden_state,
														
 
															+                "hidden_states": outputs.hidden_states,
														
 
															+                "attentions": outputs.attentions,
														
 
															+            }
														
 
															+            
														
 
															+        
														
 
															+        # return {
														
 
															+        #     'pooler_output':pooler_output,
														
 
															+        #     'last_hidden_state':outputs.last_hidden_state,
														
 
															+        #     'hidden_states':outputs.hidden_states,
														
 
															+        #     'attentions':outputs.attentions,
														
 
															+        #     'projection_state':projection_state,
														
 
															+        #     'sequence_out': sequence_output
														
 
															+        # }
														
 
															+
														
 
															+
														
 
															+class RobertaSeriesModelWithTransformation(BertSeriesModelWithTransformation):
														
 
															+    base_model_prefix = 'roberta'
														
 
															+    config_class= RobertaSeriesConfig