llava-hf
/

llava-onevision-qwen2-0.5b-ov-hf

@@ -2,15 +2,15 @@
 language:
 - en
 - zh
-pipeline_tag: image-text-to-text
-inference: false
-arxiv: 2408.03326
 license: apache-2.0
 tags:
 - vision
 - image-text-to-text
 datasets:
 - lmms-lab/LLaVA-OneVision-Data
 ---
 # LLaVA-Onevision Model Card

 language:
 - en
 - zh
 license: apache-2.0
 tags:
 - vision
 - image-text-to-text
 datasets:
 - lmms-lab/LLaVA-OneVision-Data
+pipeline_tag: image-text-to-text
+inference: false
+arxiv: 2408.03326
 ---
 # LLaVA-Onevision Model Card

config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "_name_or_path": "/raid/raushan/ov-500",
   "architectures": [
-    "LlavaNextForConditionalGeneration"
   ],
   "ignore_index": -100,
   "image_grid_pinpoints": [
@@ -151,7 +151,7 @@
     ]
   ],
   "image_token_index": 151646,
-  "model_type": "llava_next",
   "projector_hidden_act": "gelu",
   "text_config": {
     "_name_or_path": "Qwen/Qwen2-0.5B-Instruct",
@@ -162,30 +162,26 @@
     "eos_token_id": 151645,
     "hidden_size": 896,
     "intermediate_size": 4864,
-    "max_position_embeddings": 32768,
     "max_window_layers": 24,
     "model_type": "qwen2",
     "num_attention_heads": 14,
     "num_hidden_layers": 24,
     "num_key_value_heads": 2,
     "rope_theta": 1000000.0,
-    "sliding_window": null,
     "tie_word_embeddings": true,
     "torch_dtype": "bfloat16",
-    "use_sliding_window": false,
     "vocab_size": 152000
   },
   "tie_word_embeddings": false,
   "torch_dtype": "float16",
   "transformers_version": "4.45.0.dev0",
   "use_image_newline_parameter": true,
   "vision_aspect_ratio": "anyres_max_9",
   "vision_config": {
-    "hidden_act": "gelu_pytorch_tanh",
     "hidden_size": 1152,
     "image_size": 384,
     "intermediate_size": 4304,
-    "layer_norm_eps": 1e-06,
     "model_type": "siglip_vision_model",
     "num_attention_heads": 16,
     "num_hidden_layers": 26,

 {
   "_name_or_path": "/raid/raushan/ov-500",
   "architectures": [
+    "LlavaOnevisionForConditionalGeneration"
   ],
   "ignore_index": -100,
   "image_grid_pinpoints": [
     ]
   ],
   "image_token_index": 151646,
+  "model_type": "llava_onevision",
   "projector_hidden_act": "gelu",
   "text_config": {
     "_name_or_path": "Qwen/Qwen2-0.5B-Instruct",
     "eos_token_id": 151645,
     "hidden_size": 896,
     "intermediate_size": 4864,
     "max_window_layers": 24,
     "model_type": "qwen2",
     "num_attention_heads": 14,
     "num_hidden_layers": 24,
     "num_key_value_heads": 2,
     "rope_theta": 1000000.0,
     "tie_word_embeddings": true,
     "torch_dtype": "bfloat16",
     "vocab_size": 152000
   },
   "tie_word_embeddings": false,
   "torch_dtype": "float16",
   "transformers_version": "4.45.0.dev0",
   "use_image_newline_parameter": true,
+  "video_token_index": 151647,
   "vision_aspect_ratio": "anyres_max_9",
   "vision_config": {
     "hidden_size": 1152,
     "image_size": 384,
     "intermediate_size": 4304,
     "model_type": "siglip_vision_model",
     "num_attention_heads": 16,
     "num_hidden_layers": 26,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:735c36a3a8630727bae46fb4ca44cf21296df29361393a341592e90bb6392b01
 size 1787445680

 version https://git-lfs.github.com/spec/v1
+oid sha256:07b3362c3412de79baf2379e44e5b0b2a8f4b965ebebd11d7b5b3eb4450fe96e
 size 1787445680