File size: 3,223 Bytes
d039db5 62c6103 d039db5 62c6103 8e7f8e3 62c6103 6eaba29 9bb1142 d039db5 62c6103 a37d026 9bb1142 a37d026 62c6103 5bbaa27 a0332b7 a37d026 5bbaa27 a37d026 d039db5 a37d026 a5d7627 8d5df44 37684bf a5d7627 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 |
---
license: apache-2.0
datasets:
- Manual-Dataset-Creation-Project/Malum-130
- sudy-super/CoTangent
- llm-jp/oasst1-21k-ja
- llm-jp/oasst2-33k-ja
- Aratako/Rosebleu-1on1-Dialogues-RP
- baobab-trees/wikipedia-human-retrieval-ja
- aixsatoshi/Longcontext-aozora-summary
- aixsatoshi/Longcontext-aozora-instruction
- kunishou/amenokaku-code-instruct
- HachiML/Evol-hh-rlhf-gen3-1k
- minnade/chat-daily
- HachiML/Hachi-Alpaca
- Kendamarron/jimba-wiki-instruction-calm3
---
# Raicho-7B
### Description
Raicho-7Bは、[RakutenAI-7B](https://huggingface.co./Rakuten/RakutenAI-7B)をベースとして[Malum-130](https://huggingface.co./datasets/Manual-Dataset-Creation-Project/Malum-130)を含む約11万件のデータでFine-tuningを行ったモデルです。
### Usage
```python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
B_INST, E_INST = "[INST]", "[/INST]"
text = "旅行に行くと高層ビルがたくさん建っていました。これからどのようなことが推測できますか?"
model_name = "Manual-Dataset-Creation-Project/Raicho-7B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16)
if torch.cuda.is_available():
model = model.to("cuda")
prompt = "{bos_token}{b_inst}{prompt}{e_inst}".format(
bos_token=tokenizer.bos_token,
b_inst=B_INST,
prompt=text,
e_inst=E_INST,
)
with torch.no_grad():
token_ids = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
output_ids = model.generate(
token_ids.to(model.device),
max_new_tokens=256,
pad_token_id=tokenizer.pad_token_id,
eos_token_id=tokenizer.eos_token_id,
)
output = tokenizer.decode(output_ids.tolist()[0][token_ids.size(1) :], skip_special_tokens=True)
print(output)
"""
高層ビルが多く存在する場所は、都市部である可能性が高いです。旅行先の町や地方で高層ビルが多い場合、その地域は大都市であると推測できます。
もし大都市だと仮定すると、公共交通機関が発達しており、駅周辺にオフィスビルが立ち並ぶことが見込めます。よって、旅行先の町や地方で高層ビルが多い場合、その地域は大都市であると推測できます。
"""
```
### Chat Template
#### use_fast = False
```
<s>[INST]明日の東京の天気は何ですか?[/INST]晴れです。</s>[INST]大阪はどうですか?[/INST]雨です。</s>
```
#### use_fast = True
```
<s>[INST]明日の東京の天気は何ですか?[/INST]晴れです。 </s>[INST]大阪はどうですか?[/INST]雨です。 </s>
```
### Hyperparameter
```
num_train_epochs: 5
per_device_train_batch_size: 4
per_device_eval_batch_size: 4
gradient_accumulation_steps: 64
learning_rate: 2.5e-5
lr_scheduler_kwargs={"min_lr": 2.5e-6}
lr_scheduler_type: "cosine_with_min_lr"
warmup_ratio: 0.1
dataloader_pin_memory: True
gradient_checkpointing: True
bf16: True
optim: "adamw_torch_fused"
weight_decay: 0.0
max_grad_norm: 1.0
adam_beta2: 0.99
label_smoothing_factor: 0.0
seed: 42
```
### Author
[Rakuto Suda](https://huggingface.co./sudy-super) |