Update README.md
Browse files
README.md
CHANGED
@@ -1,34 +1,27 @@
|
|
1 |
2023 ์ฑ๊ท ๊ด๋ ํ๊ณ์ง์ค ์ฐํํ๋ ฅํ๋ก์ ํธ VAIV
|
2 |
-
### Github : https://github.com/VAIV-2023/RLHF-Korean-Friendly-LLM
|
3 |
-
|
4 |
## GPT ๊ธฐ๋ฐ์ ์์ฐ์ค๋ฝ๊ณ (Friendly) ์ค๋ฆฌ์ ์ธ(Harmless) ์ผ์ ๋ํํ ์ฑ๋ด ๋ชจ๋ธ
|
|
|
5 |
|
6 |
-
#
|
7 |
-
GPT-NEOX ๊ธฐ๋ฐ ์์ฐ์ค๋ฝ๊ณ ์ค๋ฆฌ์ ์ธ ํ๊ตญ์ด ๊ธฐ๋ฐ ์ผ์ ๋ํํ ์ฑ๋ด ๋ชจ๋ธ ๊ตฌํ
|
|
|
|
|
|
|
8 |
- Self-Instruct: GPT4๋ฅผ ์ด์ฉํ ๋ฐ์ดํฐ ์ฆ๊ฐ
|
9 |
- RLHF(Reinforcement Learning from Human Feedback): ์ฌ๋์ ์ ํธ๋๋ฅผ ๋ฐ์ํ ๊ฐํํ์ต
|
10 |
- DeepSpeed: ๋๊ท๋ชจ ๋ถ์ฐ ๋ฅ๋ฌ๋์ ์ํ ์๋ก์ด ๋ฉ๋ชจ๋ฆฌ ์ต์ ํ ๊ธฐ์
|
11 |
-
|
12 |
-
|
13 |
-
Task
|
14 |
-
Task
|
15 |
-
Task
|
16 |
-
Task 4: RLHF์ DeepSpeedChat์ ํตํ ์ต์ข
๋ชจ๋ธ ๊ตฌํ (https://huggingface.co/Trofish/KULLM-RLHF)
|
17 |
|
18 |
# Task1. ๊ฐํํ์ต ๋จ๊ณ๋ณ ๋ฐ์ดํฐ์
๊ตฌ์ถ
|
19 |
-
![image](https://github.com/VAIV-2023/
|
20 |
-
![
|
21 |
-
|
22 |
-
|
23 |
-
|
24 |
-
- **๊ตญ๋ฆฝ๊ตญ์ด์ ์ผ์ ๋ํ ๋ฐ์ดํฐ์
:** ์ผ์์ ์ธ ๋ํ์ ๋ํ ์์ฐ์ค๋ฌ์ด ์๋ต์ด ์์ผ๋ฉด์๋, ๋ง์ถค๋ฒ์ด ์ ์ง์ผ์ง๊ณ ์์ด, ๋น๋ฌธ, ์ด์ฑ ๋ฑ์ด ์์ผ๋ฉฐ ์ฃผ์ ๋ณ๋ก ๋ค์ํ ๋ํ๊ฐ ์์
|
25 |
-
|
26 |
-
- **AI Hub ํ์ค ํํ ๋ฐ์ดํฐ์
:** ํ์ค, ์ฐจ๋ณ, ์ฑ์ ์ธ ๋ด์ฉ, ํญ๋ ฅ, ๋ฒ์ฃ ๋ฑ ์นดํ
๊ณ ๋ฆฌ๋ณ๋ก ๋ค์ํ ํ์ค ํํ์ด ์์
|
27 |
-
|
28 |
-
- **General task ๋ฐ์ดํฐ์
**
|
29 |
-
- Evol-Instruct ๋ฐ์ดํฐ์
: ๋ค์ํ ๋ถ์ผ์ ๋ํ ๋ณต์กํ๊ณ ๋
ผ๋ฆฌ์ ์ธ prompt์ ๋ต๋ณ์ด ์์
|
30 |
-
- Self-Instruct ๋ฐ์ดํฐ์
: ์ฌ๋์ด ์ง์ ์์ฑํ ์์ง์ Seed data๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฐ์ดํฐ ์ฆ๊ฐ
|
31 |
-
- RLHF ํ๊ตญ์ด ๋ฒ์ญ ๋ฐ์ดํฐ์
: DeepSpeedChat์์ ๊ณต๊ฐํ ๋ฐ์ดํฐ์
์ ํ๊ตญ์ด๋ก ๋ฒ์ญ
|
32 |
|
33 |
# Task2. SFT ๋ชจ๋ธ Fine-tuning
|
34 |
## Baseline Model
|
@@ -46,8 +39,6 @@
|
|
46 |
![image](https://github.com/VAIV-2023/VAIV2023/assets/79634774/a994a960-db7c-4e75-a11a-d7755d372722)
|
47 |
* G-Eval: https://arxiv.org/abs/2303.16634
|
48 |
|
49 |
-
## Final SFT Model
|
50 |
-
- https://huggingface.co/Trofish/KULLM-SFT-v2
|
51 |
|
52 |
# Task3-1. Reward Model ver1 ๊ตฌํ
|
53 |
## Baseline Model
|
@@ -64,33 +55,35 @@
|
|
64 |
- ๋ฐ์ดํฐ์
์ ํ๋ณ๋ก G-Eval ํ๊ฐ Prompt์ ์ฐจ์ด๋ฅผ ๋์์
|
65 |
- ![image](https://github.com/VAIV-2023/RLHF-Korean-Friendly-LLM/assets/79634774/7d7117d0-02e9-42dd-8ce3-5244cf726bf8)
|
66 |
## Reward v1 Model Finetuning
|
67 |
-
|
68 |
- InstructGPT ๋
ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด, Reward ๋ชจ๋ธ์ overfitting๋๋ฉด ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋๋ค๊ณ ํจ --> epoch ์๋ฅผ 1๋ก ์ค์
|
69 |
- batch size๋ learning rate ๋ฑ ๋ค๋ฅธ hyper-parameter๋ ์ฑ๋ฅ์ ํฐ ์ํฅ์ด ์๋ค๊ณ ํจ
|
70 |
- Colab A100 40GB ๊ธฐ์ค ์ด ํ์ต ์๊ฐ 4๋ถ
|
71 |
|
72 |
## Reward v1 Model Evaluation
|
73 |
-
|
|
|
74 |
- Reward Model Template
|
75 |
-
-
|
76 |
|
77 |
-
# Task3-2. Reward Model ver2
|
78 |
-
##
|
79 |
-
- ๊ตฌํ๋ Reward
|
80 |
-
- Reward
|
81 |
|
82 |
-
## Issue ํด๊ฒฐ๋ฐฉ์
|
83 |
-
|
|
|
84 |
- General Task ๋ต๋ณ์ ๋ํ ํ๊ฐ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด Evol-instruct ๋ฐ์ดํฐ ์ถ๊ฐ
|
85 |
-
-
|
86 |
-
- ํ์คํํ ํ์ต์(
|
87 |
- RM-ver1์ GPT4๊ฐ Chosen, Rejected ๋ ์ด๋ธ๋ง์ ์งํํ์์ง๋ง, Resource ์ด์๋ก ์ธํด ์ผ๋ถ๋ง ์ฌ๋์ด ๋ผ๋ฒจ๋ง ์งํ
|
88 |
-
-
|
89 |
- ChatGPT์ SFT ๋ชจ๋ ์ผ๊ด๋๊ฒ ๋์ ํ๋ฆฌํฐ์ ๋ต๋ณ์ ์์ฑํ์ง ์์, ์ฌ๋์ด ์ง์ ๋ผ๋ฒจ๋ง ์งํ
|
90 |
- RLHF ํ๊ตญ์ด ๋ฒ์ญ, Evol-Instruct ๋ฐ์ดํฐ์
|
91 |
-
- ChatGPT๊ฐ ์ผ๊ด๋๊ฒ ๋์ ํ๋ฆฌํฐ์ ๋ต๋ณ์ ์์ฑํ์ฌ ChatGPT๋ฅผ Chosen, SFT๋ฅผ Rejected๋ก ๋ผ๋ฒจ๋ง
|
92 |
-
## Reward Model ver2
|
93 |
-
![image](https://github.com/VAIV-2023/RLHF-Korean-Friendly-LLM/assets/79634774/
|
94 |
|
95 |
# Task4. RLHF์ DeepSpeedChat์ ํตํ ์ต์ข
๋ชจ๋ธ ๊ตฌํ
|
96 |
- Microsoft์์ ๋ง๋ ๋๊ท๋ชจ ๋ถ์ฐ ๋ฅ๋ฌ๋์ ์ํ ์๋ก์ด ๋ฉ๋ชจ๋ฆฌ ์ต์ ํ ๊ธฐ์ (DeepSpeed)์ RLHF Process์ ์ ์ฉํ DeepSpeedChat ์ฌ์ฉ
|
|
|
1 |
2023 ์ฑ๊ท ๊ด๋ ํ๊ณ์ง์ค ์ฐํํ๋ ฅํ๋ก์ ํธ VAIV
|
|
|
|
|
2 |
## GPT ๊ธฐ๋ฐ์ ์์ฐ์ค๋ฝ๊ณ (Friendly) ์ค๋ฆฌ์ ์ธ(Harmless) ์ผ์ ๋ํํ ์ฑ๋ด ๋ชจ๋ธ
|
3 |
+
### Github : https://github.com/VAIV-2023/RLHF-Korean-Friendly-LLM
|
4 |
|
5 |
+
# ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋ชฉ์
|
6 |
+
GPT-NEOX(Polyglot-ko) ๊ธฐ๋ฐ ์์ฐ์ค๋ฝ๊ณ ์ค๋ฆฌ์ ์ธ ํ๊ตญ์ด ๊ธฐ๋ฐ ์ผ์ ๋ํํ ์ฑ๋ด ๋ชจ๋ธ ๊ตฌํ
|
7 |
+
![image](https://github.com/VAIV-2023/RLHF-Korean-Friendly-LLM/assets/79634774/18bb1ab4-8924-4b43-b538-1e6529297217)
|
8 |
+
|
9 |
+
# ๊ฐ๋ฐ ๋ด์ฉ
|
10 |
- Self-Instruct: GPT4๋ฅผ ์ด์ฉํ ๋ฐ์ดํฐ ์ฆ๊ฐ
|
11 |
- RLHF(Reinforcement Learning from Human Feedback): ์ฌ๋์ ์ ํธ๋๋ฅผ ๋ฐ์ํ ๊ฐํํ์ต
|
12 |
- DeepSpeed: ๋๊ท๋ชจ ๋ถ์ฐ ๋ฅ๋ฌ๋์ ์ํ ์๋ก์ด ๋ฉ๋ชจ๋ฆฌ ์ต์ ํ ๊ธฐ์
|
13 |
+
|
14 |
+
- Task 1: ๊ฐํํ์ต ๋จ๊ณ๋ณ ๋ฐ์ดํฐ์
๊ตฌ์ถ
|
15 |
+
- Task 2: SFT ๋ชจ๋ธ Instruction-tuning
|
16 |
+
- Task 3: Reward ๋ชจ๋ธ ver1,2,3 ๊ตฌํ
|
17 |
+
- Task 4: RLHF์ DeepSpeedChat์ ํตํ ์ต์ข
๋ชจ๋ธ ๊ตฌํ (https://huggingface.co/Trofish/KULLM-RLHF)
|
|
|
18 |
|
19 |
# Task1. ๊ฐํํ์ต ๋จ๊ณ๋ณ ๋ฐ์ดํฐ์
๊ตฌ์ถ
|
20 |
+
![image](https://github.com/VAIV-2023/RLHF-Korean-Friendly-LLM/assets/79634774/4bb56e36-0c49-4d15-a2c6-2824867419a8)
|
21 |
+
![Screenshot 2024-06-18 at 11 05 55โฏAM](https://github.com/VAIV-2023/RLHF-Korean-Friendly-LLM/assets/79634774/2f637065-fa25-4402-b319-113ff4c6e1a9)
|
22 |
+
![Screenshot 2024-06-18 at 11 06 08โฏAM](https://github.com/VAIV-2023/RLHF-Korean-Friendly-LLM/assets/79634774/2a6c2e9b-1292-43b9-b5e7-5ced3643988d)
|
23 |
+
|
24 |
+
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
25 |
|
26 |
# Task2. SFT ๋ชจ๋ธ Fine-tuning
|
27 |
## Baseline Model
|
|
|
39 |
![image](https://github.com/VAIV-2023/VAIV2023/assets/79634774/a994a960-db7c-4e75-a11a-d7755d372722)
|
40 |
* G-Eval: https://arxiv.org/abs/2303.16634
|
41 |
|
|
|
|
|
42 |
|
43 |
# Task3-1. Reward Model ver1 ๊ตฌํ
|
44 |
## Baseline Model
|
|
|
55 |
- ๋ฐ์ดํฐ์
์ ํ๋ณ๋ก G-Eval ํ๊ฐ Prompt์ ์ฐจ์ด๋ฅผ ๋์์
|
56 |
- ![image](https://github.com/VAIV-2023/RLHF-Korean-Friendly-LLM/assets/79634774/7d7117d0-02e9-42dd-8ce3-5244cf726bf8)
|
57 |
## Reward v1 Model Finetuning
|
58 |
+
![image](https://github.com/VAIV-2023/RLHF-Korean-Friendly-LLM/assets/79634774/da4d9b15-ec91-44bb-84d9-f28aeffd16ad)
|
59 |
- InstructGPT ๋
ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด, Reward ๋ชจ๋ธ์ overfitting๋๋ฉด ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋๋ค๊ณ ํจ --> epoch ์๋ฅผ 1๋ก ์ค์
|
60 |
- batch size๋ learning rate ๋ฑ ๋ค๋ฅธ hyper-parameter๋ ์ฑ๋ฅ์ ํฐ ์ํฅ์ด ์๋ค๊ณ ํจ
|
61 |
- Colab A100 40GB ๊ธฐ์ค ์ด ํ์ต ์๊ฐ 4๋ถ
|
62 |
|
63 |
## Reward v1 Model Evaluation
|
64 |
+
![image](https://github.com/VAIV-2023/RLHF-Korean-Friendly-LLM/assets/79634774/c21be612-b26d-4a1c-a1e2-6a99442660da)
|
65 |
+
|
66 |
- Reward Model Template
|
67 |
+
- "์๋๋ ์์
์ ์ค๋ช
ํ๋ ๋ช
๋ น์ด์
๋๋ค. ์์ฒญ์ ์ ์ ํ ์๋ฃํ๋ ์๋ต์ ์์ฑํ์ธ์. \n\n ### ๋ช
๋ น์ด:\n{prompt}\n\n ### ์๋ต:\n"
|
68 |
|
69 |
+
# Task3-2. Reward Model ver2 ๊ตฌํ
|
70 |
+
## Reward Model ver1 Issues
|
71 |
+
- ๊ตฌํ๋ Reward Model์ ์ฑ๋ฅ์ด ์ข์ง ์์ (Accuracy 0.65)
|
72 |
+
- Reward Model ver1์ ์ฌ์ฉํ์ฌ Step3 ํ์ต์ ํ์คํํ์ด ์๋๋ฐ๋ ํ์คํํ์ด๋ผ๊ณ ์ธ์ํ๊ณ ๋ต๋ณํ๋ ๋ฌธ์ ๋ฐ์
|
73 |
|
74 |
+
## Issue ํด๊ฒฐ๋ฐฉ์
|
75 |
+
![image](https://github.com/VAIV-2023/RLHF-Korean-Friendly-LLM/assets/79634774/6f4f0665-a8c7-4903-a626-f37018b7e4c9)
|
76 |
+
- SFT ๋ชจ๋ธ๋ก ๋ต๋ณ์ 2๊ฐ ์์ฑํ์์ ๋(Ver1), Chosen, Rejected ๋ต๋ณ์ ์ฐจ์ด๊ฐ ํฌ๊ฒ ์์ด ๋ชจ๋ธ์ด ํ์ต๋์ง ์๋ ํ์์ ๋ฐฉ์งํ๊ธฐ ์ํ์ฌ 2๊ฐ์ ๋ชจ๋ธ **(ChatGPT, SFT)**๋ฅผ ์ฌ์ฉํ์ฌ ๋ต๋ณ์ ์์ฑ(Ver2)
|
77 |
- General Task ๋ต๋ณ์ ๋ํ ํ๊ฐ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด Evol-instruct ๋ฐ์ดํฐ ์ถ๊ฐ
|
78 |
+
- ํ์ต์ ์ฌ์ฉํ ๋ชจ๋ ๋ฐ์ดํฐ์
์ 15 token ์ดํ, cosine ์ ์ฌ๋ 0.5 ์ด์์ผ ๊ฒฝ์ฐ ์ ๊ฑฐํ๋ Filtering ์์
์ํ
|
79 |
+
- ํ์คํํ ํ์ต์(Ver1) Step3 ๊ฐํํ์ต ์ดํ์ ๋ต๋ณ์ด ์ด์ํ๊ฒ ์์ฑ๋๋ Issue๊ฐ ์์ด, ํ์คํํ์ ๋ฐ์ดํฐ๋ฅผ ์ ๊ฑฐํ๊ณ ํ์ต(Ver2)
|
80 |
- RM-ver1์ GPT4๊ฐ Chosen, Rejected ๋ ์ด๋ธ๋ง์ ์งํํ์์ง๋ง, Resource ์ด์๋ก ์ธํด ์ผ๋ถ๋ง ์ฌ๋์ด ๋ผ๋ฒจ๋ง ์งํ
|
81 |
+
- ์ผ์๋ํ ๋ฐ์ดํฐ์
|
82 |
- ChatGPT์ SFT ๋ชจ๋ ์ผ๊ด๋๊ฒ ๋์ ํ๋ฆฌํฐ์ ๋ต๋ณ์ ์์ฑํ์ง ์์, ์ฌ๋์ด ์ง์ ๋ผ๋ฒจ๋ง ์งํ
|
83 |
- RLHF ํ๊ตญ์ด ๋ฒ์ญ, Evol-Instruct ๋ฐ์ดํฐ์
|
84 |
+
- ChatGPT๊ฐ ์ผ๊ด๋๊ฒ ๋์ ํ๋ฆฌํฐ์ ๋ต๋ณ์ ์์ฑํ์ฌ ChatGPT๋ฅผ Chosen, SFT๋ฅผ Rejected๋ก ๋ผ๋ฒจ๋ง ์งํ
|
85 |
+
## Reward Model ver2 Evaluation
|
86 |
+
![image](https://github.com/VAIV-2023/RLHF-Korean-Friendly-LLM/assets/79634774/834cb645-7909-464b-b072-635aaac8eeff)
|
87 |
|
88 |
# Task4. RLHF์ DeepSpeedChat์ ํตํ ์ต์ข
๋ชจ๋ธ ๊ตฌํ
|
89 |
- Microsoft์์ ๋ง๋ ๋๊ท๋ชจ ๋ถ์ฐ ๋ฅ๋ฌ๋์ ์ํ ์๋ก์ด ๋ฉ๋ชจ๋ฆฌ ์ต์ ํ ๊ธฐ์ (DeepSpeed)์ RLHF Process์ ์ ์ฉํ DeepSpeedChat ์ฌ์ฉ
|