huyhuy123 commited on
Commit
ce587a8
1 Parent(s): 4e21b45

Add new SentenceTransformer model.

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,553 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language: []
3
+ library_name: sentence-transformers
4
+ tags:
5
+ - sentence-transformers
6
+ - sentence-similarity
7
+ - feature-extraction
8
+ - dataset_size:1K<n<10K
9
+ - loss:TripletLoss
10
+ base_model: sentence-transformers/paraphrase-multilingual-mpnet-base-v2
11
+ metrics:
12
+ - cosine_accuracy
13
+ - dot_accuracy
14
+ - manhattan_accuracy
15
+ - euclidean_accuracy
16
+ - max_accuracy
17
+ widget:
18
+ - source_sentence: Địa điểm nào sau đây được phép đăng ký thường trú mới?
19
+ sentences:
20
+ - 'Địa điểm không được đăng ký thường trú mới
21
+
22
+
23
+ 1. Chỗ ở nằm trong địa điểm cấm, khu vực cấm xây dựng hoặc lấn, chiếm hành lang
24
+ bảo vệ quốc phòng, an ninh, giao thông, thủy lợi, đê điều, năng lượng, mốc giới
25
+ bảo vệ công trình hạ tầng kỹ thuật, di tích lịch sử - văn hóa đã được xếp hạng,
26
+ khu vực đã được cảnh báo về nguy cơ lở đất, lũ quét, lũ ống và khu vực bảo vệ
27
+ công trình khác theo quy định của pháp luật.
28
+
29
+
30
+ 2. Chỗ ở mà toàn bộ diện tích nhà ở nằm trên đất lấn, chiếm trái phép hoặc chỗ
31
+ ở xây dựng trên diện tích đất không đủ điều kiện xây dựng theo quy định của pháp
32
+ luật.
33
+
34
+
35
+ 3. Chỗ ở đã có quyết định thu hồi đất và quyết định phê duyệt phương án bồi thường,
36
+ hỗ trợ và tái định cư của cơ quan nhà nước có thẩm quyền; chỗ ở là nhà ở mà một
37
+ phần hoặc toàn bộ diện tích nhà ở đang có tranh chấp, khiếu nại liên quan đến
38
+ quyền sở hữu, quyền sử dụng nhưng chưa được giải quyết theo quy định của pháp
39
+ luật.
40
+
41
+
42
+ 4. Chỗ ở bị tịch thu theo quyết định của cơ quan nhà nước có thẩm quyền; phương
43
+ tiện được dùng làm nơi đăng ký thường trú đã bị xóa đăng ký phương tiện hoặc không
44
+ có giấy chứng nhận an toàn kỹ thuật và bảo vệ môi trường theo quy định của pháp
45
+ luật.
46
+
47
+
48
+ 5. Chỗ ở là nhà ở đã có quyết định phá dỡ của cơ quan nhà nước có thẩm quyền.'
49
+ - 'Thời điểm bắt đầu tố tụng trọng tài
50
+
51
+
52
+ 1. Trường hợp tranh chấp được giải quyết tại Trung tâm trọng tài, nếu các bên
53
+ không có thỏa thuận khác, thì thời điểm bắt đầu tố tụng trọng tài được tính từ
54
+ khi Trung tâm trọng tài nhận được đơn khởi kiện của nguyên đơn.
55
+
56
+
57
+ 2. Trường hợp tranh chấp được giải quyết bằng Trọng tài vụ việc, nếu các bên không
58
+ có thoả thuận khác, thì thời điểm bắt đầu tố tụng trọng tài được tính từ khi bị
59
+ đơn nhận được đơn khởi kiện của nguyên đơn.'
60
+ - Trường hợp công dân không trong độ tuổi nhập ngũ, nếu đi du học, xuất khẩu lao
61
+ động không cần phải khai báo tạm vắng, đúng hay sai?
62
+ - source_sentence: Đơn vị nào có thẩm quyền cấp giấy phép phân loại phim?
63
+ sentences:
64
+ - 'Phim đã được Bộ Văn hóa, Thể thao và Du lịch, Ủy ban nhân dân cấp tỉnh cấp giấy
65
+ phép phân loại phim sẽ có giá trị trên toàn quốc là đúng hay sai? '
66
+ - 'Vị trí việc làm
67
+
68
+
69
+ 1. Vị trí việc làm là công việc hoặc nhiệm vụ gắn với chức danh nghề nghiệp hoặc
70
+ chức vụ quản lý tương ứng, là căn cứ xác định số lượng người làm việc, cơ cấu
71
+ viên chức để thực hiện việc tuyển dụng, sử dụng và quản lý viên chức trong đơn
72
+ vị sự nghiệp công lập.
73
+
74
+
75
+ 2. Chính phủ quy định nguyên tắc, phương pháp xác định vị trí việc làm, thẩm quyền,
76
+ trình tự, thủ tục quyết định số lượng vị trí việc làm trong đơn vị sự nghiệp công
77
+ lập.'
78
+ - 'Nơi cư trú của người sinh sống, người làm nghề lưu động trên tàu, thuyền hoặc
79
+ phương tiện khác có khả năng di chuyển
80
+
81
+
82
+ 1. Nơi cư trú của người sinh sống, người làm nghề lưu động trên tàu, thuyền hoặc
83
+ phương tiện khác có khả năng di chuyển (sau đây gọi chung là phương tiện) là nơi
84
+ đăng ký phương tiện đó, trừ trường hợp có nơi cư trú khác theo quy định của Luật
85
+ này.
86
+
87
+
88
+ Đối với phương tiện không phải đăng ký hoặc có nơi đăng ký phương tiện không trùng
89
+ với nơi thường xuyên đậu, đỗ thì nơi cư trú của người sinh sống, người làm nghề
90
+ lưu động là nơi phương tiện đó thường xuyên đậu, đỗ.
91
+
92
+
93
+ 2. Chính phủ quy định chi tiết Điều này.'
94
+ - source_sentence: Thỏa thuận trọng tài có độc lập với hợp đồng hay không?
95
+ sentences:
96
+ - 'Tính độc lập của thoả thuận trọng tài
97
+
98
+
99
+ Thoả thuận trọng tài hoàn toàn độc lập với hợp đồng. Việc thay đổi, gia hạn, hủy
100
+ bỏ hợp đồng, hợp đồng vô hiệu hoặc không thể thực hiện được không làm mất hiệu
101
+ lực của thoả thuận trọng tài.'
102
+ - 'Thời điểm chấm dứt hôn nhân và trách nhiệm gửi bản án, quyết định ly hôn
103
+
104
+ 1. Quan hệ hôn nhân chấm dứt kể từ ngày bản án, quyết định ly hôn của Tòa án có
105
+ hiệu lực pháp luật.
106
+
107
+
108
+ 2. Tòa án đã giải quyết ly hôn phải gửi bản án, quyết định ly hôn đã có hiệu lực
109
+ pháp luật cho cơ quan đã thực hiện việc đăng ký kết hôn để ghi vào sổ hộ tịch;
110
+ hai bên ly hôn; cá nhân, cơ quan, tổ chức khác theo quy định của Bộ luật tố tụng
111
+ dân sự và các luật khác có liên quan.'
112
+ - 'Công nhận, ghi chú bản án, quyết định của Tòa án, cơ quan có thẩm quyền của nước
113
+ ngoài về hôn nhân và gia đình
114
+
115
+ 1. Việc công nhận bản án, quyết định về hôn nhân và gia đình của Tòa án nước ngoài
116
+ có yêu cầu thi hành tại Việt Nam được thực hiện theo quy định của Bộ luật tố tụng
117
+ dân sự.
118
+
119
+
120
+ 2. Chính phủ quy định việc ghi vào sổ hộ tịch các việc về hôn nhân và gia đình
121
+ theo bản án, quyết định của Tòa án nước ngoài mà không có yêu cầu thi hành tại
122
+ Việt Nam hoặc không có đơn yêu cầu không công nhận tại Việt Nam; quyết định về
123
+ hôn nhân và gia đình của cơ quan khác có thẩm quyền của nước ngoài.'
124
+ - source_sentence: Cơ sở cai nghiện ma túy công lập phải bố trí các khu gì?
125
+ sentences:
126
+ - 'Cơ sở giáo dục phổ thông
127
+
128
+
129
+ Cơ sở giáo dục phổ thông bao gồm:
130
+
131
+
132
+ 1. Trường tiểu học;
133
+
134
+
135
+ 2. Trường trung học cơ sở;
136
+
137
+
138
+ 3. Trường trung học phổ thông;
139
+
140
+
141
+ 4. Trường phổ thông có nhiều cấp học.'
142
+ - 'Vai trò và trách nhiệm của cán bộ quản lý giáo dục
143
+
144
+
145
+ 1. Cán bộ quản lý giáo dục giữ vai trò quan trọng trong việc tổ chức, quản lý,
146
+ điều hành các hoạt động giáo dục.
147
+
148
+
149
+ 2. Cán bộ quản lý giáo dục có trách nhiệm học tập, rèn luyện, nâng cao phẩm
150
+ chất đạo đức, trình độ chuyên môn, năng lực quản lý và thực hiện các chuẩn, quy
151
+ chuẩn theo quy định của pháp luật.
152
+
153
+
154
+ 3. Nhà nước có kế hoạch xây dựng và nâng cao chất lượng đội ngũ cán bộ quản lý
155
+ giáo dục.'
156
+ - Trường hợp công dân không trong độ tuổi nhập ngũ, nếu đi du học, xuất khẩu lao
157
+ động không cần phải khai báo tạm vắng, đúng hay sai?
158
+ - source_sentence: Có bao nhiêu trình độ giáo dục nghề nghiệp được đào tạo?
159
+ sentences:
160
+ - 'Các trình độ đào tạo giáo dục nghề nghiệp
161
+
162
+
163
+ Giáo dục nghề nghiệp đào tạo trình độ sơ cấp, trình độ trung cấp, trình độ cao
164
+ đẳng và chương trình đào tạo nghề nghiệp khác cho người học, đáp ứng nhu cầu nhân
165
+ lực trực tiếp trong sản xuất, kinh doanh và dịch vụ.'
166
+ - 'Mục tiêu của giáo dục nghề nghiệp
167
+
168
+
169
+ Giáo dục nghề nghiệp nhằm đào tạo nhân lực trực tiếp cho sản xuất, kinh doanh
170
+ và dịch vụ, có năng lực hành nghề tương ứng với trình độ đào tạo; có đạo đức,
171
+ sức khỏe; có trách nhiệm nghề nghiệp; có khả năng sáng tạo, thích ứng với môi
172
+ trường hội nhập quốc tế; bảo đảm nâng cao năng suất, chất lượng lao động; tạo
173
+ điều kiện cho người học sau khi hoàn thành khóa học có khả năng tìm việc làm,
174
+ tự tạo việc làm hoặc học trình độ cao hơn.'
175
+ - 'Chính sách phát triển giáo dục thường xuyên
176
+
177
+
178
+ 1. Nhà nước có chính sách đầu tư phát triển giáo dục thường xuyên, thực hiện giáo
179
+ dục cho mọi người, thúc đẩy việc học tập của người lớn, xây dựng xã hội học tập;
180
+ khuyến khích tổ chức, cá nhân tham gia, cung ứng dịch vụ giáo dục thường xuyên
181
+ có chất lượng, đáp ứng nhu cầu học tập suốt đời của người học.
182
+
183
+
184
+ 2. Cơ quan, tổ chức có trách nhiệm tạo điều kiện thuận lợi cho cán bộ, công chức,
185
+ viên chức và người lao động được thường xuyên học tập, học tập suốt đời để phát
186
+ triển bản thân và nâng cao chất lượng cuộc sống.
187
+
188
+
189
+ 3. Cơ sở giáo dục nghề nghiệp, cơ sở giáo dục đại học có trách nhiệm phối hợp
190
+ với cơ sở giáo dục thường xuyên trong việc cung cấp nguồn học liệu cho cơ sở giáo
191
+ dục thường xuyên để đáp ứng nhu cầu học tập của người học; cơ sở giáo dục đào
192
+ tạo nhà giáo có trách nhiệm nghiên cứu về khoa học giáo dục, đào tạo, bồi dưỡng
193
+ đội ngũ nhà giáo của các cơ sở giáo dục thường xuyên.'
194
+ pipeline_tag: sentence-similarity
195
+ model-index:
196
+ - name: SentenceTransformer based on sentence-transformers/paraphrase-multilingual-mpnet-base-v2
197
+ results:
198
+ - task:
199
+ type: triplet
200
+ name: Triplet
201
+ dataset:
202
+ name: Unknown
203
+ type: unknown
204
+ metrics:
205
+ - type: cosine_accuracy
206
+ value: 0.9980532121998702
207
+ name: Cosine Accuracy
208
+ - type: dot_accuracy
209
+ value: 0.0006489292667099286
210
+ name: Dot Accuracy
211
+ - type: manhattan_accuracy
212
+ value: 0.9980532121998702
213
+ name: Manhattan Accuracy
214
+ - type: euclidean_accuracy
215
+ value: 0.9980532121998702
216
+ name: Euclidean Accuracy
217
+ - type: max_accuracy
218
+ value: 0.9980532121998702
219
+ name: Max Accuracy
220
+ ---
221
+
222
+ # SentenceTransformer based on sentence-transformers/paraphrase-multilingual-mpnet-base-v2
223
+
224
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sentence-transformers/paraphrase-multilingual-mpnet-base-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
225
+
226
+ ## Model Details
227
+
228
+ ### Model Description
229
+ - **Model Type:** Sentence Transformer
230
+ - **Base model:** [sentence-transformers/paraphrase-multilingual-mpnet-base-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2) <!-- at revision 79f2382ceacceacdf38563d7c5d16b9ff8d725d6 -->
231
+ - **Maximum Sequence Length:** 512 tokens
232
+ - **Output Dimensionality:** 768 tokens
233
+ - **Similarity Function:** Cosine Similarity
234
+ <!-- - **Training Dataset:** Unknown -->
235
+ <!-- - **Language:** Unknown -->
236
+ <!-- - **License:** Unknown -->
237
+
238
+ ### Model Sources
239
+
240
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
241
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
242
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
243
+
244
+ ### Full Model Architecture
245
+
246
+ ```
247
+ SentenceTransformer(
248
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
249
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
250
+ )
251
+ ```
252
+
253
+ ## Usage
254
+
255
+ ### Direct Usage (Sentence Transformers)
256
+
257
+ First install the Sentence Transformers library:
258
+
259
+ ```bash
260
+ pip install -U sentence-transformers
261
+ ```
262
+
263
+ Then you can load this model and run inference.
264
+ ```python
265
+ from sentence_transformers import SentenceTransformer
266
+
267
+ # Download from the 🤗 Hub
268
+ model = SentenceTransformer("huyhuy123/paraphrase-vietnamese-law-ALQAC")
269
+ # Run inference
270
+ sentences = [
271
+ 'Có bao nhiêu trình độ giáo dục nghề nghiệp được đào tạo?',
272
+ 'Các trình độ đào tạo giáo dục nghề nghiệp\n\nGiáo dục nghề nghiệp đào tạo trình độ sơ cấp, trình độ trung cấp, trình độ cao đẳng và chương trình đào tạo nghề nghiệp khác cho người học, đáp ứng nhu cầu nhân lực trực tiếp trong sản xuất, kinh doanh và dịch vụ.',
273
+ 'Mục tiêu của giáo dục nghề nghiệp\n\nGiáo dục nghề nghiệp nhằm đào tạo nhân lực trực tiếp cho sản xuất, kinh doanh và dịch vụ, có năng lực hành nghề tương ứng với trình độ đào tạo; có đạo đức, sức khỏe; có trách nhiệm nghề nghiệp; có khả năng sáng tạo, thích ứng với môi trường hội nhập quốc tế; bảo đảm nâng cao năng suất, chất lượng lao động; tạo điều kiện cho người học sau khi hoàn thành khóa học có khả năng tìm việc làm, tự tạo việc làm hoặc học trình độ cao hơn.',
274
+ ]
275
+ embeddings = model.encode(sentences)
276
+ print(embeddings.shape)
277
+ # [3, 768]
278
+
279
+ # Get the similarity scores for the embeddings
280
+ similarities = model.similarity(embeddings, embeddings)
281
+ print(similarities.shape)
282
+ # [3, 3]
283
+ ```
284
+
285
+ <!--
286
+ ### Direct Usage (Transformers)
287
+
288
+ <details><summary>Click to see the direct usage in Transformers</summary>
289
+
290
+ </details>
291
+ -->
292
+
293
+ <!--
294
+ ### Downstream Usage (Sentence Transformers)
295
+
296
+ You can finetune this model on your own dataset.
297
+
298
+ <details><summary>Click to expand</summary>
299
+
300
+ </details>
301
+ -->
302
+
303
+ <!--
304
+ ### Out-of-Scope Use
305
+
306
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
307
+ -->
308
+
309
+ ## Evaluation
310
+
311
+ ### Metrics
312
+
313
+ #### Triplet
314
+
315
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
316
+
317
+ | Metric | Value |
318
+ |:-------------------|:-----------|
319
+ | cosine_accuracy | 0.9981 |
320
+ | dot_accuracy | 0.0006 |
321
+ | manhattan_accuracy | 0.9981 |
322
+ | euclidean_accuracy | 0.9981 |
323
+ | **max_accuracy** | **0.9981** |
324
+
325
+ <!--
326
+ ## Bias, Risks and Limitations
327
+
328
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
329
+ -->
330
+
331
+ <!--
332
+ ### Recommendations
333
+
334
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
335
+ -->
336
+
337
+ ## Training Details
338
+
339
+ ### Training Dataset
340
+
341
+ #### Unnamed Dataset
342
+
343
+
344
+ * Size: 6,160 training samples
345
+ * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>sentence_2</code>
346
+ * Approximate statistics based on the first 1000 samples:
347
+ | | sentence_0 | sentence_1 | sentence_2 |
348
+ |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
349
+ | type | string | string | string |
350
+ | details | <ul><li>min: 9 tokens</li><li>mean: 29.91 tokens</li><li>max: 71 tokens</li></ul> | <ul><li>min: 43 tokens</li><li>mean: 247.68 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 203.09 tokens</li><li>max: 512 tokens</li></ul> |
351
+ * Samples:
352
+ | sentence_0 | sentence_1 | sentence_2 |
353
+ |:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
354
+ | <code>Hướng nghiệp trong giáo dục không nhất thiết phải giúp học sinh có kiến thức về nghề nghiệp và khả năng lựa chọn nghề nghiệp trên cơ sở kết hợp nguyện vọng, sở trường của cá nhân với nhu cầu sử dụng lao động của xã hội, đúng hay sai?</code> | <code>Hướng nghiệp và phân luồng trong giáo dục<br><br>1. Hướng nghiệp trong giáo dục là hệ thống các biện pháp tiến hành trong và ngoài cơ sở giáo dục để giúp học sinh có kiến thức về nghề nghiệp, khả năng lựa chọn nghề nghiệp trên cơ sở kết hợp nguyện vọng, sở trường của cá nhân với nhu cầu sử dụng lao động của xã hội.<br><br>2. Phân luồng trong giáo dục là biện pháp tổ chức hoạt động giáo dục trên cơ sở thực hiện hướng nghiệp trong giáo dục, tạo điều kiện để học sinh tốt nghiệp trung học cơ sở, trung học phổ thông tiếp tục học ở cấp học, trình độ cao hơn hoặc theo học giáo dục nghề nghiệp hoặc tham gia lao động phù hợp với năng lực, điều kiện cụ thể của cá nhân và nhu cầu xã hội, góp phần điều tiết cơ cấu ngành nghề của lực lượng lao động phù hợp với yêu cầu phát triển của đất nước.<br><br>3. Chính phủ quy định chi tiết hướng nghiệp và phân luồng trong giáo dục theo từng giai đoạn phù hợp với nhu cầu phát triển kinh tế - xã hội.</code> | <code>Thẩm quyền, thủ tục thành lập hoặc cho phép thành lập; cho phép hoạt động giáo dục, đình chỉ hoạt động giáo dục; sáp nhập, chia, tách, giải thể nhà trường<br><br>1. Thẩm quyền thành lập trường công lập và cho phép thành lập trường dân lập, trường tư thục được quy định như sau:<br><br>a) Chủ tịch Ủy ban nhân dân cấp huyện quyết định đối với trường mầm non, trường mẫu giáo, trường tiểu học, trường trung học cơ sở, trường phổ thông có nhiều cấp học có cấp học cao nhất là trung học cơ sở, trường phổ thông dân tộc bán trú, trừ trường hợp quy định tại điểm d khoản này;<br><br>b) Chủ tịch Ủy ban nhân dân cấp tỉnh quyết định đối với trường trung học phổ thông, trường phổ thông có nhiều cấp học có cấp học cao nhất là trung học phổ thông, trường phổ thông dân tộc nội trú, trường trung cấp trên địa bàn tỉnh, trừ trường hợp quy định tại điểm c và điểm d khoản này;<br><br>c) Bộ trưởng, Thủ trưởng cơ quan ngang Bộ quyết định đối với trường trung cấp trực thuộc;<br><br>d) Bộ trưởng Bộ Giáo dục và Đào tạo quyết định đối với trường dự bị đại học, cao đẳng sư phạm và trường trực thuộc Bộ; trường mầm non, trường mẫu giáo, trường tiểu học, trường trung học cơ sở, trường trung học phổ thông do cơ quan đại diện ngoại giao nước ngoài, tổ chức quốc tế liên Chính phủ đề nghị;<br><br>đ) Bộ trưởng Bộ Lao động - Thương binh và Xã hội quyết định đối với trường cao đẳng, trừ trường cao đẳng sư phạm;<br><br>e) Thủ tướng Chính phủ quyết định đối với cơ sở giáo dục đại học.<br><br>2. Bộ trưởng Bộ Giáo dục và Đào tạo cho phép hoạt động giáo dục đối với cơ sở giáo dục đại học. Thẩm quyền cho phép hoạt động giáo dục đối với nhà trường ở các cấp học, trình độ đào tạo khác thực hiện theo quy định của Chính phủ.<br><br>3. Người có thẩm quyền thành lập hoặc cho phép thành lập nhà trường có thẩm quyền thu hồi quyết định thành lập hoặc cho phép thành lập, quyết định sáp nhập, chia, tách, giải thể nhà trường. Người có thẩm quyền cho phép hoạt động giáo dục có thẩm quyền quyết định đình chỉ hoạt động giáo dục.<br><br>Trường hợp sáp nhập giữa các nhà trường không do cùng một cấp có thẩm quyền thành lập thì cấp có thẩm quyền cao hơn quyết định; trường hợp cấp có thẩm quyền thành lập ngang nhau thì cấp có thẩm quyền ngang nhau đó thỏa thuận quyết định.<br><br>4. Chính phủ quy định chi tiết điều kiện, thủ tục thành lập hoặc cho phép thành lập; cho phép hoạt động giáo dục, đình chỉ hoạt động giáo dục; sáp nhập, chia, tách, giải thể nhà trường quy định tại các điều 49, 50, 51 và 52 của Luật này.</code> |
355
+ | <code>Chức năng của Trung tâm trọng tài là gì?</code> | <code>Chức năng của Trung tâm trọng tài<br><br>Trung tâm trọng tài có chức năng tổ chức, điều phối hoạt động giải quyết tranh chấp bằng Trọng tài quy chế và hỗ trợ Trọng tài viên về các mặt hành chính, văn phòng và các trợ giúp khác trong quá trình tố tụng trọng tài.</code> | <code>Xác định Toà án có thẩm quyền đối với hoạt động trọng tài<br><br>1. Trường hợp các bên đã có thỏa thuận lựa chọn một Tòa án cụ thể thì Tòa án có thẩm quyền là Tòa án được các bên lựa chọn.<br><br>2. Trường hợp các bên không có thỏa thuận lựa chọn Tòa án thì thẩm quyền của Tòa án được xác định như sau:<br><br>a) Đối với việc chỉ định Trọng tài viên để thành lập Hội đồng trọng tài vụ việc thì Tòa án có thẩm quyền là Tòa án nơi cư trú của bị đơn nếu bị đơn là cá nhân hoặc nơi có trụ sở của bị đơn nếu bị đơn là tổ chức. Trường hợp có nhiều bị đơn thì Tòa án có thẩm quyền là Tòa án nơi cư trú hoặc nơi có trụ sở của một trong các bị đơn đó.<br><br>Trường hợp bị đơn có nơi cư trú hoặc trụ sở ở nước ngoài thì Tòa án có thẩm quyền là Tòa án nơi cư trú hoặc nơi có trụ sở của nguyên đơn;<br><br>b) Đối với việc thay đổi Trọng tài viên của Hội đồng trọng tài vụ việc thì Tòa án có thẩm quyền là Tòa án nơi Hội đồng trọng tài giải quyết tranh chấp;<br><br>c) Đối với yêu cầu giải quyết khiếu nại quyết định của Hội đồng trọng tài về thỏa thuận trọng tài vô hiệu, thỏa thuận trọng tài không thể thực hiện được, thẩm quyền của Hội đồng trọng tài thì Tòa án có thẩm quyền là Tòa án nơi Hội đồng trọng tài ra quyết định;<br><br>d) Đối với yêu cầu Tòa án thu thập chứng cứ thì Tòa án có thẩm quyền là Tòa án nơi có chứng cứ cần được thu thập;<br><br>đ) Đối với yêu cầu Tòa án áp dụng biện pháp khẩn cấp tạm thời thì Tòa án có thẩm quyền là Tòa án nơi biện pháp khẩn cấp tạm thời cần được áp dụng;<br><br>e) Đối với việc triệu tập người làm chứng thì Tòa án có thẩm quyền là Tòa án nơi cư trú của người làm chứng;<br><br>g) Đối với yêu cầu hủy phán quyết trọng tài, đăng ký phán quyết trọng tài vụ việc thì Tòa án có thẩm quyền là Tòa án nơi Hội đồng trọng tài đã tuyên phán quyết trọng tài.<br><br>3. Tòa án có thẩm quyền đối với hoạt động trọng tài quy định tại khoản 1 và khoản 2 Điều này là Tòa án nhân dân tỉnh, thành phố trực thuộc trung ương.</code> |
356
+ | <code>Phát triển giáo dục không phải là quốc sách hàng đầu, đúng hay sai?</code> | <code>Phát triển giáo dục<br><br>1. Phát triển giáo dục là quốc sách hàng đầu.<br><br>2. Phát triển giáo dục phải gắn với nhu cầu phát triển kinh tế - xã hội, tiến bộ khoa học, công nghệ, củng cố quốc phòng, an ninh; thực hiện chuẩn hóa, hiện đại hóa, xã hội hóa; bảo đảm cân đối cơ cấu ngành nghề, trình độ, nguồn nhân lực và phù hợp vùng miền; mở rộng quy mô trên cơ sở bảo đảm chất lượng và hiệu quả; kết hợp giữa đào tạo và sử dụng.<br><br>3. Phát triển hệ thống giáo dục mở, xây dựng xã hội học tập nhằm tạo cơ hội để mọi người được tiếp cận giáo dục, được học tập ở mọi trình độ, mọi hình thức, học tập suốt đời.</code> | <code>Tổ chức và hoạt động giáo dục nghề nghiệp<br><br>Tổ chức và hoạt động giáo dục nghề nghiệp được thực hiện theo quy định của Luật này và Luật Giáo dục nghề nghiệp.<br><br><br><br>Tiểu mục 4<br><br>GIÁO DỤC ĐẠI HỌC</code> |
357
+ * Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
358
+ ```json
359
+ {
360
+ "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
361
+ "triplet_margin": 5
362
+ }
363
+ ```
364
+
365
+ ### Training Hyperparameters
366
+ #### Non-Default Hyperparameters
367
+
368
+ - `eval_strategy`: steps
369
+ - `num_train_epochs`: 1
370
+ - `multi_dataset_batch_sampler`: round_robin
371
+
372
+ #### All Hyperparameters
373
+ <details><summary>Click to expand</summary>
374
+
375
+ - `overwrite_output_dir`: False
376
+ - `do_predict`: False
377
+ - `eval_strategy`: steps
378
+ - `prediction_loss_only`: True
379
+ - `per_device_train_batch_size`: 8
380
+ - `per_device_eval_batch_size`: 8
381
+ - `per_gpu_train_batch_size`: None
382
+ - `per_gpu_eval_batch_size`: None
383
+ - `gradient_accumulation_steps`: 1
384
+ - `eval_accumulation_steps`: None
385
+ - `learning_rate`: 5e-05
386
+ - `weight_decay`: 0.0
387
+ - `adam_beta1`: 0.9
388
+ - `adam_beta2`: 0.999
389
+ - `adam_epsilon`: 1e-08
390
+ - `max_grad_norm`: 1
391
+ - `num_train_epochs`: 1
392
+ - `max_steps`: -1
393
+ - `lr_scheduler_type`: linear
394
+ - `lr_scheduler_kwargs`: {}
395
+ - `warmup_ratio`: 0.0
396
+ - `warmup_steps`: 0
397
+ - `log_level`: passive
398
+ - `log_level_replica`: warning
399
+ - `log_on_each_node`: True
400
+ - `logging_nan_inf_filter`: True
401
+ - `save_safetensors`: True
402
+ - `save_on_each_node`: False
403
+ - `save_only_model`: False
404
+ - `restore_callback_states_from_checkpoint`: False
405
+ - `no_cuda`: False
406
+ - `use_cpu`: False
407
+ - `use_mps_device`: False
408
+ - `seed`: 42
409
+ - `data_seed`: None
410
+ - `jit_mode_eval`: False
411
+ - `use_ipex`: False
412
+ - `bf16`: False
413
+ - `fp16`: False
414
+ - `fp16_opt_level`: O1
415
+ - `half_precision_backend`: auto
416
+ - `bf16_full_eval`: False
417
+ - `fp16_full_eval`: False
418
+ - `tf32`: None
419
+ - `local_rank`: 0
420
+ - `ddp_backend`: None
421
+ - `tpu_num_cores`: None
422
+ - `tpu_metrics_debug`: False
423
+ - `debug`: []
424
+ - `dataloader_drop_last`: False
425
+ - `dataloader_num_workers`: 0
426
+ - `dataloader_prefetch_factor`: None
427
+ - `past_index`: -1
428
+ - `disable_tqdm`: False
429
+ - `remove_unused_columns`: True
430
+ - `label_names`: None
431
+ - `load_best_model_at_end`: False
432
+ - `ignore_data_skip`: False
433
+ - `fsdp`: []
434
+ - `fsdp_min_num_params`: 0
435
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
436
+ - `fsdp_transformer_layer_cls_to_wrap`: None
437
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
438
+ - `deepspeed`: None
439
+ - `label_smoothing_factor`: 0.0
440
+ - `optim`: adamw_torch
441
+ - `optim_args`: None
442
+ - `adafactor`: False
443
+ - `group_by_length`: False
444
+ - `length_column_name`: length
445
+ - `ddp_find_unused_parameters`: None
446
+ - `ddp_bucket_cap_mb`: None
447
+ - `ddp_broadcast_buffers`: False
448
+ - `dataloader_pin_memory`: True
449
+ - `dataloader_persistent_workers`: False
450
+ - `skip_memory_metrics`: True
451
+ - `use_legacy_prediction_loop`: False
452
+ - `push_to_hub`: False
453
+ - `resume_from_checkpoint`: None
454
+ - `hub_model_id`: None
455
+ - `hub_strategy`: every_save
456
+ - `hub_private_repo`: False
457
+ - `hub_always_push`: False
458
+ - `gradient_checkpointing`: False
459
+ - `gradient_checkpointing_kwargs`: None
460
+ - `include_inputs_for_metrics`: False
461
+ - `eval_do_concat_batches`: True
462
+ - `fp16_backend`: auto
463
+ - `push_to_hub_model_id`: None
464
+ - `push_to_hub_organization`: None
465
+ - `mp_parameters`:
466
+ - `auto_find_batch_size`: False
467
+ - `full_determinism`: False
468
+ - `torchdynamo`: None
469
+ - `ray_scope`: last
470
+ - `ddp_timeout`: 1800
471
+ - `torch_compile`: False
472
+ - `torch_compile_backend`: None
473
+ - `torch_compile_mode`: None
474
+ - `dispatch_batches`: None
475
+ - `split_batches`: None
476
+ - `include_tokens_per_second`: False
477
+ - `include_num_input_tokens_seen`: False
478
+ - `neftune_noise_alpha`: None
479
+ - `optim_target_modules`: None
480
+ - `batch_eval_metrics`: False
481
+ - `batch_sampler`: batch_sampler
482
+ - `multi_dataset_batch_sampler`: round_robin
483
+
484
+ </details>
485
+
486
+ ### Training Logs
487
+ | Epoch | Step | Training Loss | max_accuracy |
488
+ |:------:|:----:|:-------------:|:------------:|
489
+ | 0.1299 | 100 | - | 0.9883 |
490
+ | 0.2597 | 200 | - | 0.9929 |
491
+ | 0.3896 | 300 | - | 0.9968 |
492
+ | 0.5195 | 400 | - | 0.9987 |
493
+ | 0.6494 | 500 | 0.696 | 1.0 |
494
+ | 0.7792 | 600 | - | 0.9981 |
495
+ | 0.9091 | 700 | - | 0.9981 |
496
+ | 1.0 | 770 | - | 0.9981 |
497
+
498
+
499
+ ### Framework Versions
500
+ - Python: 3.10.12
501
+ - Sentence Transformers: 3.0.0
502
+ - Transformers: 4.41.1
503
+ - PyTorch: 2.3.0+cu121
504
+ - Accelerate: 0.30.1
505
+ - Datasets: 2.19.2
506
+ - Tokenizers: 0.19.1
507
+
508
+ ## Citation
509
+
510
+ ### BibTeX
511
+
512
+ #### Sentence Transformers
513
+ ```bibtex
514
+ @inproceedings{reimers-2019-sentence-bert,
515
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
516
+ author = "Reimers, Nils and Gurevych, Iryna",
517
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
518
+ month = "11",
519
+ year = "2019",
520
+ publisher = "Association for Computational Linguistics",
521
+ url = "https://arxiv.org/abs/1908.10084",
522
+ }
523
+ ```
524
+
525
+ #### TripletLoss
526
+ ```bibtex
527
+ @misc{hermans2017defense,
528
+ title={In Defense of the Triplet Loss for Person Re-Identification},
529
+ author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
530
+ year={2017},
531
+ eprint={1703.07737},
532
+ archivePrefix={arXiv},
533
+ primaryClass={cs.CV}
534
+ }
535
+ ```
536
+
537
+ <!--
538
+ ## Glossary
539
+
540
+ *Clearly define terms in order to be accessible across audiences.*
541
+ -->
542
+
543
+ <!--
544
+ ## Model Card Authors
545
+
546
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
547
+ -->
548
+
549
+ <!--
550
+ ## Model Card Contact
551
+
552
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
553
+ -->
config.json ADDED
@@ -0,0 +1,29 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "sentence-transformers/paraphrase-multilingual-mpnet-base-v2",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "gradient_checkpointing": false,
11
+ "hidden_act": "gelu",
12
+ "hidden_dropout_prob": 0.1,
13
+ "hidden_size": 768,
14
+ "initializer_range": 0.02,
15
+ "intermediate_size": 3072,
16
+ "layer_norm_eps": 1e-05,
17
+ "max_position_embeddings": 514,
18
+ "model_type": "xlm-roberta",
19
+ "num_attention_heads": 12,
20
+ "num_hidden_layers": 12,
21
+ "output_past": true,
22
+ "pad_token_id": 1,
23
+ "position_embedding_type": "absolute",
24
+ "torch_dtype": "float32",
25
+ "transformers_version": "4.41.1",
26
+ "type_vocab_size": 1,
27
+ "use_cache": true,
28
+ "vocab_size": 250002
29
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "2.0.0",
4
+ "transformers": "4.7.0",
5
+ "pytorch": "1.9.0+cu102"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:16221003308541f35f76b9741712a4757d401abe100cb3c1b750d65cfe06c53d
3
+ size 1112197096
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,61 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "mask_token": "<mask>",
49
+ "max_length": 128,
50
+ "model_max_length": 128,
51
+ "pad_to_multiple_of": null,
52
+ "pad_token": "<pad>",
53
+ "pad_token_type_id": 0,
54
+ "padding_side": "right",
55
+ "sep_token": "</s>",
56
+ "stride": 0,
57
+ "tokenizer_class": "XLMRobertaTokenizer",
58
+ "truncation_side": "right",
59
+ "truncation_strategy": "longest_first",
60
+ "unk_token": "<unk>"
61
+ }