Edit model card
YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co./docs/hub/model-cards#model-card-metadata)

A base de dados utilizada para treinar o modelo cross-encoder foram duas bases públicas em português. Os corpus ASSIN e ASSIN2 (Avaliação de Similaridade Semântica e inferência textual. Resumo dos conjuntos de dados:

ASSIN - O corpus contém pares de frases extraídas de notícias escritas em português europeu (PE) e português brasileiro (PB), obtidas no Google Notícias Portugal e Brasil, respetivamente. Para a criação do corpus, os autores começaram por recolher um conjunto de notícias que descrevem o mesmo evento (uma notícia do Google Notícias Portugal e outra do Google Notícias Brasil) do Google Notícias. O conjunto de dados completo possui 10.000 pares de frases, metade em português brasileiro (ptbr) e metade em português europeu (ptpt). Qualquer variante de idioma tem 2.500 pares para treinamento, 500 para validação e 2.000 para teste.

ASSIN 2 - O corpus ASSIN 2 é composto por frases bastante simples. Seguindo os procedimentos do SemEval 2014 Tarefa 1. Os dados de treinamento e validação são compostos, respectivamente, por 6.500 e 500 pares de frases em português brasileiro, anotados para vinculação e similaridade semântica. Os valores de similaridade semântica variam de 1 a 5, e as classes de vinculação de texto são vinculação ou nenhuma. Os dados do teste são compostos por aproximadamente 3.000 pares de frases com a mesma anotação. Todos os dados foram anotados manualmente.

Usamos os dados de treinamento, teste e validação da base ASSIN para treinar o modelo, e os dados de test do ASSIN 2 para avaliar.

Config :

Total de exemplos de treino = 10000
Total de exemplos de validação = 2448.
Epochs = 12
max_length = 512
train_batch_size = 16
Tempo de duração ~ 1:30h
Métricas = Correlation:	Pearson: 0.7782	Spearman: 0.7086
Downloads last month
9
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.