Edit model card

You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Log in or Sign Up to review the conditions and access this model content.

More info at : stendhalgpt.fr

Mo# Model Card pour l'identifiant du modèle

Le modèle peut détecter les sites de scam/phishing uniquement en se basant sur leur orthographe.

Détails du modèle

Le modèle a été entraîné à partir de 50 000 noms de domaine, ce qui représente moins de 2% du dataset à ma disposition. Il ne fonctionne actuellement qu'avec les domaines en .fr. Cependant, certaines expressions sur-utilisées affectent la détection de sites officiels en raison de la présence d'un grand nombre de sites frauduleux tels que "info-gov.fr" ou "livraison-colis.fr".

Description du modèle

  • Développé par : Nielzac | Étudiant français
  • Partagé par [optionnel] : Nielzac
  • Type de modèle : Classification
  • Nom du modèle : Talleyrand
  • Langue(s) (NLP) : FR
  • Licence : CC ANC 4.0

Sources du modèle [optionnel]

1 : Site frauduleux 0 : Site légitime

  • Démo [optionnel] : antai-gov.fr : [0.99354464] amendes-paris.fr : [0.9942043] le-bousquet.fr : [0.00631859] amendes-gouv.fr : [0.9967435] hotel-de-paris.fr : [0.00752462] colis-livraison.fr : [0.9986418] antai-gov.fr : [0.99354464] cnil-info.fr : [0.8227607] leclerc.fr : [0.02546518] amd.fr : [0.04804057] paris.fr : [0.6099069]

Utilisations

Vous pouvez l'utiliser uniquement à des fins de test.

Biais, risques et limitations

Il a un fort biais en faveur des sites frauduleux, il se peut que vous devriez le combiner avec une liste de noms de domaine déjà vérifiés.

Comment commencer avec le modèle

import keras  
import tensorflow as tf  
from sklearn.model_selection import train_test_split  
from keras_nlp.tokenizers import UnicodeCodepointTokenizer  
import numpy  as np  

domain_names = []  
  
tokenized_domains_2 = []  
for name in domain_names:  
    tokens = tokenizer.tokenize(name)  
    tokenized_domains_2.append(tokens)  

X_new = keras.utils.data_utils.pad_sequences(tokenized_domains_2, maxlen=26, padding='post')  

# Faire une prédiction sur les noms de domaines  
y_pred = model.predict(X_new)  

# Afficher les prédictions  
for i in range(len(domain_names)):  
    print('{}: {}'.format(domain_names[i], y_pred[i]))  

Détails de l'entraînement

Données d'entraînement

text,label 
19151,soinmiracle.fr,0
45747,alibuyer.cn,1
24797,publii.fr,0
48250,lanmobile.cn,1
26260,ho4people.fr,0
...
11284,nocturnos.fr,0
44732,buy-bitcoin.africa,1
38158,portailpompiersparis.fr,1
860,rl-lyon.fr,0
15795,voujacna.fr,


## Model Card Contact

Contact me at : [email protected] or at stendhalgpt.fr
Downloads last month
0
Inference Examples
Inference API (serverless) does not yet support keras models for this pipeline type.