creazione ground truth

In un articolo precedente, abbiamo spiegato come costruire dal punto di vista matematico metriche che permettono di scegliere il miglior modello semantico e di ottimizzare i suoi parametri. Queste metriche sono però basate sull’esistenza di una ground truth:  necessitano cioè di alcuni ordinamenti (di parole, frasi o testi) di riferimento che possano essere considerati corretti e confrontati con l’output del modello.

In rete è possibile trovare dati utili per la valutazione di modelli semantici generici basati sulla lingua inglese. Alla base della ricerca di tipo semantico di Inda abbiamo però un modello semantico verticalizzato sul dominio del recruiting: questo modello è specializzato sul lessico, le locuzioni e i significati semantici tipici dell’ambito del recruiting. Per poter valutare un modello semantico verticalizzato su un ambito particolare (un cosiddetto domain-specific semantic model) – a maggior ragione se si vuole valutarlo su lingue diverse dall’inglese – è necessario raccogliere nuovi dati, che devono essere manualmente compilati da essere umani.

Per questo motivo abbiamo sviluppato un protocollo per raccogliere questi dati in modo da ottimizzare l’accuratezza del data set a parità di numero di compilazioni richieste. Più precisamente, l’obiettivo di tale protocollo è la creazione di un data set contenente elenchi di coppie di parole (ma il metodo può essere generalizzato a coppie di frasi, coppie di testi, ecc.) ordinati sulla base della loro vicinanza semantica e con particolare attenzione ai top rank.

i) Il primo step del protocollo consiste nell’identificare le aree semantiche rilevanti per il nostro downstream task (ovvero l’effettivo obiettivo del modello che vogliamo valutare). Si può notare che, considerando una singola area semantica per volta, si riducono sostanzialmente i problemi legati all’ambiguità semantica.

ii) Il secondo step è la scelta delle parole all’interno di ogni area semantica. In particolare, se vogliamo che il data set sia in grado di rilevare l’hubness problem, dobbiamo includere delle parole rare.

iii) Una volta scelte le parole, possiamo accoppiarle in tutte le combinazioni possibili all’interno di ogni area semantica. Da ora in poi ci riferiremo a una coppia di parole come a un item.

Il grafico in alto rappresenta la distribuzione della cosine similarity per coppie di parole scelte in modo random in tutto il vocabolario (X marroni) e per coppie di parole scelte all’interno di una stessa area semantica (pallini blu). Dal grafico si può notare che, dividendo le parole per area, spostiamo la distribuzione verso valori più alti di similarità: questo significa che aumenta la probabilità di includere item che sono top rank, proprio come desiderato.

iv) L’ultimo step, che è anche il più impegnativo, consiste nell’ordinamento dei gruppi di item precedentemente costruiti, sulla base della vicinanza semantica delle parole che li compongono. Questo richiede la raccolta di molti dati compilati manualmente e un approccio conveniente è il crowdsourcing, che significa affidarsi a un elevato numero di votanti non esperti. A causa della mancanza di esperienza dei votanti, è buona norma formulare domande semplici. Quindi, anziché chiedere ai votanti di ordinare tutti gli item, richiederemo la comparazione di due item alla volta. Dopo aver effettuato un numero consistente di confronti, li combineremo per ottenere l’ordinamento completo.

A questo punto, una domanda importante è: quante volte dovremo presentare ogni item ai votanti? Si tratta di una questione fondamentale perché il numero di volte che un item è confrontato con gli altri determina l’accuratezza della sua posizione dell’ordinamento finale. L’approccio più semplice consiste nel presentare ogni item lo stesso numero di volte. Tuttavia, sapendo che i top rank sono particolarmente importanti, noi preferiamo usare un approccio adattivo per aumentare la loro precisione.

L’idea di base è suddividere il voto in diversi scrutini: il primo scrutinio coinvolge tutti gli item, e ogni item è presentato lo stesso numero di volte ai votanti. Alla fine dello scrutinio, calcoliamo la frequenza di vittoria di ogni item, ordiniamo gli item in base a tale punteggio e selezioniamo una frazione di item con alto punteggio, che saranno presentati ai votanti nello scrutinio successivo. Gli scrutini seguenti saranno analoghi, eccetto per il fatto che il numero di item confrontati diminuisce progressivamente. Bisogna prestare attenzione al fatto che, poiché il gruppo degli item che sono confrontati è progressivamente ristretto attorno ai top rank, per un item diventa sempre più difficile vincere un confronto; tuttavia un rescaling del punteggio può compensare gli effetti di questo fenomeno.

Dopo l’ultimo scrutinio, si ottiene l’ordinamento finale che, come desiderato, è particolarmente accurato per i primi item dell’ordinamento.

Questo metodo è stato testato con l’ausilio di un modello stocastico – che verrà descritto in un articolo successivo – per simulare al computer le comparazioni degli item da parte dei votanti. Per poter verificare i risultati di tali simulazioni con dati effettivamente raccolti da votanti in carne e ossa, abbiamo implementato Lavaember. Questo tool presenta coppie di item (a loro volta composti da coppie di termini suddivisi per aree semantiche) e permette di votare per scegliere l’item composto da termini semanticamente più vicini.

Per tutti i dettagli tecnici, rimandiamo al nostro articolo scientifico Top-Rank-Focused Adaptive Vote Collection for the Evaluation of Domain-Specific Semantic Models, che potete scaricare compilando il form sottostante.

Scarica il paper

I dati forniti verranno trattati a mezzo di strumenti informatici al fine di dare un seguito alla tua richiesta. Inda, in qualità di titolare del trattamento dei dati, assicura che i dati forniti verranno utilizzati solamente per gli scopi indicati (vedi privacy), nel pieno rispetto del Regolamento UE n. 2016/679 (GDPR).

Recent Posts

ATS e intelligenza artificiale
CV anonimo e blind recruitment
lavaember cos'è
creazione ground truth
Natural Language Processing

CONTATTI

+39 011 586 2407
Via Amedeo Avogadro, 20 – Torino
Via Caviglia 11 –  Milano

Copyright © 2021 Inda

Inda è una soluzione di Intervieweb S.r.l. Società del gruppo Zucchetti P.IVA: 10067590017

Privacy policy   Cookie policy