word2vec

La corsa globale verso l’automazione e l’integrazione dell’AI nei lavori classici (e spesso ripetitivi) ha iniziato a guadagnare terreno velocemente dal momento in cui si sono verificati tre fattori principali: disponibilità di enormi quantità di dati, raccolti principalmente grazie a Internet, il drammatico aumento del potere computazionale e il rinnovamento di idee matematiche sviluppate nella seconda metà del secolo scorso, rese effettivamente utilizzabili dalle nuove capacità computazionali.

Il linguaggio stesso, da tempo un argomento profondamente studiato e non compreso (non lo è tuttora), ha iniziato il suo viaggio attraverso modelli ed idee di intelligenza artificiale. Gli enormi datasets basati sul testo, resi disponibili da piattaforme quali Wikipedia, Google, Twitter (e molte altre), hanno fornito notevoli spunti riguardo alla comunicazione di concetti, nozioni ed idee da parte degli individui. Tuttavia, ancora oggi, il linguaggio è una questione molto complessa, rendendo perciò errato, al momento, affermare che i modelli di intelligenza artificiale, anche quelli più all’avanguardia, comprendano appieno gli umani. Ciò che potremmo invece dire è che essi ci aiutano significativamente in compiti che pochi anni fa avrebbero richiesto molto più tempo e fatica. Inoltre, con un’attenta ed approfondita ricerca, essi consentono la misurazione e rimozione di bias volontari e involontari.

Questi motivi da soli rendono l’adozione del paradigma AI nell’HR Tech quasi naturale e sinceramente molto promettente. Ma come funziona? Come possiamo integrare la semantica nelle Risorse Umane? In questo articolo spiegheremo Word2Vec, uno dei modelli semantici di base. Su di esso molto è stato scritto e molto altro lo sarà in futuro. Dunque, data questa realtà, in aggiunta ad un limite di pagine rigoroso, vi è poca speranza che io possa dire molto che non sia già stato detto. Pertanto il mio obiettivo non sarà di lodare Word2Vec o di sminuirlo, piuttosto di discutere di come l’AI possa davvero portare benefici all’intero settore delle Risorse Umane,

Le basi di Word2Vec

In generale, il termine Word2Vec viene spesso utilizzato per rappresentare un gruppo di modelli correlati: reti neurali superficiali a due strati che sono addestrate a ricostruire il contesto linguistico delle parole. Tuttavia per semplicità lo useremo per indicare quello nato dalla pubblicazione di Google del 2013.

Word2Vec non è il primo, nè l’ultimo o il miglior modello di NLP, ma ha avuto un impatto enorme sul campo. Una prima idea fondamentale è che le parole possono essere rappresentate matematicamente in uno spazio vettoriale da vettori (embeddings), in genere di diverse centinaia di dimensioni e come tali manipolate. Gli embeddings si ottengono addestrando il modello AI con un presupposto chiave e parzialmente non banale: in un corpus, un insieme ampio e strutturato di testi, le parole trovate in contesti simili sono esse stesse simili, nel senso che condividono lo stesso spazio semantico. Grazie a questa idea il modello può utilizzare efficacemente una delle due architetture del modello per produrre una rappresentazione distribuita di parole: bag-of-words (CBOW) continuo o skip-gram continuo. Mentre il primo rende il modello in grado di predire una parola da una finestra di parole di un contesto circostante (sotto l’ipotesi bag-of-word che l’ordine delle parole di un contesto non influenza le previsioni) il secondo fa il contrario.

Minore è la distanza tra due vettori (due parole), maggiore è la probabilità che essi siano correlati per similarità o per analogia. L’analogia chiave è la seguente: uomo sta a donna come re sta a x. E’ impressionante come si possa semplicemente usare Word2Vec e scoprire che x è uguale a regina. Il modello risolve esercizi di analogia come questo provando tutte le parole x’, nel vocabolario V e trovando la parola che massimizza equazione 1, dove con sim s’intende similarità, che è definita a sua volta nell’equazione 2.

L’intuizione per queste parole deriva dall’esprimere l’analogia come man : woman = king : queen

Il paradigma semantico di Inda HR

Sebbene sia piuttosto sorprendente vedere che un metodo così semplice funzioni così bene, quali sono i vantaggi e le differenze nell’applicazione di questo paradigma nell’HR Tech come succede con Inda (Intelligent Data Analysis)?

Innanzitutto il fatto che esso sia diverso dalle tecnologie precedenti è un vantaggio in sè: richiede molta più ricerca e sviluppo di un approccio classico, ma può portare di conseguenza una reale innovazione nel settore nel suo complesso. Analizzando i CV/Resumes dei candidati e le Job Description, siamo in grado di avere una comprensione più profonda della lingua aprendo così molte nuove possibilità, opportunità e soprattutto, nuove funzionalità.

Mentre fino ad ora un recruiter poteva cercare candidati attraverso parole chiave e ovviamente perdere tutti i candidati i cui CV/Resume non contenessero quelle precise parole chiave cercate, con Inda avrà un elenco molto più completo di candidati pertinenti. Ad esempio si potrebbe semplicemente cercare “intelligenza artificiale” e trovare tutti i CV/Resumes che contengono strettamente queste parole chiave E ANCHE quelli che non le contengono, ma piuttosto condividono lo stesso spazio semantico (come machine learning, python e così via), ordinati con un punteggio di pertinenza (semantico).

Questo nuovo paradigma può inoltre fornire agli utenti di Inda sistemi di raccomandazione basati sul contenutocandidati simili e, potenzialmente, corrispondenza candidato-lavoro. Tali funzionalità velocizzano efficacemente molte attività che richiedono tempo e migliorano notevolmente i risultati, con l’aiuto della conoscenza di settore dell’utente.

Tuttavia, dov’è la parte intelligente di Inda e il suo nuovo paradigma? Non solo il modello analizza in modo efficace documenti complessi basati su testo, ma potrà effettivamente imparare, rendendo possibili soluzioni su misura e migliorabili nel tempo.

Come ultima nota vorrei sottolineare il fatto che Inda è stata inizialmente sviluppata per la lingua italiana (la lingua inglese è in fase di sviluppo), ma potrebbe offrire tutte queste funzionalità non solo per molte più lingue ma anche in modalità inter-lingua con il modello semantico Inda multilingua. Ma di questo argomento parleremo un’altra volta.


Scarica il paper originale “Word Embeddings as First Steps Towards a New Paradigm in HR” redatto da Luca Colombo, Data Scientist di Inda.

Recent Posts

parsing cv e recruiting
benefici dell'intelligenza artificiale nel recruiting
Application form intelligenza artificiale
ricerca e selezione
intelligenza artificiale machine learning

CONTATTI

+39 011 586 2407

Via Amedeo Avogadro, 20 – Torino

Copyright © 2020 Inda

Inda è una soluzione di Intervieweb S.r.l. Società del gruppo Zucchetti P.IVA: 10067590017

Privacy policy   Cookie policy