Word EMBeddings: From Cognitive Linguistics to Language Engineering, and Back

Responsabile scientifico: Marianna Bolognesi

Logo

Codice Progetto: 2022EPTPJ9_002
Data inizio: 28/09/2023
Data fine: 27/09/2025
CUP: J53D23007100001

Finanziato dall'Unione Europea - NextGenerationEU a valere sul Piano Nazionale di Ripresa e Resilienza (PNRR) – Missione 4 Istruzione e ricerca – Componente 2 Dalla ricerca all’impresa - Investimento 1.1

Nell'ultimo decennio, i progressi nel campo dell'elaborazione del linguaggio naturale (NLP) attraverso tecniche di deep learning hanno migliorato in modo significativo compiti di analisi semantica come la classificazione dei testi, la disambiguazione del senso delle parole, la traduzione automatica, la sintesi dei testi, la risposta alle domande e la sentiment analysis. Questi progressi sono in gran parte attribuibili al concetto di word embedding. I word embeddings sono rappresentazioni del significato delle parole ottenute attraverso coordinate numeriche, note anche come vettori. Gli attuali word embeddings, derivati da grandi corpora testuali, hanno dimostrato la loro efficacia nel risolvere compiti linguistici (e non solo) con risultati spesso comparabili a quelli ottenuti da parlanti umani, ma restano questioni aperte sull’effettiva comparabilità con i meccanismi di elaborazione del linguaggio nella mente umana, visti anche gli “errori” molto diversi, osservabili nel confronto tra compiti svolti da umani e da modelli computazionali che usano word embeddings. 

Il progetto WEMB si pone due macro-obiettivi: in primo luogo, comprendere il modo in cui gli embeddings si allineano ai meccanismi cognitivi della mente umana relativamente alla comprensione del linguaggio e, in secondo luogo, sfruttare questa comprensione per sviluppare una nuova generazione di embeddings. Il progetto utilizza un approccio "dalla mente umana all'applicazione computazionale e viceversa", unendo le competenze di UniBO nell'elaborazione del linguaggio con quelle dell'ISTI-CNR in NLP. WEMB si concentra su tre aspetti chiave: 

  1. Embeddings e Cross-Modality: Indagine sul rapporto tra embeddings che combinano informazioni cross-modali (ad esempio, da testo e immagini), embeddings classici, basati su testi scritti, e cognizione umana. 
  2. Embeddings e Misspellings: Indagine sulla connessione tra embeddings e misspellings, che sono comportamenti linguistici molto frequenti in vari generi testuali. 
  3. Embeddings e sensi delle parole: Indagine sulla relazione tra embeddings e sensi delle parole polisemiche. 

Attraverso queste indagini, WEMB intende contribuire sia alla comprensione teorica degli embeddings nell'elaborazione del linguaggio umano, sia allo sviluppo pratico di embeddings più efficaci, per varie applicazioni NLP.