Paisà

Piattaforma per l'Apprendimento dell'Italiano Su corpora Annotati

Progetto Paisà

Piattaforma per l'Apprendimento dell'Italiano Su corpora Annotati

Progetto FIRB Proposte Progettuali 2007 (n. RBNE072H7L_001)

 

L'obiettivo generale che si pone il progetto PAISÀ (Piattaforma per l'Apprendimento dell'Italiano Su corpora Annotati) consiste nel contribuire a superare le barriere tecnologiche che impediscono agli utenti del web utilizzare un'ampia quantità di testi scritti in italiano contemporaneo per migliorare le proprie conoscenze linguistiche accedendovi in maniera interattiva. Il progetto si rivolge in particolar modo agli emigrati di seconda generazione, che hanno l'italiano come lingua materna ma ne fanno un uso molto limitato, e di terza generazione, che parlano l'italiano come seconda lingua (L2).

Per raggiungere questo obiettivo è stato costituito un ampio corpus di testi web in lingua italiana annotati nel dettaglio. Per la prima volta sono stati utilizzati dei testi liberamente disponibili (licenze creative commons) per costituire il corpus, selezionati in maniera automatica da Internet. In seguito sono stati aggiunti diversi livelli di annotazione (informazioni morfosintattiche, relazioni di dipendenza, ecc.) grazie agli strumenti per il trattamento automatico della lingua (o NLP, natural language processing) che si possono aggiustare e migliorare nel corso del progetto integrando manualmente altre informazioni per l'annotazione.

La versione non annotata del corpus e la versione annotata possono essere scaricate gratuitamente. Inoltre, i parlanti e gli apprendenti della lingua italiana potranno accedere direttamente ai dati attraverso un'interfaccia di ricerca complessa. In tal modo è garantito l'accesso gratuito online a testi che documentano l'uso reale e contemporaneo della lingua italiana.

 

Coordinatore nazionale: Sergio Scalise, Università di Bologna (2009-2012) - Vito Pirrelli, CNR Pisa (2012-2013)

Unità di Ricerca: Università di Bologna, CNR Pisa, Accademia Europea di Bolzano, Università di Trento.

Membri dell'Unità di Bologna: Sergio Scalise (coordinatore 2009-2012, LILEC), Claudia Borghetti (LILEC), Francesca Masini (coordinatore 2012-2013, LILEC).

Sito webhttp://www.corpusitaliano.it/

 

***

 

Paisà

Piattaforma per l'Apprendimento dell'Italiano Su corpora Annotati

FIRB Project (n. RBNE072H7L_001)

 

The overall objective of the project PAISÀ (Piattaforma per l’Apprendimento dell’Italiano Su corpora Annotati) is to overcome the technological barriers currently preventing web users from having interactive access to and use of large quantities of data of contemporary Italian to improve their language skills. The project is particularly targeted to second generation emigrants from Italy who keep Italian as a native language, but in severely limited usage, and third generation emigrants who have Italian as a second language (L2).

To achieve this goal a large and richly annotated corpus of Italian web texts is created. The novelty of the project is using, for the corpus, a freely distributable sample of texts (Creative Commons license), automatically harvested from the web. Subsequently different annotation layers (morphosyntactic information, dependency relations, etc.) are added to the corpus by applying NLP (natural language processing) tools, which get adjusted and improved in the course of the project by integrating manual annotation data.

Raw and annotated versions of the corpus are freely made available for download. In addition, direct access to the data will be provided via a multifaceted query interface for learners and users of Italian, thus fostering free online access to concrete contexts of use of contemporary Italian.

 

PI: Sergio Scalise, University of Bologna (2009-2012) - Vito Pirrelli, CNR Pisa (2012-2013)

Partners: University of Bologna, CNR Pisa, European Academy of Bozen/Bolzano, University of Trento.

Bologna Research UnitMembers: Sergio Scalise (coordinator 2009-2012, LILEC), Claudia Borghetti (LILEC), Francesca Masini (coordinator 2012-2013, LILEC).