Italiano LinguaDue (Jun 2024)
CORPUS «ITAIST»: NOTE PER LO SVILUPPO DI UNA RISORSA LINGUISTICA PER LO STUDIO DELL’ITALIANO ISTITUZIONALE PER IL DIRITTO DI ACCESSO CIVICO
Abstract
Il corpus “ItaIst” è un corpus parallelo che si sta sviluppando nell’ambito del progetto PRIN 2020 “VerbACxSS: su verbi analitici, complessità, verbi sintetici, e semplificazione. Per l’accessibilità” con l’obiettivo di creare una risorsa linguistica, costituita da testi istituzionali scritti in lingua italiana, che servirà a generare altre risorse linguistiche come, ad esempio, repertori di lessici istituzionali e terminologie specialistiche da sviluppare manualmente, semi-automaticamente e automaticamente secondo i principi FAIR (Findable, Accessible, Interoperable, Reusable). Nel contributo si presentano le prime note per lo sviluppo di una risorsa linguistica, collegata al corpus “ItaIst”, costituita da documenti originali scritti in lingua italiana dello specifico dominio terminologico per la “gestione del servizio pubblico dei rifiuti urbani” relativo alle attività d’informazione e comunicazione delle amministrazioni pubbliche. I documenti sono stati raccolti secondo il modello di classificazione dei testi istituzionali “CPI” (Vellutino 2012, 2014, 2018) che distingue i testi dei linguaggi istituzionali speciali per la pubblicità legale e la trasparenza amministrativa dai testi istituzionali mediali per la comunicazione pubblica per il diritto di accesso civico, per l’informazione di pubblica utilità, per la stampa e i canali social. In questa prima fase di studio è stato elaborato e realizzato uno schema di metadatazione con dati amministrativi e strutturali sui tipi di testo istituzionali. Questo schema rappresenta un primo livello di annotazione utile per repertoriare i testi istituzionali per monitorare le specifiche caratteristiche linguistiche e comunicative caratterizzanti le differenti testualità dei linguaggi istituzionali speciali e mediali. Pertanto, la risorsa linguistica creata, corpus “ItaIst-GRU -DdAC”, sarà utilizzata per rilevare informazioni linguistiche per le seguenti finalità: estrarre la terminologia di dominio per creare risorse linguistiche quali lessici istituzionali e schede terminologiche; rilevare la distribuzione dei termini nei diversi tipi di testi istituzionali speciali e mediali; rilevare ed estrarre le frasi complesse da semplificare per creare una risorsa linguistica costituita da coppie di frasi complesse-semplici utile per addestrare e testare un modello di machine learning; rilevare le modalità di sintetizzazione dipendenti dai processi di semplificazione. Corpus ‘ItaIst’: notes for the development of a linguistic resource for the study of institutional written medial Italian The “ItaIst” corpus is a parallel corpus being developed as part of the PRIN 2020 project “VerbACxSS: on analytical verbs, complexity, synthetic verbs, and simplification. For accessibility” with the aim of creating a linguistic resource consisting of institutional texts written in Italian. This resource will serve to generate other linguistic resources, such as institutional lexicon repertoires and specialized terminologies, to be developed manually, semi-automatically, and automatically according to FAIR principles (Findable, Accessible, Interoperable, Reusable). This contribution presents the initial notes for developing a linguistic resource, connected to the “ItaIst” corpus, consisting of original documents written in Italian within the specific terminological domain of “public urban waste management” related to the information and communication activities of public administrations. The documents were collected according to the “CPI” classification model of institutional texts (Vellutino 2012, 2014, 2018), which distinguishes texts of special institutional languages for legal publicity and administrative transparency from institutional media texts for public communication for the right of civic access, public utility information, the press, and social channels. In this initial phase of the study, a metadata schema with administrative and structural data on the types of institutional texts has been developed and implemented. This schema represents a first level of annotation useful for cataloging institutional texts to monitor the specific linguistic and communicative characteristics of the different textualities of special and media institutional languages. Therefore, the created linguistic resource, corpus “ItaIst-GRU -DdAC,” will be used to extract linguistic information for the following purposes: Extract domain terminology to create linguistic resources such as institutional lexicons and terminology records; Detect the distribution of terms in the different types of special and media institutional texts; Detect and extract complex sentences to be simplified to create a linguistic resource consisting of complex-simple sentence pairs useful for training and testing a machine learning model; Detect the modes of synthesis dependent on simplification processes.