cifre-e-dati-del-progetto.jpp
BIBLIOTECA DIGITALE DELL’INFORMAZIONE GIORNALISTICA
Archivio storico La Stampa on-line dal 1867

Descrizione tecnica del progetto di digitalizzazione

La Biblioteca Digitale dell’Informazione Giornalistica, che ha il suo nucleo nella digitalizzazione dell’intera Collezione delle edizioni La Stampa del periodo 1867‐2005, è stata promossa dal comitato per la Biblioteca Digitale dell’Informazione Giornalistica, composto da Compagnia di San Paolo, Fondazione CRT, Editrice La Stampa e Regione Piemonte.
La Regione Piemonte ha inoltre inserito la Biblioteca dell’Informazione Giornalistica all’interno della Biblioteca Digitale Piemontese, considerandola il naturale veicolo per raccogliere e rendere disponibili tutte le pagine di periodici disponibili (ora e in futuro) in formato digitale.
La digitalizzazione è stata assegnata ad un Raggruppamento di aziende italiane a seguito di una Gara d’Appalto Europea, dove si è scelta la proposta che offriva maggiore completezza e profondità nella digitalizzazione e restituzione di tutti gli elementi che compongono la pagina del giornale.
La digitalizzazione delle collezioni de La Stampa è stata direttamente monitorata e sottoposta a controllo di qualità in ogni sua fase dal Project Manager del Comitato per la Biblioteca Digitale dell’Informazione Giornalistica, in modo da poter intervenire tempestivamente per risolvere eventuali problematiche riscontrate durante le lavorazioni.
Grazie alla realizzazione di tale ambizioso progetto sono state rese disponibili al grande pubblico per la prima volta in Italia:

  • 1.761.343 pagine di giornale, ovvero tutte quelle pubblicate dal quotidiano dal 1867 al 2006, visibili come immagini, scaricabili dal web e stampabili in diversi formati;
  • 5.201.002 articoli di giornale, leggibili e scaricabili dal web, in formato solo testo.

Al progetto di digitalizzazione hanno lavorato quattro tra le principali aziende italiane del settore che, collaborando assiduamente, e svolgendo ciascuna una specifica fase del progetto, hanno portato a completamento con successo il lavoro.
Le aziende partecipanti sono:

  • STI Spa: ha svolto il ruolo di mandataria, coordinando le altre imprese facenti parte del Raggruppamento Temporaneo; inoltre ha trattato il microfilm e quindi digitalizzato oltre la metà del totale delle pagine trattate. Ha anche gestito tutta la parte riguardante l’organizzazione del materiale e il relativo backup;
  • Bassilchi Spa: ha svolto il ruolo di mandante, digitalizzando poco meno della metà delle edizioni del giornale trattate;
  • MicroShop Srl: in qualità di mandante, ha trattato tutte le pagine con il riconoscitore ottico di caratteri (OCR) ed estrapolanto da ogni singola pagina gli articoli principali;
  • Bassnet srl: come mandante, ha ideato e realizzato l’innovativo visualizzatore utilizzabile dagli utenti per la consultazione via web, gestendo tutta la parte software del progetto e i relativi metadati associati a ciascuna pagina;

Partendo dalla copia su microfilm, attraverso un complesso processo, è stato digitalizzato l’intero patrimonio giornalistico de La Stampa. Naturalmente il processo iniziale è evoluto e migliorato nel corso del tempo, sia per affrontare e risolvere le numerose difficoltà riscontrate sia per garantire sempre la massima qualità del prodotto fornito.
In prima istanza le 1631 bobine di microfilm che compongono la Collezione, appositamente duplicate dal master originale, sono state consegnate dal Project Manager del Comitato a STI e Bassilichi affinché procedessero con la digitalizzazione.
Ogni singolo microfilm è stato controllato da personale specializzato che ne ha analizzato la qualità riportando i valori di densità media degli stessi, in maniera da agevolare il personale addetto alla digitalizzazione nella taratura dei parametri di acquisizione.
I microfilm sono stati digitalizzati con scanner Eclipse Kodak per bobine microfilm: questo scanner più veloce rispetto ad altri, effettua scansioni su bobine a 16 e 35 mm, riuscendo ad effettuare un massimo di 300 pagine al minuto.
Le bobine originali di microfilm sono state realizzate nel corso degli anni da fornitori diversi, con modalità produttive non sempre uniformi; pertanto sono state riscontrate problematiche che hanno causato rallentamenti dei processi di digitalizzazione. Infatti, in alcuni casi le bobine presentavano caratteristiche disomogenee tra loro e differenti stati di conservazione; tali variabili non hanno permesso di trattarle tutte nello stesso modo, impedendo, quindi, la standardizzazione del processo, costringendo a settare le apparecchiature utilizzate con parametri diversi per ogni bobina.
Per il progetto sono state prodotte immagini in formato Tiff non compresso con risoluzione a 300dpi (punti per pollice) in toni di grigio. Ogni singolo file/immagine è stato sottoposto a controllo di qualità verificando che le immagini prodotte rispettassero gli standard qualitativi definiti dal Capitolato.
Successivamente, dopo aver superato il precedente collaudo interno, ogni singolo fotogramma/immagine composto da due pagine di giornale è stato ritagliato a metà in modo che ogni singola pagina potesse essere sottoposta alla fase di indicizzazione.
A tale scopo è stato creato un software ad hoc che ha permesso agli operatori di velocizzare la procedura di indicizzazione garantendo un controllo in tempo reale, degli eventuali errori degli stessi durante la fase di data entry. In questa fase gli operatori hanno proceduto ad indicizzare, al fine di garantirne la rintracciabilità totale, le immagini inserendo i seguenti campi: Testata del giornale, Anno di uscita, Numero di uscita, Data di uscita, Numero di pagina. Gli operatori hanno annotato le eventuali anomalie presenti affiche queste fossero valutate ed eventualmente corrette.
In tale fase si sono presentate alcune difficoltà dovute alla presenza di immagini denominate multiple, ovvero presenti più volte all’interno dei microfilm o a inserti in formato fuori standard che hanno costretto a operazioni di rotazione e taglio manuali. In seguito ad uno studio di fattibilità è stato sviluppato un software specifico che ha adeguato la logica di export alle nuove modalità di nomenclatura dei casi particolari.
Terminata la prima fase di acquisizione si è proceduto all’ottimizzazione delle immagini attraverso un software specifico che, per mezzo di un processo batch, ha raddrizzato, scontornato ed eliminato, qualora presenti, le impurità delle immagini generando inoltre altri tre nuovi formati di uscita (Jpeg 300dpi, Jpeg150dpi, Jpeg96dpi). Tale passaggio è stato necessario poiché il formato JPeg a 8 bit è quello che meglio si presta alle elaborazioni grafiche e per la successiva fruizione sul Web, garantendo sempre la massima leggibilità del testo.
Al termine di questa fase è stato messo a disposizione un archivio digitale, che ha una dimensione di 100.000.000 Gbyte (100 Tbyte). Per facilitare le lavorazioni e la gestione logistica l’intero archivio è stato suddiviso in 17 lotti, ciascuno costituito da circa 100.000 immagini, al fine di gestire in maniera ottimale il processo: appena un lotto terminava una fase veniva immediatamente inviato alla successiva, permettendo così la lavorazione contemporanea di più lotti.
Pertanto le immagini, dopo essere state digitalizzate e indicizzate, sono state salvate su supporti hardware, nastri magnetici LTO Ultrium 4, e inviati alla MicroShop per le successive attività. Ogni lotto è costituito da 5 LTO. Ciascuno di tali supporti può contenere fino a 800Gb di dati, con una velocità di trasferimento dati di 120 Mbit/sec, garantendo circa 100.000 passaggi.
Durante la fase successiva, le immagini sono state elaborate, con programmi specifici, da operatori specializzati, al fine di correggerne l'assetto geometrico. Ogni immagine delle singole pagine è stata raddrizzata una seconda volta e scontornata al fine di riportarla all’esatta dimensione originale, ottimizzandola ulteriormente, se necessario, per migliorarne la leggibilità.
Le immagini, suddivise in gruppi di circa 6.000 pagine, sono state immesse in una serie di processi software, governati da un Data Base Relazionale ORACLE, operanti in cascata su 11 Server di cui 6 dedicati al processo OCR (Optical Caracter Recognition) a 64 bit. Nell'arco di 24 ore, per ciascun gruppo, il software analizzando i diversi progetti grafici adottati nel tempo dal quotidiano, ha individuato la mappa grafica di ciascuna pagina, ad esempio l’inizio e la fine di ciascuna colonna componente ogni singolo articolo con le relative coordinate di posizione dei diversi elementi.
Successivamente le pagine sono state trattate con un Software per il Riconoscimento Ottico dei Caratteri, ovvero l’OCR Pro a 64 bit, riconoscendo i caratteri stampati, trasformandoli in testo elaborabile, con percentuale di riconoscimento fino al 97 %. Tale attività è stata svolta grazie all’utilizzo di 6 Server con multi‐processori virtualizzati ed altrettante licenze OCR. I risultati sono stati referenziati in un RDB ORACLE.
Ovviamente in questa fase ha influito notevolmente lo stato di conservazione del materiale cartaceo, da cui sono stati realizzati i microfilm e quindi la digitalizzazione. Infatti, zone con testo sbiadito o inevitabili piegature e strappi della carta, la presenza di macchie di inchiostro o timbri, hanno, a volte, reso il riconoscimento dei caratteri parziale o comunque non completo. In tali casi il materiale è stato trattato diverse volte, al fine di garantire la massima leggibilità, sempre che il carattere fosse intellegibile nell’edizione originale.
La mappa creata dal software ha rilevato per ciascuna pagina: l'area del Logo, il numero e la larghezza delle colonne, la posizione delle aree dei titoli, delle fotografie, delle tabelle e delle didascalie o delle aree immagine (pubblicità, maquette degli spettacoli, rubriche ricorrenti ecc).
Il programma ha riconosciuto la segmentazione degli spezzoni delle colonne per attribuire ad ogni titolo principale le aree ad esso afferenti e costituenti il testo del singolo articolo.
Questo processo automatico è stato quello più critico a causa delle molteplici variabili che ne influenzano i risultati. Infatti il quotidiano nel corso di quasi 150 anni ha subito continue modifiche a livello di strutturazione dei contenuti e degli elementi che li caratterizzano. Si è passati da un giornale a 4 colonne, senza titoli specifici, che veniva letto colonna per colonna, dall’alto al basso, a forme sempre più complesse, a 5, 6, 7, fino a 9 colonne, con titoli e strutture grafiche di impaginazione sempre più complesse e, a volte, difficilmente scomponibili in elementi individuabili in modo automatico. Una delle problematiche riscontrate è stata quella inerente la presenza di grafismi orizzontali: essi interrompono una colonna ma non sempre sono così netti e riconoscibili direttamente dal software. In moltissimi casi, per intere annate, per tali motivi si è resa necessaria una serie di operazioni manuali di verifica e correzione dei risultati della segmentazione automatica.
Tale procedura manuale ha impegnato 24 operatori professionisti, su altrettante postazioni in rete, essi si sono occupati di:

  • correggere gli errori, in uscita dalla procedura automatica, di mappatura e segmentazione, variando i parametri di posizione delle aree relative a ogni articolo;
  • evidenziare e classificare le diverse aree per il loro contenuto (titolo, testi, fotografia, didascalia, pubblicità, annunci ricorrenti, aree da non considerare per la ricerca ecc);
  • evidenziare l'area del titolo principale, i cui caratteri superino il corpo 16 punti PICA;
  • correzione manuale del testo del titolo principale. Infatti, è da sottolineare, che la dimensione del corpo e lo stile dei caratteri utilizzati per i titoli principali, solitamente eccedano la capacità standard di riconoscimento dell'OCR, pertanto sui testi dei titoli il riconoscimento automatico spesso non supera l’80% di correttezza, valore troppo basso per poterli leggere. Pertanto, dato che solitamente il soggetto di cui parla l’articolo o l’argomento principale, sono sintetizzati nel titolo, si è ritenuto fondamentale controllare e correggere manualmente i titoli al fine di garantire la correttezza delle parole che li compongono e quindi renderle disponibili per le ricerche;
  • evidenziare il "segue a pag. XX"ed il "continua a pag. YY" favorendo l'accorpamento manuale tra i due elementi di uno stesso articolo pubblicato in pagine diverse;
  • permettere inoltre agli operatori di creare la corretta sequenza delle aree attinenti un titolo, rendendo possibile l'esportazione del testo di un articolo nella corretta sequenza di lettura.

Infine i dati così suddivisi e organizzati, i cui parametri sono salvati in file in formato XML, vengono processati per l'esportazione nei supporti fisici LTO 4 da 800 Gb. Per tale attività sono stati utilizzati 3 Server i quali impiegano circa 15 ore per l'accorpamento ed il riordino dei dati per ciascun LTO e circa 4/6 ore per copiare i dati su ciascun supporto. Queste elaborazioni sono state realizzate prevalentemente nelle ore notturne e nei week end.
Successivamente ogni lotto di materiale è stato inviato al Project Manager del Comitato il quale, dopo averlo controllato a campione, sia in termini di completezza sia di qualità, l’ha trasferito al CSI Piemonte, che ha provveduto a caricarlo sui server che permettono l’accesso alle pagine attraverso l’apposito software di visualizzazione, realizzato dalla Bassnet.
Ulteriori collaudi sono ancora in corso su tutti i materiali disponibili on‐line e lo saranno per i prossimi due anni, anche grazie alle segnalazioni dei lettori, in modo da migliorare continuamente la qualità delle informazioni disponibili.
L’obiettivo di Bassnet nello sviluppo di un visualizzatore specifico per i quotidiani, è stata l’integrazione delle nuove tecnologie di fruizione con gli standard di settore così da favorire la trasformazione da “rete informativa” a “rete informattiva” per la valorizzazione dell’informazione rendendola interattiva e collaborativa. La soluzione proposta rappresenta una verticalizzazione dell’ambiente software utilizzato per la gestione di un archivio immagini e testi in architettura Enterprise capace di garantire alta affidabilità ed alte prestazioni a scalabilità orizzontale.
La fruizione on‐line dell’archivio storico di tutte le uscite del quotidiano dalla data della sua nascita, ad oggi è possibile grazie alla realizzazione di un sito WEB attrezzato con tutti gli strumenti che consentono di:

  1. accedere in modo facile e rapido a milioni di pagine;
  2. selezionare in modo intelligente nel vasto patrimonio informativo;
  3. ricostituire la buona leggibilità degli articoli danneggiati dal tempo;

Bassnet ha costruito un sito WEB che consente di accedere a tutte le immagini digitali con relativi testi e di utilizzare uno specifico motore di ricerca per la consultazione e la fruizione del contenuto di oltre 5 milioni di articoli dell’intera collezione del quotidiano.
La mole dell’impegno ha richiesto per la realizzazione circa 2 anni di sviluppo per Bassnet, che ha agito in sinergia e cooperazione con gli altri componenti del RTI e con il CSI Piemonte, e reso operativo il sito sulla base di esperienze, richieste, suggerimenti e indicazioni del Comitato per la Biblioteca Digitale dell'Informazione Giornalistica.
Il portale, realizzato rigorosamente in ambiente open source, è stato creato con lo scopo di consentire agli utenti, presentando gli elementi informativi in modo strutturato, una fruizione rapida ed intuitiva delle informazioni ricercate. Sono stati inoltre rispettati i criteri di accessibilità per la fruizione da parte di particolari categorie di utenza (es. disabili) secondo gli standard del W3C e le normative vigenti (Legge Stanca).
Il visualizzatore è uno strumento web appositamente costruito per permettere una rapida consultazione di un risultato della ricerca. La consultazione avviene sfruttando una modalità visuale, in cui l’utente ha la possibilità di leggere l’articolo selezionato direttamente sull’immagine digitalizzata dalla pagina originale del giornale.
L’articolo selezionato sarà evidenziato, per favorire la facile identificazione nella pagina, e le parole chiave ricercate saranno evidenziate sull’articolo.
Le attività effettuate dal CSI Piemonte costituiscono l'ultimo tassello, ma non per questo meno importante, di un complesso processo del ciclo di vita del software di visualizzazione per permettere la consultazione della Biblioteca Digitale. Nello specifico il CSI Piemonte si è occupato di:

  • progettare ed allestire l'infrastruttura architetturale per il deploy e l'erogazione dei servizi;
  • effettuare l'installazione ed il rilascio delle release del software che man mano venivano rilasciate dal RTI;
  • caricare sul sistema dell'Archivio Storico il materiale digitalizzato dal RTI;
  • monitorare il corretto funzionamento del sistema.

Fin da subito il CSI Piemonte ha affiancato il gruppo di lavoro del Comitato e del RTI come supporto tecnico e per stimare i volumi di dati che si sarebbero dovuti gestire e la quantità di accessi da garantire a regime. Sulla base delle informazioni rilevate e delle caratteristiche software del progetto (sistema operativo, middleware, dbms, etc.), il CSI Piemonte ha effettuato uno studio per individuare i requisiti dell'infrastruttura hardware e di rete, e procedere poi ad allestire gli ambienti di test, collaudo e produzione.
Ricevuta la prima release del software dell'Archivio Storico, si è proseguito con le attività volte a misurare le prestazioni del sistema. Per effettuare il test di stress funzionale e di carico, sono stati:

  • inseriti dati fittizi nella quantità inizialmente stimata;
  • individuate le funzionalità più critiche;
  • costruiti i casi di test;
  • eseguiti i casi di test considerando come numero di accessi quelli inizialmente ipotizzati.

Sulla base dei risultati emersi dal test, sono stati effettuati gli opportuni adeguamenti, tarature, alla configurazione architetturale.
Lo stesso processo di test prestazionale è stato ripetuto alla fine del progetto:

  • con l'ultima versione del software dell'Archivio Storico;
  • con i 3 TB di dati reali caricati a sistema (corrispondenti a circa 20.000.000 file tra immagini, testi e metadati) e disponibili per la consultazione online;
  • avendo considerato circa 50.000 consultazioni giornaliere, decisamente più elevate rispetto a quelle inizialmente ipotizzate.

Il cospicuo incremento del numero delle consultazioni attese e la possibilità di effettuare il test sull'intero archivio reale dei dati, ha evidenziato la necessità di incrementare la potenza di calcolo e le risorse elaborative al fine di garantire un buon servizio.
Il progetto dell'Archivio Storico della Stampa, così come altri servizi erogati e gestiti dal CSI Piemonte, è costantemente monitorato in modo da rilevare immediatamente un eventuale disservizio e procedere prontamente alla sua riattivazione.