Google Books mette in pericolo il patrimonio librario mondiale, ecco perché

[Ne ho parlato anche ieri qua, ma ho bisogno di dare sfogo a un urlo di dolore che mi pare ancora incompreso dai più!].

apt_bookscan_1200_lrg

Google BooksCaro Editore, cara Biblioteca, firma qui, che così io vengo e ti digitalizzo tutto gratuitamente e in poco tempo! In questo modo faccio un servizio enorme alla cultura, preservando per i millenni che verranno un sapere che se affidato alla sola carta rischia di deperire e scomparire. Inoltre consento la circolazione di tutto questo sapere che resta spesso inaccessibile, introvabile, recluso ai più. In cambio ti chiedo solo di consentirmi di usare i testi digitalizzati per alimentare il mio motore di ricerca specializzato sui libri. Certo, io ci metterò su la pubblicità, e magari in futuro venderò quei libri, dando una parte a te, facendoli leggere online o cose del genere. Ma tu in cambio ti ritroverai un intero archivio digitale, per sempre, e gratis, di tutti i tuoi libri presenti e futuri!

EditoreUhm…

BibliotecaUhm…

Google BooksCoraggio, perfino Harvard, e questo e quell’altro, perfino la Bodleian Library di Oxford, e ora perfino quegli sciovinisti della Bibliothèque Nationale de France, hanno tutti aderito, che aspetti?

Editore, BibliotecaMa poi tu diventi troppo forte, ma poi tu ci guadagni tanto e noi poco, ma poi blablabla (continua con una sequela di banalità e idiozie, tanto che, dopo un po’, all’unisono)OKAY, CI HAI CONVINTO, DIGITALIZZACI TUTTI!

Clicca per ingrandire e renderti conto con un esempio a caso

Clicca per ingrandire e renderti conto con un esempio a caso

Morale: tutti discutono del progetto Google Books da tutti i punti di vista (in genere soprattutto da quello dei soldi, chi ci guadagna cosa come e quanto). Nessuno a quanto pare, NESSUNO, si è premurato di dare un’occhiata alla qualità vergognosa delle digitalizzazioni fatte da Google. E questo dovrebbe essere l’archivio del sapere che affidiamo alle generazioni future? Per quanto mi riguarda è un progetto da boicottare.

post<li>

29 comments ↓

#1 Gianluca on 08.28.09 at 13:26

Sono pienamente d’accordo con te.
Ne parlerò con tutti i miei conoscenti.

#2 massimo mantellini on 08.28.09 at 13:35

E’ vero me lo dice spesso anche mia moglie che le digitalizzazioni di Google books spesso fanno schifo. Pero’ prima volta che ci vediamo ti faccio vedere la qualita’ delle scansioni e delle fotocopie inviate “a pagamento” da grandi biblioteche di tutta europa. Ed in ogni caso non capisco bene tutto questo cosa c’entri con il progetto in se’. Batsera’ digitalizzare meglio no?

#3 Alessandro Nasini on 08.28.09 at 13:57

Mi occupo di archiviazione ottica da quando gli scanner andavano a carbone e posso garantire una cosa: per fare una buona digitalizzazione serve tempo, cura ed attenzione anche utilizzando il top della tecnologia. c’è un solo modo per ridurre drasticamente i costi, ed è ridurre la qualità. chi racconta storie diverse lo fa in malafede.

#4 Antonio Tombolini on 08.28.09 at 14:22

Massimo, certo che basterebbe digitalizzare bene per rendere buono il progetto (tutto il resto sono chiacchiere di retroguardia). Ma il punto è quello illustrato qui sopra da Alessandro: fare una buona digitalizzazione, affidabile a fini archivistici e di tutela del bene, costa, e non è quello che fa Google. Che andrebbe anche bene se fosse un di più, a fini di “consumo” immediato, ma: da un lato Google spaccia la cosa come filantropia (leggi le pelose note che antepone ai file epub in download); dall’altra biblioteche editori e istituzioni fanno finta di crederci, raccontando in giro che hanno digitalizzato il loro archivio, per non affrontare il problema degli investimenti necessari a farlo seriamente.

#5 Aubrey on 08.28.09 at 14:24

Caro Antonio,
in questi giorni sono stato a IFLA, dove come immaginerai c’è stato un gran parlare di tutto questo.
Il discorso con Google è complesso, ci sono pro e contro della situazione e bisognerebbe discuterne tutti i vari aspetti.
Per quanto mi riguarda, la critica che tu fai forse lascia il tempo che trova perchè (io spero), nel contratto di ogni biblioteca saranno comprese anche le specifiche di risoluzione e qualità dell’immagine. Dato che la tecnologia è abbondantemente presente, e dato che tutti i grossi scanner da “mass digitization” scansionano dai 300 ai 400ppi, con abbondanti mega per ogni pagina, la risoluzione di ogni immagine dovrebbe essere buona di defult. Quello che tu forse lamenti, a ragione, è il discorso dell’OCR. Se capisco bene, bhè, questo non è un problema solo di Google. Anche Internet Archive ha un OCR spesso penoso, e sinceramente l’unica alternativa che io vedo (da qualche anno a questa parte) è una rilettura umana del testo: progetti come Distributed Proofreaders o Wikisource, permettono agli utenti di rileggere i libri e validare la trascrizione. Ovvio che la velocità di una rilettura umana è enormemente basso, rispetto ad una macchina, ma per ora non vedo software rivoluzionari che fanno i miracoli.
Ad ogni modo, mi sembrano problemi non solo del progetto Google Books, e in un qualche modo possiamo sperare che il software OCR Tesseract di Google riceva una bella botta di finanziamenti e sviluppi.
Una cosa più importante, di cui si parla poco, è la licenza con cui saranno rilasciate le copie digitali alle biblioteche.
Che licenze sono, che restrizioni hanno, che diritti si terrà Google? E’ una questione (a me) non chiara, e questa forse farà la differenza.
Chi vivrà vedrà. Ma non dobbiamo sottovalutare che, con il Google Book Search Settlement (per ora valido solo in America) per la prima volta si parla di regolarizzare il mercato di libri digitali non in pubblico dominio. E’ una svolta epocale, IMHO, e dobbiamo ancora capirne bene tutte le conseguenze.

#6 massimo mantellini on 08.28.09 at 15:13

io saro’ anche fesso e credulone ma dal punto di vista dell’utilizzatore finale ;) la filantropia di una iniziativa del genere la vedo. Se poi applichiamo il tutto ad un paese come il nostro dove le biblioteche non hanno soldi per far nulla (e verosimilmente continueranno a non averne) allora non vedo grandi alternative concretamente percorribili.

#7 dedo on 08.28.09 at 15:14

I colossi come Google dovrebbero scannerizzare a costo bassissimo con i loro macchinari. Il proofreading dovrebbe poi essere a carico delle biblioteche (un lavoraccio!).

La domanda vera è: vale la candela spendere tutti questi soldi (pubblici per lo più) per preservare ai posteri le rime di una cortigiana spagnola del XVI secolo (esempio inventato)? :-/

#8 StM on 08.28.09 at 16:25

Hanno sistemato quella pagina della storia della letteratura italiana a tempo di record? Adesso non mi sembra così orribile…

#9 Anonimo codardo on 08.28.09 at 18:14

Il discorso su quanto sia pericoloso Google vale e, purtroppo, continuerà a valere (non solo per il settore dei libri).

Nello specifico dell’articolo è vero che la qualità attuale dell’OCR fa schifo ma a) Google ha le immagini originali b) le tecnologie di OCR miglioreranno, sempre, sempre più c) prima o poi Google ci infilerà qualcosa per cui sarà possibile segnalare e correggere gli errori.

In ogni caso lavorando nell’IT la vedo nera da qui a dieci anni.

#10 Carlo Merolli on 08.29.09 at 00:44

Due cose: come in qualsiasi contratto c’é una clausola sulla qualitá del prodotto o del servizio fornito, o no ? E poi: i libri di carta non é che spariscono. Se un giorno sparissero e tutto fosse digitalizzato, chiunque
controllasse le centrali (biblioteche) digitali controllerebbe le possibilitá di informarsi. Vedo magari in questo – preso alla lontana – un pericolo piu´concreto di altri, risolvibili con nuove evntuali tecnologie.

#11 TheManuz on 08.29.09 at 03:08

Esiste un sistema che consente di digitalizzare in maniera perfetta anche scansioni schifose.
Questo sistema si chiama Recaptcha, consiste nel farlo fare alle persone che navigano su internet, una parola per volta. Vi consiglio di documentarvi perchè è un progetto interessantissimo (a mio parere).
Sul potere di google non mi pronuncio perchè è un argomento troppo vasto e troppo soggettivo.

#12 Francesco Pasqualini on 08.29.09 at 08:03

penso e spero che google stia archiviando anche le immagini in alta definizione delle pagine dei libri e che le renda disponibili in rete.
In questo modo altri o google stessa possono effettuare una migliore acquisizione OCR o correggere quelle già fatte.

Certi libri poi magari hanno dei font arcaici o addirittura sono manoscritti, nel qual caso sarà interessante fruirli proprio come immagine.

#13 Alessandra Mantellini on 08.29.09 at 09:02

Avete idea di cosa significhi fare ricerca all’università? Per consultare testi che nella maggior parte dei casi non vanno a prestito ci si deve sbattere da una biblioteca all’altra sottostando a tiranniche esigenze di orario di queste ultime dovute ad una carenza cronica di organico (es: se il libro x si trova nel reparto y, l’addetto vi si reca solo in determinati orari o addirittura in determinati giorni e se l’utente non è ben informato sulle abitudini della biblioteca in questione, rischia di perdere diverse ore o un’ intera giornata). Il ricercatore è spesso costretto a fare copie fuorilegge di testi protetti dal copyright dei quali si potrebbe fotocopiare solo un numero irrisorio di pagine. Farsi inviare volumi da biblioteche esterne verso la biblioteca del proprio dipartimento universitario per mezzo del prestito interbibliotecario ha un costo (non elevato in genere, ma all’università chi fa ricerca guadagna veramente poco), ma la cosa buffa è che nell’era di internet le biblioteche esigono il pagamento in bollettini postali (il che significa fare la fila alle poste spesso per pagare bollettini di quattro euro) e qualche volta addirittura in vaglia postali (sissignori) che hanno un costo più elevato dell’operazione postale stessa (e causano sempre un moto di sorpresa e d’ilarità da parte dell’impiegato delle poste). Quando si richiede la scannerizzazione di un testo (rigorosamente fuori dal copyright) ad una qualsiasi biblioteca, questo arriva dopo tempi biblici, non certo a buon mercato e non necessariamente di buona qualità (ciò vale anche per le fotocopie degli articoli). Per quel che riguarda le biblioteche italiane, va detto che esiste una grande variabilità tra esse nell’erogare tali servizi: alcune sono professionalmente impeccabili, altre, beh…meglio rivolgersi all’estero. Da questa disamina, appare chiaro che il povero ricercatore veda l’opera di Google come una benedizione (chiaramente il lavoro deve essere di qualità, altrimenti inservibile).

#14 Paolo on 08.29.09 at 21:26

questa è una pagina di un libro che ho scaricato io: http://www.dopa.it/cose/googbk.jpg

io non faccio commenti

#15 Francesco Pasqualini on 08.30.09 at 01:35

@paolo
non che questa sia una scusante, ma i font di quel libro sono arcaici e google offre anche l’immagine delle pagine

questa è quella da te citata

http://snipurl.com/rheyz

#16 Paolo on 08.30.09 at 09:20

meno male, certo il secondo è un libro scannerizzato, il primo una schifezza che non ha nessun senso pubblicare, non per altro, ma perché è inutile

#17 Francesco Pasqualini on 08.30.09 at 09:35

curioso: ogni pagina di questo libro ha in basso a destra la prima sillaba della pagina successiva. Forse un sistema di controllo per l’impaginazione ?

Di certo qualcosa che complica non poco la digitalizzazione automatica, bisognerebbe incaricare dei monaci tecnologici :-)
Amanuensi con in mano la tastiera.

#18 Aubrey on 08.30.09 at 14:12

Per adesso, i problemi evidenziati non mi sembrano insormontabili. Io non so come funzioni, ma credo che la difficoltà e il costo principali stiano nella scansione, non nella successiva postelaborazione (OCR, impaginazione, formato PDF ed EPUB). Quanto ci metterebbe Google a far correre i suoi software OCR (probabilmente Tessaract) su tutti i libri? Come già detto, scansione è una cosa, trascrizione è un’altra. E la trascrizione è un problema di tutti, anche di Open Book Alliance, che per ora dice dice ma fa pochino.
@Francesco Su Wikisource (nelle varie lingue) facciamo esattamente questo, guarda come esempio: http://it.wikisource.org/wiki/Indice:Zibaldone_di_pensieri_I.djvu
La cosa divertente è che utilizziamo sia i libri di Internet Archive come di Google (quelli in pubblico dominio, ovviamente)
I progetti human-driven già ci sono, magari Google prima o poi aprirà la possibilità di una trascrizione tipo wiki.
Ma, IMHO, è fondamentale aver posto le basi legali ed economiche per far partire finalmente un processo di digitalizzazione globale e sostenibile.

#19 Luigi G. on 08.30.09 at 16:04

Per prima cosa a mio parere bisognerebbe distinguere tra i fini dell’operazione.

Se il fine è snellire la ricerca e rendere il 100% delle informazioni disoponibili a tutti (che è poi la ‘mission’ di Google) allora vanno bene anche pagine non completamente corrette, ma comprensibili, purchè si faccia.

Se il fine è “tutelare il bene a fini archivistici” come dice Antonio, allora il lavoro di Google è inutile per due ragioni.
1- Nonostante la sempre più concreta possibilità di un World Wide Computer, la carta è più longeva del digitale.
2- Archiviare trascrizioni inesatte non serve a nulla. Con una piccola riserva: nessuno è a conoscenza della versione originale della Divina Commedia, mentre ci sono invece pervenute solo copie trascritte e non necessariamente fedeli all’originali. E così sarà sempre (?), almeno credo. O no?

#20 Anonimo codardo on 08.31.09 at 17:23

Qui sta iniziando a parlare di Google come ente filantropico. Google ha un solo interesse: fare soldi. Ha davvero senso dare ad una entità privata la leadership della ricerca online *e* quella dei video *e* quella tra le notizia *e* quella sui libri? Ai posteri…

#21 » Prihordj della lingua on 09.01.09 at 17:00

[...] Simplicissimus.(sulla qualità delle digitalizzazioni dei libri da parte di Google) [Ne ho parlato anche ieri qua, ma ho bisogno di dare sfogo a un urlo di dolore che mi pare ancora incompreso dai più!]. [...]

#22 Pino Bruno on 09.02.09 at 18:36

Scusa Antonio, ma l’alternativa a Google Books quale potrebbe essere? Faccio un esempio, non so quanto calzante. I musei. Ci sono più tesori negli scantinati – preclusi ai non addetti ai lavori – di quanti se ne espongono. Stessa cosa con il patrimonio cartaceo. Certo, la scansione deve essere perfezionata. Certo, i libri pubblici devono restare pubblici (dopo la digitalizzazione) e non diventare proprietà di Google…..o no?

#23 Barbapapa on 09.02.09 at 23:01

La digitalizzazione delle risorse sarà inevitabile ma il tuo post è interessantissimo perchè punta il dito su “come” si sta facendo, non ci avevo mai fatto caso. In altre parole sembra che (al momento) nessuna biblioteca che è stata digitalizzata possa credere di poter recuperare il proprio patrimonio in caso di incendio…

#24 Michele Ficara Manganelli on 09.02.09 at 23:06

google inizia a diventare preoccupante … sopratutto quando pensa di fare business con le “cose degli altri” …

è una questione drammatica che deve essere affrontata velocemente anche sul piano normativo …

#25 9peppe on 09.03.09 at 07:56

dubito fortemente che lo stiano facendo apposta, sanno benissimo che i loro servizi hanno molti utenti perché sono di qualità, non hanno ancora un brand tale da poter far soldi con prodotti scadenti, quindi se questo prodotto sarà scadente nessuno lo userà.

#26 manuel on 09.03.09 at 19:23

L’articolo è approssimativo e non tiene conto di troppi fattori. Possiamo discutere sul fatto che Google sia effettivamente il nostro Grande Fratello Orwelliano, possiamo discutere sugli interessi economici in ballo.
Ma il signor Antonio Tombolini (che suppongo sia l’autore dell’articolo, se così non fosse mi scuso) da quanto tempo segue Google, l’evoluzione della rete e di tutto quello che gli gravita intorno?
Google offre una serie di servizi a privati e aziende (attenzione: AZIENDE!) a costo ZERO e di ottima qualità, a cominciare a Gmail e Google Docs (per essere precisi, li offre anche a pagamento ma quelli gratuiti sono parecchio superiori alla media della concorrenza).
Google Libri non è che un altro tassello dell’enorme puzzle di servizi; dal punto di vista tecnologico, un enorme “work in progress” per far avanzare la tecnologia OCR (come il sistema Re-Captcha). Solo chi possiede i mezzi tecnologici e finanziari può sostenere questo lavoro, e Google, almeno per ora, rende tutto disponibile gratis. Vogliamo discutere sul rischio futuro che Google renda tutto questo a pagamento? Ok, discutiamone, perchè è un problema reale. Ma la breve storia dell’IT ha dimostrato che quando un monopolista calca troppo la mano, alla fine esce fuori un Deus Ex Machina che risolleva le sorti della storia. Vedi Linux, la FSF, la comunità Open Source e altri importanti progetti nati dal nulla. Standard e tecnologie aperte sono la chiave per mantenere un equilibrio stabile fra le aziende e i loro interessi, e la giusta libertà di informazione e azione in rete. Solo questo è da preservare.
Google vuole digitalizzare libri? Che buon pro gli faccia, e lo fa anche a noi se il servizio resta gratuito.

#27 Anonimo codardo on 09.05.09 at 06:59

Sono anni che Google sta usando standard e tecnologie aperte per imporre i propri prodotto sul mercato: se qualcosa non gli piace se la crea e la impone (come per esempio farà con il proprio browser).

Il pericolo di Google è che la percezione delle persone (e quindi delle aziende, essendo fatte di persone) è ancora nella fase “Google, il gigante buono”.

#28 Fabio on 09.05.09 at 10:57

Qualcosa si muove: http://punto-informatico.it/2702934/PI/News/italia-aie-fa-pulci-google-books.aspx

#29 eBookLuke on 09.14.09 at 16:58

Si continua a fare confusione tra copie anastatiche ed ebook.

— La copia anastatica ha come obiettivo la preservazione dell’interezza del libro, non solo del testo. Quindi immagini, disegni, annotazioni, ma anche la grana della carta, l’ampiezza dei margini, la qualità ed i difetti dei tipi utilizzati.

— L’ebook invece ha lo scopo di proporre il testo nella sua interezza, preservando il contenuto svincolandolo dal contenitore cartaceo.

Dagli allegati che ho visto, Google non fa bene nessuna di queste due cose:

— le copie anastatiche sono a due colori (bianco e nero) e di qualità inferiore ad una brutta fotocopia, perdendo così il valore di conservazione del libro in quanto tale.

— Il file .epub scaricabile è inutilizzabile come ebook. Il testo è pieno di errori di scansione, con numeri di pagina in mezzo al testo, macchie della carta riconosciute come caratteri. Senza parlare dei metadati completamente fallati.

A chi serve un simile lavoro? Al ricercatore no, poiché in ogni caso deve far ricorso comunque al cartaceo originale, non potendo accedere né al testo, né può valutare lo stato di conservazione dello stesso. E a me, misero lettore, che caricando l’epub sul mio reader mi ritrovo un’accozzaglia di caratteri a casaccio.

E non dimentichiamoci della categoria che più potrebbe giovare dalla digitalizzazione: i ciechi.
Costoro hanno come unico accesso alla cultura gli screen reader, software che traducono in voce quanto viene presentato sul display. Se la qualità dell’epub è quella che ho visto negli esempi, i non vedenti dovranno continuare a leggere sui rari, costosissimi, libri in braille.

A chi sostiene che Google fa un lavoro meritorio dico semplicemente: leggete 10 libri di Google, dall’inizio alla fine, poi ne riparliamo.

Luke

Leave a Comment

retaggr