PDF e OCR

Discussione:

PDF e OCR

(troppo vecchio per rispondere)

Maurizio Pistone

2019-08-20 18:25:15 UTC

1. Ogni formato di file ha un suo specifico utilizzo.
Il PDF fornisce le informazioni per visualizzare un documento in modo
del tutto indipendente dall'hardware e dal software che lo utilizza:
qualunque computer, con qualunque sistema operativo; qualunque programma
di visualizzazione; qualunque monitor; qualunque tipo di stampante ecc.
visualizzerà lo stesso documento nello stesso modo - ovviamente con i
limiti imposti dalla risoluzione, dalla capacità di rendere i colori
ecc.
Per questo, un file PDF è solitamente la fase FINALE nell'elaborazione
di un documento.
Corollario: chi produce un file PDF, solitamente NON si aspetta che
questo venga modificato.
Se mando un PDF in tipografia, mi aspetto che stampino esattamente
quello che gli ho mandato, senza metterci le manine dentro per cambiare
una font o uno spazio o una frase.
Se dalla tipografia mi dicono che c'è qualcosa che non va, posso
rispondere:
1. sono affari miei, voi stampate quello che vi ho mandato;
2. forse avete ragione, allora è il caso che vi mandi il file (esempio)
di Indesign, magari mi correggete l'errore (sicuramente non gratis).
Ma sicuramente NON mi aspetto che modifichino il PDF.
So benissimo che è sempre un po' difficile spiegare questa cosa riguardo
ai formati di file. Io ricordo ancora l'epoca in cui se chiedevo a
qualcuno di mandarmi un'immagine, mi mandava una pagina di Word con
dentro l'immagine. "Guarda che forse è meglio se mi mandi il Jpeg / il
Tiff / il Png". "Cosa? Io ti ho mandato l'immagine che mi hai chiesto.
Cosa c'è che non va?"

2. Mai dire mai. Esistono programmi che permettono di modificare i file
PDF.
Perché esistono? Perché la gente li vuole.
Se tanta gente chiedesse un programma per smontare una torta nuziale a
più strati in modo da poter sostituire il pan di spagna, sicuramente ci
sarebbe qualcuno che glielo fornisce. Il che non toglie che è sempre
bene prendere le decisioni relative al pan di spagna PRIMA di
confezionare la torta.

3. C'è un PRIMA e un DOPO della confezione di un documento e della sua
formattazione.
Il PRIMA, è che le varie parti del documento devono essere viste in modo
SEMANTICO, non semplicemente VISIVO.
Un titolo è un titolo, non è una riga di testo un po' più grossa, che
sposto di qua e di là e in su e in giù con la barra spaziatrice o col
tasto Enter.
Qualunque programma di elaborazione testi o di impaginazione che si
rispetti, mi permette di fare questo. Scrivo il titolo, poi definisco lo
stile con cui voglio visualizzarlo.
Perché? Se scrivete una letterina di una pagina, va benissimo sistemare
il titolo con la barra spaziatrice. Ma se scrivete un documento un po'
complesso, con capitoli e sottocapitoli e paragrafi e sotto paragrafi,
se fate così diventate scemi, e soprattutto producete una schifezza.

4. Se quello è il PRIMA, il DOPO è la visualizzazione, che vi dà il
documento così come lo volete vedere sullo schermo o sulla pagina. In
questa seconda fase gli stili vengono trasformati in dimensioni di
caratteri, spazi di qua e spazi di là, millimetri e frazioni di
millimetro ecc.
In questa fase, il valore semantico della formattazione non interessa
più.
Questo perché? Perché l'occhio umano è in grado di interpretare
semanticamente quello che vede. Se aprite un libro, e vedete una riga
scritta così e cosà, spaziata di tanto virgola qualcosa dal resto del
testo, sapete subito che si tratta del titolo. Non avete bisogno che ve
lo dica nessuno: si vede subito.
Ma non è detto che un programma OCR sia in grado di farlo.
Magari sarà capace di dire qual è la font, qual è la dimensione del
carattere ecc. Ma dal suo punto di vista, non è essenziale stabilire che
quello è un titolo.

5. Quindi, se voi affidate una pagina stampata - o un PDF, che in fondo
è la stessa cosa - ad un OCR, magari vi renderà esattamente le
dimensioni del titolo, ma ben difficilmente saprà - non ha interesse a
sapere - che è un titolo. Magari vi dà un documento che ha *quasi* lo
stesso aspetto dell'originale; ma se cercate di modificarlo, son dolori.
Il programma OCR vi dirà cosa c'è in quella pagina; ma non vi spiegherà
PERCHÉ le cose sulla pagina sono visualizzate in quel modo. E quindi se
intervenite direttamente sulla visualizzazione, avrete in genere
risultati imprevedibili.

6. Per questo, ogni lavoro di acquisizione di un testo, o si limita a
fare una descrizione grezza della pagina - più o meno come la farebbe
una fotocopiatrice; oppure vi impone di smontare il risultato, in modo
da separare nuovamente il TESTO dagli STILI, dando all'uno e all'altro
il proprio valore semantico.

--
Maurizio Pistone strenua nos exercet inertia Hor.
http://blog.mauriziopistone.it
http://www.lacabalesta.it

Voce dalla Germania

2019-08-20 18:42:08 UTC

Permalink

Post by Maurizio Pistone
2. Mai dire mai. Esistono programmi che permettono di modificare i file
PDF.
Perché esistono? Perché la gente li vuole.

Certo! Per esempio io. Come traduttore, di solito lavoro
scrivendo la mia traduzione al posto dell'originale. Grosso
vantaggio: mantengo automaticamente tutte le formattazioni
(grassetto, corsivo, margini della pagina ecc. ecc.).
Certo, sarebbe meglio se mi mandassero un formato che posso
soprascrivere, ma spesso i committenti hanno solo il PDF, in
particolare quando il testo non è opera loro, p. es. il
testo di un appalto pubblicato solo come PDF che vogliono
capire per decidere se vale la pena di fare un'offerta.

Post by Maurizio Pistone
5. Quindi, se voi affidate una pagina stampata - o un PDF, che in fondo
è la stessa cosa - ad un OCR, magari vi renderà esattamente le
dimensioni del titolo, ma ben difficilmente saprà - non ha interesse a
sapere - che è un titolo. Magari vi dà un documento che ha *quasi* lo
stesso aspetto dell'originale; ma se cercate di modificarlo, son dolori.
Il programma OCR vi dirà cosa c'è in quella pagina; ma non vi spiegherà
PERCHÉ le cose sulla pagina sono visualizzate in quel modo. E quindi se
intervenite direttamente sulla visualizzazione, avrete in genere
risultati imprevedibili.

La mia esperienza è diversa.

Maurizio Pistone

2019-08-21 10:15:15 UTC

Permalink

Post by Voce dalla Germania
Certo! Per esempio io. Come traduttore, di solito lavoro
scrivendo la mia traduzione al posto dell'originale. Grosso
vantaggio: mantengo automaticamente tutte le formattazioni
(grassetto, corsivo, margini della pagina ecc. ecc.).

quindi il risultato è lo stesso PDF originale, però con un testo
diverso?

Un po' come se tu traducessi su un testo stampato, mettendo la
traduzione tra una riga e l'altra.

Mi sembra un po' una situazione limite.

E sicuramente non funziona sempre: quando il testo tradotto occupa più o
meno spazio dell'originale, credo che la formattazione risulti un po'
scombinata.

Insomma, un espediente per rimediare al fatto che non ti mandano un
testo modificabile, che sarebbe la soluzione più logica.

--
Maurizio Pistone strenua nos exercet inertia Hor.
http://blog.mauriziopistone.it
http://www.lacabalesta.it

Voce dalla Germania

2019-08-21 15:57:07 UTC

Permalink

Post by Maurizio Pistone

quindi il risultato è lo stesso PDF originale, però con un testo
diverso?

Ovviamente no. Il risultato è un documento con la mia
traduzione nel formato appropriato, che poi posso convertire
in PDF. Anche se potessi dargli lo stesso nome del PDF
originale, credo che ci siano dei metadati che permettono di
distinguerli.

Post by Maurizio Pistone
Un po' come se tu traducessi su un testo stampato, mettendo la
traduzione tra una riga e l'altra.
Mi sembra un po' una situazione limite.

Non proprio. Tu descrivi una traduzione interlineare o
addirittura, horribile dictu, parola per parola. Io invece
scrivo un nuovo testo che si sovrappone all'originale.

Post by Maurizio Pistone
E sicuramente non funziona sempre: quando il testo tradotto occupa più o
meno spazio dell'originale, credo che la formattazione risulti un po'
scombinata.

Nella mia esperienza i problemi di questo tipo sono molto rari.

Post by Maurizio Pistone
Insomma, un espediente per rimediare al fatto che non ti mandano un
testo modificabile, che sarebbe la soluzione più logica.

Certo, sarebbe la soluzione più logica, ma di solito è
impossibile, quando l'originale NON è stato scritto dal
committente, che in genere manda o mette in rete un PDF
proprio perché non sia modificabile.

Giovanni Drogo

2019-08-21 16:50:14 UTC

Permalink

Post by Voce dalla Germania

Post by Voce dalla Germania
Certo! Per esempio io. Come traduttore, di solito lavoro
scrivendo la mia traduzione al posto dell'originale.

Non proprio. Tu descrivi una traduzione interlineare o
addirittura, horribile dictu, parola per parola. Io invece
scrivo un nuovo testo che si sovrappone all'originale.

Piu' o meno quel che faccio quando scrivo pagine web bilingui. Prima
scrivo in una lingua, poi duplico il blocco e inizio a scriverci sopra
(certe volte sono tanto pigro che switcho da insert mode a overwrite
mode e vv. p.es. per convertire "institutions" in "i^Dstitu^Dz ion^Di")

Valerio Vanni

2019-08-20 21:30:56 UTC

Permalink

Post by Maurizio Pistone
1. Ogni formato di file ha un suo specifico utilizzo.
Il PDF fornisce le informazioni per visualizzare un documento in modo
qualunque computer, con qualunque sistema operativo; qualunque programma
di visualizzazione; qualunque monitor; qualunque tipo di stampante ecc.
visualizzerà lo stesso documento nello stesso modo

In teoria... diciamo che il pdf è nato proprio per quello scopo.
In alcuni casi ci sono dei problemi, se sono stati usati font strani e
non sono stati incorporati.

Post by Maurizio Pistone
So benissimo che è sempre un po' difficile spiegare questa cosa riguardo
ai formati di file. Io ricordo ancora l'epoca in cui se chiedevo a
qualcuno di mandarmi un'immagine, mi mandava una pagina di Word con
dentro l'immagine.

L'epoca? A me me li mandano ancora :-)

Post by Maurizio Pistone
2. Mai dire mai. Esistono programmi che permettono di modificare i file
PDF.
Perché esistono? Perché la gente li vuole.
Se tanta gente chiedesse un programma per smontare una torta nuziale a
più strati in modo da poter sostituire il pan di spagna, sicuramente ci
sarebbe qualcuno che glielo fornisce. Il che non toglie che è sempre
bene prendere le decisioni relative al pan di spagna PRIMA di
confezionare la torta.

Il problema è che chi vuole smontare la torta non è lo stesso che l'ha
prodotta. Il suo lavoro parte dalla torta, non ha mai messo mano sugli
ingredienti. Non c'è in quel PRIMA a decidere.

Il tuo discorso copre bene il caso che hai spiegato: scrivi un
documento, lo converti in pdf, lo mandi in tipografia, la tipografia
ti richiama.

Ma ci sono altri casi... gente per cui la risorsa iniziale è il pdf.

Post by Maurizio Pistone
Il PRIMA, è che le varie parti del documento devono essere viste in modo
SEMANTICO, non semplicemente VISIVO.
Un titolo è un titolo, non è una riga di testo un po' più grossa, che
sposto di qua e di là e in su e in giù con la barra spaziatrice o col
tasto Enter.
Qualunque programma di elaborazione testi o di impaginazione che si
rispetti, mi permette di fare questo. Scrivo il titolo, poi definisco lo
stile con cui voglio visualizzarlo.

Poi, se vuoi cambiare la formattazione del titolo, modifichi lo stile
e non devi girare tutto il documento.
Però il vantaggio cresce al crescere della complessità e della
dimensione: per un documento di una pagina o due, c'è poca differenza
tra modificare lo stile e modificare direttamente il testo.

Post by Maurizio Pistone
Ma non è detto che un programma OCR sia in grado di farlo.
Magari sarà capace di dire qual è la font, qual è la dimensione del
carattere ecc. Ma dal suo punto di vista, non è essenziale stabilire che
quello è un titolo.

In effetti questo piano d'analisi è fuori portata.
Io dall'OCR non mi sono mai aspettato un'impaginazione perfetta,
semplicemente di avere un testo modificabile.

--
Ci sono 10 tipi di persone al mondo: quelle che capiscono il sistema binario
e quelle che non lo capiscono.

Father McKenzie

2019-08-21 00:02:13 UTC

Permalink

Post by Maurizio Pistone
1. Ogni formato di file ha un suo specifico utilizzo.
Corollario: chi produce un file PDF, solitamente NON si aspetta che
questo venga modificato.

Sì, vero. Nel mio caso il pdf me lo sono trovato dopo aver fotocopiato
dei dattilocritti di anni fa. Avendo scoperto che nel PDF c'erano un
numero di errori, non presenti nell'originale ma prodotti dalla
"lettura" approssimativa o dai caratteri sbiaditi, ecco che mi si pone
il problema di correggere il pdf, o, come ho fatto, convertirlo in .doc
per poi correggere a manina (che palle). Ora, se provo a riconvertire in
pdf, saltann fuori altri errori. Lo stesso se provo a usare Libre.

--
Et interrogabant eum turbae dicentes: “Quid ergo faciemus?”.
Respondens autem dicebat illis: “Qui habet duas tunicas,
det non habenti; et, qui habet escas, similiter faciat”.
(Ev. sec. Lucam 3,10-11)

Ammammata

2019-08-21 06:51:05 UTC

Permalink

Il giorno Wed 21 Aug 2019 02:02:13a, *Father McKenzie* ha inviato su

Post by Father McKenzie
Avendo scoperto che nel PDF c'erano un
numero di errori, non presenti nell'originale ma prodotti dalla
"lettura" approssimativa o dai caratteri sbiaditi, ecco che mi si pone
il problema di correggere il pdf, o, come ho fatto, convertirlo in .doc
per poi correggere a manina

pdfxchange viewer ha un buon sistema OCR inorporato, disponibile per decine
di lingue (4 in partenza, le altre tramite file aggiuntivo da scaricare e
installare)

--
/-\ /\/\ /\/\ /-\ /\/\ /\/\ /-\ T /-\
-=- -=- -=- -=- -=- -=- -=- -=- - -=-

Post by Father McKenzie

http://www.bb2002.it :) <<<<<

........... [ al lavoro ] ...........

Maurizio Pistone

2019-08-21 10:15:15 UTC

Permalink

Post by Father McKenzie

Post by Maurizio Pistone
Corollario: chi produce un file PDF, solitamente NON si aspetta che
questo venga modificato.

non esiste un OCR esente al 100% da errori.

Tutto dipende dalla qualità della stampa originale, dell'eventuale
fotocopia, e dalla capacità analitica dell'OCR.

Nel migliore dei casi, te la cavi con un paio di errorini per pagina:
una m che diventa rn, un 1 (uno) che diventa l (elle)...

Ma un'attentissima lettura è in ogni caso indispensabile.

Mi sono trovato recentemente a fare la scansione di un importante saggio
di storia dell'arte, su una copia digitale trovata sul Web. Un disastro!

Ogni OCR in primo luogo fa riferimento ad un vocabolario; ma se il testo
contiene frasi in diverse lingue (nel mio caso: francese, tedesco,
latino...) il programma non le riconosce, e ti dà risultati
imprevedibili.

Inoltre, tutto quello che va oltre il normale testo crea difficoltà: il
mio saggio, più di 100 pagine con 450 note a pié di pagina, scritte
ovviamente in carattere piccolo, è stato una vera tortura.

Oltre alla difficoltà usuale delle note a pié di pagina, che ovviamente
devono essere *sempre* ricollocate, ai caratteri piccoli (magari in
corsivo e in lingua straniera...), c'era la follia che la numerazione
delle note era, sia nel testo, sia nelle note, fra parentesi!

=========

Le cose vanno meglio quando posso fare io stesso la scansione (anzi, di
solito la fotografia) delle pagine. Con un buon programma (quello che ho
io mi sembra ottimo) c'è un miglioramento importante.

Ma per ottenere un risultato serio, c'è comunque da sudare.

--
Maurizio Pistone strenua nos exercet inertia Hor.
http://blog.mauriziopistone.it
http://www.lacabalesta.it

Ammammata

2019-08-21 13:18:09 UTC

Permalink

Il giorno Wed 21 Aug 2019 12:15:15p, *Maurizio Pistone* ha inviato su

Post by Maurizio Pistone
il
mio saggio, più di 100 pagine con 450 note a pié di pagina, scritte
ovviamente in carattere piccolo, è stato una vera tortura.

io, da tempo, preferisco inviarmi una mail/documento che scrivo utilizzando
la funzione di riconoscimento della voce (smartphone android)

esempio: i verbali delle riunioni del consiglio dell'associazione; questo
"trucco" mi permette di prendere appunti veloci con grafia "a zampa di
gallina" quel tanto che basta, dopo un paio di ore, a rileggermeli e
trovarmi il 95% del lavoro di trascrizione già fatto

in un caso come il tuo si dovrebbe leggere prima il testo, poi le note,
infine reinserirle al loro posto con molta pazienza :)

--
/-\ /\/\ /\/\ /-\ /\/\ /\/\ /-\ T /-\
-=- -=- -=- -=- -=- -=- -=- -=- - -=-

Post by Maurizio Pistone

http://www.bb2002.it :) <<<<<

........... [ al lavoro ] ...........

Giovanni Drogo

2019-08-21 14:05:33 UTC

Permalink

Post by Maurizio Pistone
Corollario: chi produce un file PDF, solitamente NON si aspetta che
questo venga modificato.

Si' indubbiamente, anche se modificarlo e' piu' o meno faticosamente
possibile in dipendenza dal modo come il pdf e' fatto.

Io ho sempre raccomandato di NON distribuire documenti in un formato
"sorgente tipo office" (sia Word che open/libreoffice). Intendo non
distribuire "erga omnes" tali documenti (potenzialmente facilmente
modificabili/falsificabili), ovviamente va bene distribuirli ai
co-autori se hanno lo stesso s/w di scrittura (ma per fortuna la maggior
parte dei documenti che scriviamo noi, e tutti gli articoli, si scrivono
in latex)

... e gli editori in genere gradiscono accanto al sorgente latex un pdf
generato dall'autore proprio perche' "rappresenta come dovrebbe
apparire",

Dico dovrebbe perche' non e' detto che tutti i s/w di generazione p.es.
"imbeddino" tutti i font necessari ... assumendo che "siano comunque
disponibili", e se poi non lo sono il documento appare "brutto".

Mi pare si chiami PDF/A quello che garantisce che il documento sia
autoconsistente e "stabile nel tempo".

Dopo di che amministrazioni paranoiche possono chiedere (p.es. per gli
allegati a una domanda di concorso) un "PDF non modificabile"
misinterpretando il senso del PDF/A.

Le stesse amministrazioni che distribuiscono documenti in PDF
scansionato, che sono n volte piu' ingombranti, e non consentono una
ricerca testuale ... che e' possibile in un PDF "ben formato".

Post by Maurizio Pistone
2. Mai dire mai. Esistono programmi che permettono di modificare i
file PDF. Perché esistono? Perché la gente li vuole.

Sapendo come fare ogni file e' modificabile. Anche editandolo a mano con
un editor, alla peggio uno esadecimale.

Sempre fatto con i files Postscript, dove in genere e' facile, e anche
scritto un tot di files Postscript "a mano" con effetti grafici speciali
in modo molto compatto (p.es. insiemi di Mandelbrot "calcolati dalla
stampante" ... molto compatti ma moooolto lenti da stampare). Avendo
letto con cura il Red Book.

Mai letto con altrettanta cura le specifiche del formato pdf, ma sono
piuttosto complicati da manipolare mescolando ascii e binario e avendo
una struttura gerarchica con un certo grado di arbitrarieta'.

Non ho mai avuto necessita' (salvo in un caso) di modificare il
contenuto di un pdf (ma potrei averla avuta di estrarre il contenuto),
salvo il caso di inserire annotazioni (ho colleghi che mandano indietro
commenti ad articoli inserendo annotazioni nel pdf, ma e' in qualche
modo dipendente dalla versione di acrobat o altro reader, e
personalmente preferisco inviare i commenti a parte "alla riga 5 del
sesto paragrafo a pag. 5 cambia pinco in panco" ... d'altra parte la
versione moderna in cui gli editori delle riviste mandano le bozze e' in
genere proprio un pdf CON IN PIU' LA NUMERAZIONE ESPLICITA delle righe).

La necessita' occasionale nasce ahime' sempre dalla burocrazia. Vi sono
entita' che richiedono di "compilare un documento PDF" ... a volte
fornendolo come un modulo editabile, ma a volte richiedendo di
stamparlo, firmarlo a mano e poi scansionarlo e rimandarlo per e-mail !
L'ultima sono i nuovi fogli presenze mensili, per cui ho "scovato" il
trucco con libreoffice.

La necessita' seria riguarda invece l'estrazione della informazione in
forma "electronically readable". Purtroppo un file non lo e' sempre, nel
senso che non fornisce i numeri gestibili da un altro programma.

Anche un file grafico (non necessariamente pdf), intendo un plot
cartesiano ... magari a me serve di estrarre dei punti da uno spettro
(in unita' fisiche, non pixel o cm) per riportarli su uno spettro
composito) ... e per questo esistono programmi di digitizzazione.

Ma anche un pdf tabulare, p.es. gli orari di una linea di trasporto per
metterli in un database. Si puo' convertire il pdf in ascii ma la
formattazione e l'ordine risultante dipende da come e' scritto e la
stessa Agenzia puo' produrre orari in tre o quattro varianti
completamente diverse anche se l'aspetto e' simile.

Quello di considerare l'aspetto "stampato" come forma primaria comporta
una perdita di informazione. Consideriamo p.es. il fascicolo sanitario
elettronico. Regione Lombardia tiene i pdf di tutti gli esami del sangue
cosi' come generati dall'ambulatorio/ospedale.

Ma se codificasse invece data, tipo di esame e valore sarebbe possibile
fare una ricerca storica tipo "gli ultimi tre anni del colesterolo HDL"

Continua a leggere su narkive:

Discussioni interessanti ma non correlate

risposte

Come posso gestire due luminosità estremamente diverse nella stessa immagine?

iniziato 2011-07-11 01:43:38 UTC

risposte

Quale obiettivo grandangolare acquistare come obiettivo principale per un matrimonio all'aperto?

iniziato 2011-07-26 00:37:22 UTC

risposte

Un filtro causerà più o meno danni in caso di caduta dell'obiettivo?

iniziato 2013-06-06 04:13:19 UTC

risposte

Come posso ottenere un soggetto nitido con lo sfondo sfocato dal movimento (tracce di traffico)?

iniziato 2016-04-20 00:07:19 UTC

risposte

Come posso eliminare questa tinta arancione e questo riflesso mantenendo la mia etichetta ben illuminata e visibile?

iniziato 2020-01-28 08:48:48 UTC