Maurizio Pistone
2019-08-20 18:25:15 UTC
1. Ogni formato di file ha un suo specifico utilizzo.
Il PDF fornisce le informazioni per visualizzare un documento in modo
del tutto indipendente dall'hardware e dal software che lo utilizza:
qualunque computer, con qualunque sistema operativo; qualunque programma
di visualizzazione; qualunque monitor; qualunque tipo di stampante ecc.
visualizzerà lo stesso documento nello stesso modo - ovviamente con i
limiti imposti dalla risoluzione, dalla capacità di rendere i colori
ecc.
Per questo, un file PDF è solitamente la fase FINALE nell'elaborazione
di un documento.
Corollario: chi produce un file PDF, solitamente NON si aspetta che
questo venga modificato.
Se mando un PDF in tipografia, mi aspetto che stampino esattamente
quello che gli ho mandato, senza metterci le manine dentro per cambiare
una font o uno spazio o una frase.
Se dalla tipografia mi dicono che c'è qualcosa che non va, posso
rispondere:
1. sono affari miei, voi stampate quello che vi ho mandato;
2. forse avete ragione, allora è il caso che vi mandi il file (esempio)
di Indesign, magari mi correggete l'errore (sicuramente non gratis).
Ma sicuramente NON mi aspetto che modifichino il PDF.
So benissimo che è sempre un po' difficile spiegare questa cosa riguardo
ai formati di file. Io ricordo ancora l'epoca in cui se chiedevo a
qualcuno di mandarmi un'immagine, mi mandava una pagina di Word con
dentro l'immagine. "Guarda che forse è meglio se mi mandi il Jpeg / il
Tiff / il Png". "Cosa? Io ti ho mandato l'immagine che mi hai chiesto.
Cosa c'è che non va?"
2. Mai dire mai. Esistono programmi che permettono di modificare i file
PDF.
Perché esistono? Perché la gente li vuole.
Se tanta gente chiedesse un programma per smontare una torta nuziale a
più strati in modo da poter sostituire il pan di spagna, sicuramente ci
sarebbe qualcuno che glielo fornisce. Il che non toglie che è sempre
bene prendere le decisioni relative al pan di spagna PRIMA di
confezionare la torta.
3. C'è un PRIMA e un DOPO della confezione di un documento e della sua
formattazione.
Il PRIMA, è che le varie parti del documento devono essere viste in modo
SEMANTICO, non semplicemente VISIVO.
Un titolo è un titolo, non è una riga di testo un po' più grossa, che
sposto di qua e di là e in su e in giù con la barra spaziatrice o col
tasto Enter.
Qualunque programma di elaborazione testi o di impaginazione che si
rispetti, mi permette di fare questo. Scrivo il titolo, poi definisco lo
stile con cui voglio visualizzarlo.
Perché? Se scrivete una letterina di una pagina, va benissimo sistemare
il titolo con la barra spaziatrice. Ma se scrivete un documento un po'
complesso, con capitoli e sottocapitoli e paragrafi e sotto paragrafi,
se fate così diventate scemi, e soprattutto producete una schifezza.
4. Se quello è il PRIMA, il DOPO è la visualizzazione, che vi dà il
documento così come lo volete vedere sullo schermo o sulla pagina. In
questa seconda fase gli stili vengono trasformati in dimensioni di
caratteri, spazi di qua e spazi di là, millimetri e frazioni di
millimetro ecc.
In questa fase, il valore semantico della formattazione non interessa
più.
Questo perché? Perché l'occhio umano è in grado di interpretare
semanticamente quello che vede. Se aprite un libro, e vedete una riga
scritta così e cosà, spaziata di tanto virgola qualcosa dal resto del
testo, sapete subito che si tratta del titolo. Non avete bisogno che ve
lo dica nessuno: si vede subito.
Ma non è detto che un programma OCR sia in grado di farlo.
Magari sarà capace di dire qual è la font, qual è la dimensione del
carattere ecc. Ma dal suo punto di vista, non è essenziale stabilire che
quello è un titolo.
5. Quindi, se voi affidate una pagina stampata - o un PDF, che in fondo
è la stessa cosa - ad un OCR, magari vi renderà esattamente le
dimensioni del titolo, ma ben difficilmente saprà - non ha interesse a
sapere - che è un titolo. Magari vi dà un documento che ha *quasi* lo
stesso aspetto dell'originale; ma se cercate di modificarlo, son dolori.
Il programma OCR vi dirà cosa c'è in quella pagina; ma non vi spiegherà
PERCHÉ le cose sulla pagina sono visualizzate in quel modo. E quindi se
intervenite direttamente sulla visualizzazione, avrete in genere
risultati imprevedibili.
6. Per questo, ogni lavoro di acquisizione di un testo, o si limita a
fare una descrizione grezza della pagina - più o meno come la farebbe
una fotocopiatrice; oppure vi impone di smontare il risultato, in modo
da separare nuovamente il TESTO dagli STILI, dando all'uno e all'altro
il proprio valore semantico.
Il PDF fornisce le informazioni per visualizzare un documento in modo
del tutto indipendente dall'hardware e dal software che lo utilizza:
qualunque computer, con qualunque sistema operativo; qualunque programma
di visualizzazione; qualunque monitor; qualunque tipo di stampante ecc.
visualizzerà lo stesso documento nello stesso modo - ovviamente con i
limiti imposti dalla risoluzione, dalla capacità di rendere i colori
ecc.
Per questo, un file PDF è solitamente la fase FINALE nell'elaborazione
di un documento.
Corollario: chi produce un file PDF, solitamente NON si aspetta che
questo venga modificato.
Se mando un PDF in tipografia, mi aspetto che stampino esattamente
quello che gli ho mandato, senza metterci le manine dentro per cambiare
una font o uno spazio o una frase.
Se dalla tipografia mi dicono che c'è qualcosa che non va, posso
rispondere:
1. sono affari miei, voi stampate quello che vi ho mandato;
2. forse avete ragione, allora è il caso che vi mandi il file (esempio)
di Indesign, magari mi correggete l'errore (sicuramente non gratis).
Ma sicuramente NON mi aspetto che modifichino il PDF.
So benissimo che è sempre un po' difficile spiegare questa cosa riguardo
ai formati di file. Io ricordo ancora l'epoca in cui se chiedevo a
qualcuno di mandarmi un'immagine, mi mandava una pagina di Word con
dentro l'immagine. "Guarda che forse è meglio se mi mandi il Jpeg / il
Tiff / il Png". "Cosa? Io ti ho mandato l'immagine che mi hai chiesto.
Cosa c'è che non va?"
2. Mai dire mai. Esistono programmi che permettono di modificare i file
PDF.
Perché esistono? Perché la gente li vuole.
Se tanta gente chiedesse un programma per smontare una torta nuziale a
più strati in modo da poter sostituire il pan di spagna, sicuramente ci
sarebbe qualcuno che glielo fornisce. Il che non toglie che è sempre
bene prendere le decisioni relative al pan di spagna PRIMA di
confezionare la torta.
3. C'è un PRIMA e un DOPO della confezione di un documento e della sua
formattazione.
Il PRIMA, è che le varie parti del documento devono essere viste in modo
SEMANTICO, non semplicemente VISIVO.
Un titolo è un titolo, non è una riga di testo un po' più grossa, che
sposto di qua e di là e in su e in giù con la barra spaziatrice o col
tasto Enter.
Qualunque programma di elaborazione testi o di impaginazione che si
rispetti, mi permette di fare questo. Scrivo il titolo, poi definisco lo
stile con cui voglio visualizzarlo.
Perché? Se scrivete una letterina di una pagina, va benissimo sistemare
il titolo con la barra spaziatrice. Ma se scrivete un documento un po'
complesso, con capitoli e sottocapitoli e paragrafi e sotto paragrafi,
se fate così diventate scemi, e soprattutto producete una schifezza.
4. Se quello è il PRIMA, il DOPO è la visualizzazione, che vi dà il
documento così come lo volete vedere sullo schermo o sulla pagina. In
questa seconda fase gli stili vengono trasformati in dimensioni di
caratteri, spazi di qua e spazi di là, millimetri e frazioni di
millimetro ecc.
In questa fase, il valore semantico della formattazione non interessa
più.
Questo perché? Perché l'occhio umano è in grado di interpretare
semanticamente quello che vede. Se aprite un libro, e vedete una riga
scritta così e cosà, spaziata di tanto virgola qualcosa dal resto del
testo, sapete subito che si tratta del titolo. Non avete bisogno che ve
lo dica nessuno: si vede subito.
Ma non è detto che un programma OCR sia in grado di farlo.
Magari sarà capace di dire qual è la font, qual è la dimensione del
carattere ecc. Ma dal suo punto di vista, non è essenziale stabilire che
quello è un titolo.
5. Quindi, se voi affidate una pagina stampata - o un PDF, che in fondo
è la stessa cosa - ad un OCR, magari vi renderà esattamente le
dimensioni del titolo, ma ben difficilmente saprà - non ha interesse a
sapere - che è un titolo. Magari vi dà un documento che ha *quasi* lo
stesso aspetto dell'originale; ma se cercate di modificarlo, son dolori.
Il programma OCR vi dirà cosa c'è in quella pagina; ma non vi spiegherà
PERCHÉ le cose sulla pagina sono visualizzate in quel modo. E quindi se
intervenite direttamente sulla visualizzazione, avrete in genere
risultati imprevedibili.
6. Per questo, ogni lavoro di acquisizione di un testo, o si limita a
fare una descrizione grezza della pagina - più o meno come la farebbe
una fotocopiatrice; oppure vi impone di smontare il risultato, in modo
da separare nuovamente il TESTO dagli STILI, dando all'uno e all'altro
il proprio valore semantico.
--
Maurizio Pistone strenua nos exercet inertia Hor.
http://blog.mauriziopistone.it
http://www.lacabalesta.it
Maurizio Pistone strenua nos exercet inertia Hor.
http://blog.mauriziopistone.it
http://www.lacabalesta.it