Dedicato agli utenti della Mela
 

PDF con OCR, rimuovere le immagini

Pinuccio 5 Set 2017 16:37
Mi hanno mandato un ******* in PDF che è stato prima scansito e poi
convertito con un OCR.

Il ******* ora contiene sia le immagini riprese con lo scanner che il
testo ricavato con l'OCR e pesa molto.

Esiste un modo per rimuovere le immagini che ormai sono inutili?
Gabriele - onenet 5 Set 2017 21:55
Pinuccio wrote on 05/09/17 16:37:
> Mi hanno mandato un ******* in PDF che è stato prima scansito e poi
convertito con
> un OCR.
>
> Il ******* ora contiene sia le immagini riprese con lo scanner che il testo
> ricavato con l'OCR e pesa molto.
>
> Esiste un modo per rimuovere le immagini che ormai sono inutili?
>

Per ridurne il peso: smallpdf.com
Per togliere parti della pagina con PDFpen (però non so se con la versione di
prova si possa poi registrare): https://smilesoftware.com/PDFpen
Pinuccio 5 Set 2017 22:11
On 2017-09-05 19:55:21 +0000, Gabriele - onenet said:

> Pinuccio wrote on 05/09/17 16:37:
>> Mi hanno mandato un ******* in PDF che è stato prima scansito e poi
>> convertito con
>> un OCR.
>>
>> Il ******* ora contiene sia le immagini riprese con lo scanner che il testo
>> ricavato con l'OCR e pesa molto.
>>
>> Esiste un modo per rimuovere le immagini che ormai sono inutili?
>>
>
> Per ridurne il peso: smallpdf.com
> Per togliere parti della pagina con PDFpen (però non so se con la
> versione di prova si possa poi registrare):
> https://smilesoftware.com/PDFpen

Quando si utilizza un OCR su un ******* PDF ottenuto con lo scanner
(quindi le pagine in realtà sono delle immagini) il ******* pdf finale
maniene in sottofondo le immagini e sopra mette il testo ottenuto con
l'OCR.

Con i normali programmi le immagini che sono in sottofondo non si
riesce a ne a selezionarle ne a toglierle e un ******* di meno di 200
pagine pesa circa 130 mega.

Se fosse di solo testo peserebbe 100 volte meno.
fabrizio venerandi 6 Set 2017 09:22
Il 05/09/17 16:37, Pinuccio ha scritto:
> Mi hanno mandato un ******* in PDF che è stato prima scansito e poi
> convertito con un OCR.
>
> Il ******* ora contiene sia le immagini riprese con lo scanner che il testo
> ricavato con l'OCR e pesa molto.
>
> Esiste un modo per rimuovere le immagini che ormai sono inutili?
>


In automatico non saprei... a mano potresti provare con Photoline ad
esempio.
Lidrie 6 Set 2017 10:56
martedì 05/09/2017 22:11:02 Pinuccio in
<oon0cm$ejt$1@virtdiesel.mng.cu.mi.it> scrisse :

> Quando si utilizza un OCR su un ******* PDF ottenuto con lo scanner (quindi le

> pagine in realtà sono delle immagini) il ******* pdf finale maniene in
> sottofondo le immagini e sopra mette il testo ottenuto con l'OCR.

> Con i normali programmi le immagini che sono in sottofondo non si riesce a ne
> a selezionarle ne a toglierle

Anziché togliere le immagini, ti conviene estrarre il testo e salvarlo in
nuovo PDF.
Prova con un programma basato sulla libreria xpdf, tipo questo:
http://www.debenu.com/products/development/debenu-pdf-library/features/pdf-content-extraction/

--
Sans
Pinuccio 6 Set 2017 16:26
On 2017-09-06 08:56:59 +0000, Lidrie said:

> martedì 05/09/2017 22:11:02 Pinuccio in
> <oon0cm$ejt$1@virtdiesel.mng.cu.mi.it> scrisse :
>
>> Quando si utilizza un OCR su un ******* PDF ottenuto con lo scanner
>> (quindi le pagine in realtà sono delle immagini) il ******* pdf finale
>> maniene in sottofondo le immagini e sopra mette il testo ottenuto con
>> l'OCR.
>
>> Con i normali programmi le immagini che sono in sottofondo non si
>> riesce a ne a selezionarle ne a toglierle
>
> Anziché togliere le immagini, ti conviene estrarre il testo e salvarlo
> in nuovo PDF.
> Prova con un programma basato sulla libreria xpdf, tipo questo:
>
http://www.debenu.com/products/development/debenu-pdf-library/features/pdf-content-extraction/

>

Queste sono delle librerie per gli sviluppatori di sw...

Grazie comunque
Pinuccio 6 Set 2017 16:57
On 2017-09-06 07:22:08 +0000, fabrizio venerandi said:

> Il 05/09/17 16:37, Pinuccio ha scritto:
>> Mi hanno mandato un ******* in PDF che è stato prima scansito e poi
>> convertito con un OCR.
>>
>> Il ******* ora contiene sia le immagini riprese con lo scanner che il testo
>> ricavato con l'OCR e pesa molto.
>>
>> Esiste un modo per rimuovere le immagini che ormai sono inutili?
>>
>
>
> In automatico non saprei... a mano potresti provare con Photoline ad esempio.

Sì, con Photoline funziona perché vede il testo e l'immagine ricalcata
dall'OCR come due livelli distinti e quindi permette di cancellare
quello che non ti serve.

La cosa buffa, diciamo così, è che l'immagine è in realtà è diventata
una schifezza indecifrabile e non si capisce quindi cosa la tenga a
fare.

Intelligentemente, a differenza di Photoshop, salva poi il ******* PDF in
un PDF vero... quindi il testo rimane testo e non ritorna immagine.

Peccato solo che il mio documento è di 144 pagine e devo lavorarle una
ad una... Dubito che troverò il tempo e la voglia, me lo tengo pesante
e amen.

1000 Grazie lo stesso
A:T: 9 Set 2017 13:01
Il 05/09/2017 16:37, Pinuccio ha scritto:
> Mi hanno mandato un ******* in PDF che è stato prima scansito e poi
> convertito con un OCR.
>
> Il ******* ora contiene sia le immagini riprese con lo scanner che il testo
> ricavato con l'OCR e pesa molto.
>
> Esiste un modo per rimuovere le immagini che ormai sono inutili?
>

Ci sono degli OCR veri e propri che trasformano i PDF in ******* di testo
editabile. In genere sono abbastanza efficienti.
Abby finereader funziona bene ma costa un centinaio di euri...
Acrobat lo fa ma non so come si comporta con i PDF derivati da scansione.

A.
Pinuccio 9 Set 2017 14:21
On 2017-09-09 11:01:08 +0000, A:T: said:

> Il 05/09/2017 16:37, Pinuccio ha scritto:
>> Mi hanno mandato un ******* in PDF che è stato prima scansito e poi
>> convertito con un OCR.
>>
>> Il ******* ora contiene sia le immagini riprese con lo scanner che il
>> testo ricavato con l'OCR e pesa molto.
>>
>> Esiste un modo per rimuovere le immagini che ormai sono inutili?
>>
>
> Ci sono degli OCR veri e propri che trasformano i PDF in ******* di testo
> editabile. In genere sono abbastanza efficienti.
> Abby finereader funziona bene ma costa un centinaio di euri...
> Acrobat lo fa ma non so come si comporta con i PDF derivati da scansione.
>
> A.

Ti sei perso una puntata...

Il passaggio con l'OCR è già stato effettuato, quindi il testo è già
testo editabile.

La qualità è impressionante perché praticamente non ci sono errori,
ovviamente le pagine scansionate erano di buona qualità.

Il mio problema è che il programma che ha effettuato la conversione ha
tenuto in sottofondo le pagine scansionate in formato immagine (anche
se ormai del tutto illeggibili)

Io avrei bisogno di trovare un modo automatico per rimuovere tutte
queste immagini di sottofondo e ottenere un ******* PDF con il solo testo.
A:T: 9 Set 2017 16:43
Il 09/09/2017 14:21, Pinuccio ha scritto:

>
> Ti sei perso una puntata...
>
> Il passaggio con l'OCR è già stato effettuato, quindi il testo è già
> testo editabile.

questo l'avevo capito.

> Io avrei bisogno di trovare un modo automatico per rimuovere tutte
> queste immagini di sottofondo e ottenere un ******* PDF con il solo testo.
>
se esporti in word con Acrobat, potresti ottenere un documento
editabile. A questo punto esporti come "solo testo" e hai il documento
senza immagini. Se devi conservare la formattazione, non credo che ci
sia altra via che procedere "a manina" o reimpaginare il documento. Non
avendo indicazioni sull'uso che intendi farne, di più non so dirti.
A.
... 9 Set 2017 20:14
Pinuccio <pinuccio@nospam.com> wrote:

> Io avrei bisogno di trovare un modo automatico per rimuovere tutte
> queste immagini di sottofondo e ottenere un ******* PDF con il solo testo.


Ghostscript con dFILTERIMAGE?


--
so long, and thanks for all the fish

Links
Giochi online
Dizionario sinonimi
Leggi e codici
Ricette
Testi
Webmatica
Hosting gratis
   
 

Dedicato agli utenti della Mela | Tutti i gruppi | it.comp.macintosh | Notizie e discussioni macintosh | Macintosh Mobile | Servizio di consultazione news.