Il PDF ha un testo confuso quando si copia e incolla

Question

2010-05-05 13:53:18 +0000 2010-05-05 13:53:18 +0000

26

Il PDF ha un testo confuso quando si copia e incolla

Sto cercando di copiare e incollare del testo da un file PDF.

Tuttavia, ogni volta che incollo il testo originale è un enorme casino di caratteri confusi. Il testo appare come il seguente (questo è solo un piccolo estratto):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14,

Ho provato sia con Adobe che con Foxit PDF reader. Ho fatto un ‘Salva come testo’ in Adobe Reader e il file di testo risultante è lo stesso testo confuso.

Qualche idea su come posso far uscire questo testo non ingarbugliato? (A parte la digitazione manuale… c'è molto testo da estrarre).

Fonte

ngm http://superuser.stackexchange.com/users/17281

Risposte (11)

Domande correlate

10

Rimuovere o impedire l'apertura della barra laterale per impostazione predefinita su Adobe Reader 280

19

Come confrontare le differenze tra due file PDF su Windows? 209

12

Come posso convertire Github-Flavored Markdown in un PDF 159

9

Combinare/unificare file PDF in Windows? 137

6

Come posso nascondere i siti più visitati su Chrome? 87

acatalept http://superuser.stackexchange.com/users/17281 · Answer 1 · 2011-04-08 14:40:29 +0000

11

2011-04-08 14:40:29 +0000

Il modo più semplice per aggirare questo problema è quello di aprire il file in una versione recente di Google Chrome con plugin integrato per la lettura di PDF. Poi si può usare la funzione di ricerca di Chrome per trovare il testo, e il copia-incolla funziona correttamente.

Vorrei votare il commento di pipitas sulla risposta di Shiki, ma non ho le credenziali :( Il problema potrebbe essere la codifica personalizzata dei font, non la crittografia. In Acrobat, clicca su File -> Proprietà, poi clicca sulla scheda Fonts per vedere la codifica, e sulla scheda Sicurezza per vedere se è criptato.

Fonte

acatalept http://superuser.stackexchange.com/users/17281

Nick Olszanski http://superuser.stackexchange.com/users/17281 · Answer 2 · 2012-03-18 14:36:54 +0000

4

2012-03-18 14:36:54 +0000

C'è un altro modo molto facile per fare un workaround :)

Basta stampare il documento usando CutePdf, la stampante Adobe 2 Pdf o qualsiasi altra cosa simile. La linea di fondo è che devi stampare nel formato pdf.

In molti casi rimuoverà facilmente il problema.

Fonte

Nick Olszanski http://superuser.stackexchange.com/users/17281

Daniel http://superuser.stackexchange.com/users/17281 · Answer 3 · 2010-05-18 22:18:44 +0000

Ho scoperto questo problema con i PDF che ho creato, e credo di aver rintracciato la fonte del problema: usando Anteprima di Mac OS X per ridurre le dimensioni del file PDF.

Avevo creato alcuni filtri Quartz usando Colorsync Utility per comprimere le immagini nei PDF per ridurre la dimensione complessiva dei file dei PDF con immagini. Come descritto qui: http://www.macosxhints.com/article.php?story=20031106133852693

Ho scoperto che sono in grado di copiare e incollare facilmente il testo dal file PDF originale (non compresso), ma dopo aver eseguito quel PDF attraverso un filtro Reduce File Size che ho creato, il PDF compresso risultante non copia incolla chiaramente (viene fuori come le stringhe che hai postato).

Tuttavia eseguendo lo stesso PDF originale attraverso la funzione Document > Reduce File Size di Adobe Acrobat Pro, il PDF compresso risultante può copiare e incollare il testo con successo.

Quindi, questo non è totalmente utile nel tuo caso, presumendo che il tuo file PDF sia stato ricevuto da un'altra parte e non puoi arrivare alla versione originale, se è stato effettivamente compresso in qualche modo. Ma questa potrebbe essere la spiegazione - che il file è stato manipolato in qualche modo nel tentativo di ridurre le dimensioni del file.

Questo potrebbe essere utile per i creatori di contenuti che si imbattono in problemi simili copiando e incollando testo dai PDF - fai attenzione ad usare i filtri Quartz di OS X per ridurre i tuoi PDF!

–edit– Ho anche notato questo problema quando combino i PDF con Anteprima. I due PDF sorgente possono essere copiati e incollati bene, ma quando si trascina una pagina da un file nell'altro file, e poi si salva il PDF combinato, il testo nel documento combinato non può essere copiato/incollato. Questi sono due documenti generati entrambi allo stesso tempo con Filemaker Pro 11 su Mac - non posso immaginare che abbiano codifiche diverse o cose simili.

Gavin Miller http://superuser.stackexchange.com/users/17281 · Answer 4 · 2013-01-03 20:36:58 +0000

3

2013-01-03 20:36:58 +0000

Soluzione che ha funzionato per me:

Caricare il documento su Google Drive/Docs
Google lo importerà (a partire dal 2013) come PDF
Aprire la vista PDF e scegliere File > Open With > Google Docs
Ci vorrà circa un minuto per esportare il documento

I risultati non erano perfetti, ma mi hanno portato all'80% e mi hanno fornito abbastanza testo da non dover riscrivere tutto!

Fonte

Gavin Miller http://superuser.stackexchange.com/users/17281

user210118 http://superuser.stackexchange.com/users/17281 · Answer 5 · 2013-03-24 23:59:49 +0000

SOLVATO: (ha funzionato per me su Windows 8, Acrobat XI, Office 2010)

Opzione 1:

Stampa da Acrobat usando “Microsoft XPS Document Writer” L'output è: “your file name.oxps”
Aprire “…oxps” con XPS Viewer. *(vedi link per il download nei commenti qui sotto)
Stampare in PDF (Acrobat PDF, o CutePDF), usando la massima risoluzione (600 DPI).
Aprire con Acrobat e usare l'opzione OCR (immagine ricercabile (esatta)).

BINGO!

Commenti:

Usare la risoluzione più alta e l'opzione Immagine ricercabile (esatta) salverà il tuo testo senza perdere il suo aspetto pulito. La bassa risoluzione renderà il tuo testo leggibile, ma dall'aspetto schifoso.
Scarica Microsoft XPS (file): http://www.microsoft.com/en-us/download/details.aspx?id=11816
Se non sai cos'è l'OCR, o dove trovare Searchable Image (exact), o come stampare usando “Microsoft XPS Document Writer”, PER FAVORE, cerca su Google, per le tue migliori esperienze.

*Scarica solo se non hai XPS installato.

Opzione 2:

Fate lo stesso, ma salvate come immagine (png, tiff, …), poi dovrete riunire tutte le pagine in un file “PDF”.

Reuti http://superuser.stackexchange.com/users/17281 · Answer 6 · 2011-10-26 18:58:50 +0000

Uno dei miei utenti ha appena riportato lo stesso problema (il PDF è stato creato con Distiller per Windows), che il testo copiato è solo testo confuso e non può cercare all'interno di un documento. Ho provato sul mio Mac e non ho trovato alcun problema. Si è scoperto che ho usato l'applicazione Anteprima di Apple, mentre lui ha usato Adobe Reader sulla sua macchina Windows. Poi ho provato Adobe Reader sul mio Mac e ho riscontrato lo stesso effetto. A me sembra che:

Adobe Reader sta cercando nel testo salvato.
Anteprima di Apple copia e cerca dopo aver applicato il vettore di codifica.

Non posso dirlo con certezza, ma spiegherebbe la mia osservazione. E permetterebbe effettivamente di fare tutti i tipi di codifica quando si salvano i file combinati/ridotti come descritto in un altro post qui: con Anteprima si può ancora tirare fuori il testo di nuovo.

All'inizio ho pensato che sarebbe stato più logico codificare il sottoinsieme del font incorporato come voci contigue invece di lasciare dei buchi all'interno e usare la posizione originale del carattere. Ma poi mi sono reso conto che usando un vettore di codifica del sottoinsieme di caratteri con voci originali, i caratteri che sono usati spesso possono avere meno bit impostati a 1 nel loro byte e possono essere compressi in modo migliore (in questo modo si può abbassare l'entropia del testo complessivo).

Emil http://superuser.stackexchange.com/users/17281 · Answer 7 · 2010-06-21 20:51:02 +0000

C'è il rischio che le informazioni non siano affatto recuperabili. I documenti PDF sono essenzialmente un documento sovrapposto ad un altro, uno semplice testo, l'altro un'immagine. Quando si copia e incolla dal documento, si segna il testo guardando l'immagine, ma ciò che viene copiato negli appunti è il pezzo corrispondente della parte di testo.

A seconda di come viene creato il documento, la qualità e la disponibilità della parte di testo possono essere molto diverse. Se si salva un documento di videoscrittura in formato PDF, usando Acrobat, Word, un driver di stampa PDF o qualsiasi altro metodo, la qualità sarà solitamente eccellente, poiché il file di testo può essere creato dal testo dell'originale. Alcuni caratteri speciali possono risultare distorti, ma il testo semplice di solito va bene.

Se il documento viene creato da un'immagine scannerizzata, tuttavia, la parte di testo viene tipicamente creata dall'elaborazione OCR dell'immagine, che può produrre risultati piuttosto spiacevoli, specialmente se l'originale non è ottimale per lo scopo.

Un cattivo programma usato per creare il PDF, o le impostazioni sbagliate, potrebbero anche far sì che la parte di testo diventi completamente confusa, come potrebbero, percettibilmente, alcuni tipi di crittografia eseguiti sul file dopo che è stato creato.

La linea di fondo è che se la parte di testo del documento è davvero brutta, non c'è modo di migliorarla. La cosa migliore sarebbe rimuovere del tutto la parte di testo e far rifare al programma il processo OCR. Penso che potrebbe essere possibile farlo da Acrobat, ma non ne sono del tutto sicuro.

Kurt Pfeifle http://superuser.stackexchange.com/users/17281 · Answer 8 · 2010-06-24 14:23:21 +0000

Una possibile ragione potrebbe essere che il font incorporato nel PDF stava usando una codifica personalizzata, che non viene applicata correttamente quando si copia il testo dal PDF.

Puoi applicare diversi metodi per risparmiarti di digitare manualmente tutto il contenuto.

Hai provato ad estrarre il testo con uno degli strumenti ‘pdftotext.exe’ scaricabili in rete? (Ti consiglio quello incluso in ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip ).
L'ultima versione di Acrobat Reader ha un'opzione “Salva come testo…”. Questo non usa il “copy'n'paste” (che ti ha dato il testo confuso), ma probabilmente usa le stesse routine del software usate per rendering del testo sullo schermo, e può quindi produrre risultati più utilizzabili.
Se ‘2.’ non funziona, e se hai accesso ad Acrobat Professional: prova a ridistillare il PDF usando uno dei profili Distiller per l'inserimento dei caratteri.
Se ‘3.’ non funziona, nonostante tu abbia accesso ad Acrobat Professional: prova a ridistillare il PDF, ma questa volta dovresti usare l'opzione ‘stampa come immagine’ (disponibile tramite il pulsante ‘Avanzate’ nell'angolo in basso a sinistra della finestra principale di stampa). Assicurati di usare 600dpi (anche se questo potrebbe produrre un file enorme). Il PDF risultante si apre di nuovo in Acrobat Pro. Ora applica l'algoritmo ‘OCR’ di Acrobat al file, che risulterà in un testo incorporato (non usato per il rendering sullo schermo nel Reader, ma usato per la ricerca e l'evidenziazione delle stringhe). Ora puoi provare di nuovo ad estrarre il testo da questo PDF, usando uno dei metodi discussi sopra.

Jhonrie http://superuser.stackexchange.com/users/17281 · Answer 9 · 2013-03-15 21:19:30 +0000

-->

Non ho provato l'opzione Google Docs perché non è ancora supportata nel mio ufficio. Tuttavia, stampando il file su “ScanSoft PDF Create!” da “Acrobat 9” (stampa l'intero file come immagine) e aprendo il file stampato in “Nuance PDF Converter” (mi chiede se voglio rendere il file immagine ricercabile e modificabile, cosa che ho scelto), sono stato in grado di avere un documento Word che posso facilmente copiare e incollare. Non è perfetto però, con solo circa l'80-90% di precisione. Ma ehi, hai ancora il file PDF originale con cui confrontare e compensare quelle parti che non possono essere aggiustate. Si risparmia tempo dalla digitazione dell'intera cosa. Il mio 2c.

Ankit http://superuser.stackexchange.com/users/17281 · Answer 10 · 2012-10-02 19:05:44 +0000

1

2012-10-02 19:05:44 +0000

Caricandolo su Google docs e usando l'opzione Visualizza > Plain HTML , dà un testo copiabile corretto all'80% circa con qualche piccolo spazio mancante. Questo thread con risposta accettata a stesso problema lo spiega con un esempio funzionante.

Fonte

Ankit http://superuser.stackexchange.com/users/17281

Jimbo http://superuser.stackexchange.com/users/17281 · Answer 11 · 2011-10-16 21:34:19 +0000

Ho fatto alcuni PDF con testo modificabile con una vecchia versione di Scansoft PDF Converter per Windows XP, e poi ho combinato le pagine nel programma Anteprima del Mac. Per ciascuna delle pagine separate, ho potuto cercare, copiare ed esportare il testo correttamente da Adobe Reader sul Mac. Quando combinate da Anteprima e salvate come un unico file, tutto appariva bene sullo schermo, ma solo alcuni passaggi erano ricercabili/esportabili correttamente. Questo problema mi ha portato qui.

I post qui mi hanno dato alcune buone indicazioni (grazie!). Ho guardato le proprietà dei file per i font. I file a pagina singola da Win XP (dove tutto va bene) dicevano che la codifica era ANSI. Il file combinato in Anteprima (dove il testo copiato è confuso) ha mostrato la codifica per la maggior parte dei font come “Built-in” con alcuni come “Roman”.

La soluzione al mio problema era sotto il mio naso per tutto il tempo - il programma Scansoft stesso può combinare i file. Quando ho usato il combinatore di Scansoft e ho aperto il file sul Mac, tutti i font sono stati mostrati come ANSI-encoded e tutto il testo è stato esportato/copiato perfettamente. Perché mai non li ho combinati in PDF Converter, non lo so. Grazie, poster!

Lo stesso vale aprendo i file su un sistema Linux.

So che questo non spiega i problemi di Windows - a meno che il PDF non abbia origini miste simili?