2010-10-11 21:13:58 +0000 2010-10-11 21:13:58 +0000
40
40

Come copiare il testo da un PDF senza perdere la formattazione?

Quando copio il testo da un file PDF e lo inserisco in un editor di testo, finisce per essere manipolato in vari modi. La formattazione come il grassetto e il corsivo si perdono; le interruzioni di linea morbide all'interno di un paragrafo di testo vengono convertite in interruzioni di linea rigide; i trattini per spezzare una parola su due linee vengono conservati anche quando non dovrebbero esserlo; e le virgolette singole e doppie vengono sostituite con i segni ?

Idealmente, mi piacerebbe essere in grado di copiare il testo da un PDF e far convertire la formattazione in codici HTML, le “virgolette intelligenti” convertite in “ e ‘, e le interruzioni di linea fatte correttamente. C'è un modo per farlo?

Risposte (9)

54
54
54
2010-10-11 21:30:12 +0000

In primo luogo, dovete capire cos'è un PDF. I PDF sono progettati per imitare una pagina stampata, e sono progettati solo come formato di output, non come formato di input. un PDF è fondamentalmente una mappa contenente l'esatta posizione dei caratteri (singole lettere o punteggiatura, ecc.) o delle immagini. Nella maggior parte dei casi, un PDF non memorizza nemmeno informazioni su dove finisce una parola e dove ne inizia un'altra, tanto meno cose come le pause morbide contro le pause dure per i finali dei paragrafi.

(Alcuni PDF recenti memorizzano alcune informazioni su questa roba, ma questa è una nuova tecnologia, e saresti fortunato a trovare PDF come questo. Anche se lo faceste, il vostro visualizzatore di PDF potrebbe non saperlo.)

In ogni caso, spetta al vostro software implementare una sorta di “intelligenza artificiale” per estrarre semplicemente dalla posizione dei singoli caratteri ciò che è una parola, ciò che è un paragrafo e così via. Software diversi lo faranno meglio di altri, e dipenderà anche da come è stato realizzato il PDF. In ogni caso, non ci si deve aspettare risultati perfetti. Avere il PDF in uscita non è la stessa cosa che avere il documento di origine. Molto meglio cercare di ottenerlo se si può.

La soluzione standard al vostro tipo di problema è usare Adobe Acrobat Professional (quello costoso, non il lettore gratuito) per convertire il PDF in HTML. Anche così non si otterranno risultati perfetti.

Esiste un software gratuito che può essere utilizzato per estrarre testo dai PDF con una parte di formattazione intatta, ma anche in questo caso non aspettatevi risultati perfetti. Vedi, ad esempio, calibre (che può convertire in formato RTF), pdftohtml/pdfreflow o il AbiWord word processor (con tutti i plugin di importazione/esportazione abilitati). C'è anche un plugin di importazione PDF per OpenOffice.

Ma non aspettatevi la perfezione con nessuno di questi risultati. State andando controcorrente. Il PDF non è inteso come formato di input modificabile.

8
8
8
2013-01-24 07:05:37 +0000

Un'altra opzione è quella di scaricare e iniziare a utilizzare il visualizzatore gratuito di pdf, Foxit (il suo buono). Poi si può ‘Salva con nome’ e scegliere .txt per convertirlo in un file di testo. In questo modo si conserva tutta la formattazione. Non so se si può fare lo stesso in Adobe perché ho smesso di usarlo qualche tempo fa quando ho convertito a Foxit.

5
5
5
2012-12-01 13:48:55 +0000

Aprite il vostro file PDF con un browser (Google chrome e firefox sono testati) e copiate il vostro testo.

5
5
5
2012-12-01 14:29:34 +0000

C'è un ottimo strumento online chiamato Sej-da. Si occupa di manipolazione avanzata dei PDF. Non c'è nessun software da scaricare. Essendo un nuovo strumento online è attualmente ancora in Beta. Permette di estrarre testo da un PDF, oltre a fornire una miriade di altre funzionalità PDF http://www.sejda.com/ (http://revision3.com/tzdaily/sejda-online-pdf)

Una breve rassegna video delle funzioni sejda è stata fatta il 14 novembre 2012 dalla Revisione 3 si trova qui: [ http://revision3.com/tzdaily/sejda-online-pdf ]&003

4
4
4
2012-09-06 19:00:19 +0000

Per questo è possibile utilizzare Adobe Acrobat Pro.

Per le tabelle: Con Acrobat 9/10 c'era una funzione di selezione delle tabelle. Con Acrobat X è sufficiente fare clic su Salva con nome > Foglio di calcolo > Excel. Esso concatena anche le pagine in un unico lungo foglio di calcolo. Funzione impressionante.

Per il testo: Esiste una funzione simile per l'esportazione in MS Word. Save As > Word > Word Doc.

Fonti:

0
0
0
2015-04-13 11:19:56 +0000

Foxit passerà dalla visualizzazione del file originale come normale PDF o come testo premendo Ctrl + 6 (Con un po’ di gioco con il livello di zoom del modo testo non c'è molto salto in avanti e indietro tra la lettura e la copia).

0
0
0
2017-02-25 23:17:51 +0000

Ho trovato questo molto utile ( Remove Line Breaks ):

Ecco un trucco utile per risolvere rapidamente questo problema senza dover rimuovere manualmente tutte le interruzioni di linea. Fondamentalmente, tutto ciò che fa è sostituire automaticamente tutte le interruzioni di riga indesiderate con un unico spazio, facendo scorrere tutto il testo in un unico paragrafo:

1- copiare il testo che si desidera dal PDF.

2- incollare in un nuovo documento Word.

3- cliccare “modifica” poi “sostituisci”

4- assicurarsi di essere nel campo “trova cosa”

5- cliccare “di più” poi “speciale”

6- selezionare “segno di paragrafo” (in cima all'elenco)

7- cliccare nel campo “sostituisci con”

8- premere una volta la barra spaziatrice

9- cliccare “sostituisci tutti”

10- cliccare “ok” poi chiudere la casella “trova & sostituisci”.

-1
-1
-1
2016-01-22 16:15:08 +0000

Stavo cercando di salvare il testo e il formato di un pdf organizzato in una tabella. In Acrobat Professional, mi sono reso conto che c'è un'opzione ‘Salva con nome’ che permette di salvare come documento excel. Questo ha funzionato bene per le mie esigenze. Ho anche notato che c'è anche l'opzione “Salva con nome”. Non l'ho provata però.

-1
-1
-1
2015-12-11 04:23:43 +0000

Potete copiare da adobe reader in MS Excel e formattare (tabella) nel modo desiderato e poi copiare e incollare da Excel. Questa soluzione funziona alla grande. Non è necessario acquistare costose copie professionali di adobe.