Buonasera,
scrivo per una mera curiosità...
Ho un file PDF costituito da N. pagine ed ognuna delle pagine ha, nella stessa posizione, dei numeri e/o delle parole come ad esempio il titolo di un articolo scientifico.
Vorrei sapere se c'è un modo queste informazioni ed inserirle in un foglio excel... In ogni riga devono essere riportate le informazioni di una pagina. Ad esempio nella prima riga le informazioni di pagina 1, nella riga 2 le informazoni di pagina 2, ecc.
Non si tratta di una semplice "conversione" bensì di una vera e propria estrazione.
Conoscete uno strumento per poter realizzare c'è ?
Acquisizione informazioni da pagine PDF L’argomento è risolto
-
- Messaggi: 60 | Topic creati
- Iscritto il: sab 4 set 2021, 19:13
- Ringraziato: 2 volte
-
- Messaggi: 2598 | Topic creati
- Iscritto il: dom 28 giu 2020, 19:41
- Luogo: Bologna
- Ringraziato: 706 volte
- Contatta:
Acquisizione informazioni da pagine PDF
@Master
Se il pdf è un “vero” file pdf e non una mera scansione allora già con le ultime versioni di Excel/Power Bi è possibile estrarre i dati in formato tabellare (dipende come è stata impostata la struttura del file).
Se invece è una scansione si può provare ad utilizzare strumenti più avanzati per convertire un immagine in testo prima di eseguire l’estrazione.
Ad esempio ci sono librerie ad hoc, es in Python, che consentono l’estrazione ed elaborazione di dati in pdf che poi potrai salvare in excel.
Andrea
Se il pdf è un “vero” file pdf e non una mera scansione allora già con le ultime versioni di Excel/Power Bi è possibile estrarre i dati in formato tabellare (dipende come è stata impostata la struttura del file).
Se invece è una scansione si può provare ad utilizzare strumenti più avanzati per convertire un immagine in testo prima di eseguire l’estrazione.
Ad esempio ci sono librerie ad hoc, es in Python, che consentono l’estrazione ed elaborazione di dati in pdf che poi potrai salvare in excel.
Andrea
-
Autore del topic - Messaggi: 60 | Topic creati
- Iscritto il: sab 4 set 2021, 19:13
- Ringraziato: 2 volte
Acquisizione informazioni da pagine PDF
Il file di cui dispongo è un vero PDF e non una scansione.
Ho provato a fare un tentativo con PQuery ma non essendo delle mere tabelle ma una disposizione non tabellare ....
Non ho ottenuto grandi risultati.
Ho trovato qualche link su un certo PDFMiner. Può essere una strada da percorrere? Altre strade user friedly?
Ho provato a fare un tentativo con PQuery ma non essendo delle mere tabelle ma una disposizione non tabellare ....
Non ho ottenuto grandi risultati.
Ho trovato qualche link su un certo PDFMiner. Può essere una strada da percorrere? Altre strade user friedly?
- Allegati
-
- Esempio.xlsx
- (8.48 KiB) Scaricato 48 volte
-
- Esempio.pdf
- (82.7 KiB) Scaricato 47 volte
-
- Messaggi: 2598 | Topic creati
- Iscritto il: dom 28 giu 2020, 19:41
- Luogo: Bologna
- Ringraziato: 706 volte
- Contatta:
Acquisizione informazioni da pagine PDF
@Master
Questo è quello che ho ottenuto utilizzando Power Query su Excel ed il tuo file demo.
Andrea
Questo è quello che ho ottenuto utilizzando Power Query su Excel ed il tuo file demo.
Andrea
-
Autore del topic - Messaggi: 60 | Topic creati
- Iscritto il: sab 4 set 2021, 19:13
- Ringraziato: 2 volte
Acquisizione informazioni da pagine PDF
Ho fatto qualche prova con l'originale ma con PowerQuery la disposizione diventa completamente irregolare.
Mi sembra impossbile creare delle regole per ricondurre ad una struttura tabellare
Probabilmente il PDF non è propriamente un "Vero"PDF.
Quindi, Python?
Mi sembra impossbile creare delle regole per ricondurre ad una struttura tabellare
Probabilmente il PDF non è propriamente un "Vero"PDF.
Quindi, Python?
-
- Messaggi: 2598 | Topic creati
- Iscritto il: dom 28 giu 2020, 19:41
- Luogo: Bologna
- Ringraziato: 706 volte
- Contatta:
Acquisizione informazioni da pagine PDF
@Master
Python ha sicuramente del potenziale in più… ma comunque non aspettarti miracoli se i dati disposti nei tuoi pdf sono confusionari.
Andrea
Python ha sicuramente del potenziale in più… ma comunque non aspettarti miracoli se i dati disposti nei tuoi pdf sono confusionari.
Andrea
-
Autore del topic - Messaggi: 60 | Topic creati
- Iscritto il: sab 4 set 2021, 19:13
- Ringraziato: 2 volte