Acquisizione informazioni da pagine PDF L’argomento è risolto

Discussioni sulla BI e i software utilizzati, che non riguardano una specifica piattaforma o linguaggio di programmazione
Rispondi

Master
Messaggi: 60 | Topic creati
Iscritto il: sab 4 set 2021, 19:13
Ringraziato: 2 volte

Acquisizione informazioni da pagine PDF

Messaggio da Master »

Buonasera,

scrivo per una mera curiosità...

Ho un file PDF costituito da N. pagine ed ognuna delle pagine ha, nella stessa posizione, dei numeri e/o delle parole come ad esempio il titolo di un articolo scientifico.

Vorrei sapere se c'è un modo queste informazioni ed inserirle in un foglio excel... In ogni riga devono essere riportate le informazioni di una pagina. Ad esempio nella prima riga le informazioni di pagina 1, nella riga 2 le informazoni di pagina 2, ecc.

Non si tratta di una semplice "conversione" bensì di una vera e propria estrazione.

Conoscete uno strumento per poter realizzare c'è ?


Avatar utente

Andrea90
Messaggi: 2598 | Topic creati
Iscritto il: dom 28 giu 2020, 19:41
Luogo: Bologna
Ringraziato: 706 volte
Contatta:

Acquisizione informazioni da pagine PDF

Messaggio da Andrea90 »

@Master

Se il pdf è un “vero” file pdf e non una mera scansione allora già con le ultime versioni di Excel/Power Bi è possibile estrarre i dati in formato tabellare (dipende come è stata impostata la struttura del file).

Se invece è una scansione si può provare ad utilizzare strumenti più avanzati per convertire un immagine in testo prima di eseguire l’estrazione.

Ad esempio ci sono librerie ad hoc, es in Python, che consentono l’estrazione ed elaborazione di dati in pdf che poi potrai salvare in excel.

Andrea
Se hai gradito l'aiuto che hai ricevuto considera di contribuire alle spese per il mantenimento del forum facendo una libera DONAZIONE --> Link

Ricordarsi di segnare come "RISOLTE" le discussioni per le quali si è ricevuto un feedback positivo. Per vedere come fare --> Link

Autore del topic
Master
Messaggi: 60 | Topic creati
Iscritto il: sab 4 set 2021, 19:13
Ringraziato: 2 volte

Acquisizione informazioni da pagine PDF

Messaggio da Master »

Il file di cui dispongo è un vero PDF e non una scansione.

Ho provato a fare un tentativo con PQuery ma non essendo delle mere tabelle ma una disposizione non tabellare ....
Non ho ottenuto grandi risultati.

Ho trovato qualche link su un certo PDFMiner. Può essere una strada da percorrere? Altre strade user friedly?
Allegati
Esempio.xlsx
(8.48 KiB) Scaricato 48 volte
Esempio.pdf
(82.7 KiB) Scaricato 47 volte
Avatar utente

Andrea90
Messaggi: 2598 | Topic creati
Iscritto il: dom 28 giu 2020, 19:41
Luogo: Bologna
Ringraziato: 706 volte
Contatta:

Acquisizione informazioni da pagine PDF

Messaggio da Andrea90 »

@Master

Questo è quello che ho ottenuto utilizzando Power Query su Excel ed il tuo file demo.

Immagine

Andrea
Se hai gradito l'aiuto che hai ricevuto considera di contribuire alle spese per il mantenimento del forum facendo una libera DONAZIONE --> Link

Ricordarsi di segnare come "RISOLTE" le discussioni per le quali si è ricevuto un feedback positivo. Per vedere come fare --> Link

Autore del topic
Master
Messaggi: 60 | Topic creati
Iscritto il: sab 4 set 2021, 19:13
Ringraziato: 2 volte

Acquisizione informazioni da pagine PDF

Messaggio da Master »

Ho fatto qualche prova con l'originale ma con PowerQuery la disposizione diventa completamente irregolare.
Mi sembra impossbile creare delle regole per ricondurre ad una struttura tabellare
Immagine
Probabilmente il PDF non è propriamente un "Vero"PDF.
Quindi, Python?
Avatar utente

Andrea90
Messaggi: 2598 | Topic creati
Iscritto il: dom 28 giu 2020, 19:41
Luogo: Bologna
Ringraziato: 706 volte
Contatta:

Acquisizione informazioni da pagine PDF

Messaggio da Andrea90 »

@Master

Python ha sicuramente del potenziale in più… ma comunque non aspettarti miracoli se i dati disposti nei tuoi pdf sono confusionari.

Andrea
Se hai gradito l'aiuto che hai ricevuto considera di contribuire alle spese per il mantenimento del forum facendo una libera DONAZIONE --> Link

Ricordarsi di segnare come "RISOLTE" le discussioni per le quali si è ricevuto un feedback positivo. Per vedere come fare --> Link

Autore del topic
Master
Messaggi: 60 | Topic creati
Iscritto il: sab 4 set 2021, 19:13
Ringraziato: 2 volte

Acquisizione informazioni da pagine PDF

Messaggio da Master »

Grazie mille Andrea90!
Rispondi