Pdftotext, converteer een PDF naar tekst vanaf de terminal

over pdftotext

In het volgende artikel gaan we kijken naar pdftotext. Dit is een open source-opdrachtregelhulpprogramma waarmee we dat kunnen converteer PDF-bestanden naar platte tekstbestanden​ Wat het in feite doet, is de tekstgegevens uit de PDF-bestanden extraheren. Deze software is gratis en wordt standaard meegeleverd in veel Gnu / Linux-distributies.

In de volgende regels gaan we een tool voor de terminal zien, maar met hetzelfde doel om tekst uit PDF-bestanden te extraheren je kunt ook een grafische tool gebruiken zoals kaliber​ Het is vermeldenswaard dat zowel de grafische tool als degene die we in de terminal kunnen gebruiken, ze kunnen de tekst niet extraheren als de pdf uit afbeeldingen bestaat (foto's, gescande boekafbeeldingen, enz.).

Op de meeste Gnu / Linux-distributies, pdftotext is inbegrepen als onderdeel van het poppler-utils-pakket​ Deze tool is een opdrachtregelprogramma dat converteer PDF-bestanden naar platte tekst​ Hierin vinden we veel beschikbare opties, waaronder de mogelijkheid om het bereik van de te converteren pagina's te specificeren, de mogelijkheid om de originele fysieke lay-out van de tekst zo goed mogelijk te behouden, regeleinden in te stellen en zelfs te werken met wachtwoordbeveiligde pdf-bestanden. .

over het verwijderen van een bekend wachtwoord uit een pdf
Gerelateerd artikel:
Verwijder een bekend wachtwoord uit een pdf-bestand in Ubutu

Installeer pdftotext op Ubuntu

Om deze tool op ons Ubuntu-systeem te installeren, voor het geval je het nog niet hebt geïnstalleerd, hoef je alleen maar een terminal te openen (Ctrl + Alt + T) en het volgende commando erin te schrijven naar installeer poppler-utils:

installeer poppler utils

sudo apt install poppler-utils

Hoe pdftotext te gebruiken

Converteer een PDF-bestand naar tekst

Zodra we het pakket op ons besturingssysteem hebben geïnstalleerd, kunnen we een PDF-bestand naar platte tekst converteren. We kunnen probeer het originele ontwerp te behouden met behulp van de optie -lay-out met het commando, maar we kunnen het ook zonder proberen. In een terminal (Ctrl + Alt + T) zou het te gebruiken commando het volgende zijn:

pdftotext converteert pdf naar platte tekst

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

In het vorige commando zou je moeten vervangen pdf-input.pdf met de naam van het PDF-bestand dat we willen converteren, en pdf-output.txt door de naam van het TXT-bestand waarin we de tekst van het ingevoerde PDF-bestand willen opslaan. Als we geen uitvoertekstbestand specificeren, zal pdftotext automatisch het bestand een naam geven met dezelfde naam als het originele PDF-bestand, maar met een txt-extensie​ Een ander ding dat interessant kan zijn om aan de opdracht toe te voegen, zijn de paden voor de bestandsnamen indien nodig (~ / Documenten / pdf-input.pdf).

Converteer alleen een reeks PDF-pagina's naar tekst

Als we niet geïnteresseerd zijn in het converteren van het hele PDF-bestand, en we willen beperk een reeks PDF-pagina's om naar tekst te converteren er zal zijn gebruik -f optie (eerste pagina om te converteren) En -l (laatste pagina om te zetten) gevolgd door elke optie met het paginanummer. Het te gebruiken commando zou er ongeveer als volgt uitzien:

pdftotext -layout -f P -l U pdf-entrada.pdf

bewaar in tekstformaat een bepaald aantal pagina's van een pdf

In het vorige commando moet je vervang de letters P en U door de eerste en laatste paginanummers extraheren. De naam van pdf-input.pdf We zullen het ook moeten wijzigen en het de naam moeten geven van het pdf-bestand waarmee we willen werken.

Gebruik end-of-line-tekens

Dit zullen we kunnen specificeren met -eol gevolgd door mac, dos of unix​ Met de volgende opdracht worden Unix-regelbeëindigingen toegevoegd:

pdftotext -layout -eol unix pdf-entrada.pdf

Help

naar controleer de beschikbare opties, voer de man-pagina uit:

man pdftotext

man pdftotext

U kunt ook raadpleeg de help-optie met het commando:

help commando pdftotext

pdftotext --help

Converteer PDF-bestanden vanuit een map met behulp van een Bash FOR-lus

Als we alle pdf-bestanden in een map naar tekstbestanden willen converteren, pdftotext ondersteunt geen batchconversie van PDF naar tekst. deze we zullen het kunnen doen met behulp van een Bash FOR-lus in terminal (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

naar meer informatie over pdftotextkunt u de project website​ Als u liever geen opdrachten in de terminal hoeft te typen, kunt u dat ook doen gebruik a online dienst om hetzelfde resultaat te krijgen.


Laat je reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

*

*

  1. Verantwoordelijk voor de gegevens: Miguel Ángel Gatón
  2. Doel van de gegevens: Controle SPAM, commentaarbeheer.
  3. Legitimatie: uw toestemming
  4. Mededeling van de gegevens: De gegevens worden niet aan derden meegedeeld, behalve op grond van wettelijke verplichting.
  5. Gegevensopslag: database gehost door Occentus Networks (EU)
  6. Rechten: u kunt uw gegevens op elk moment beperken, herstellen en verwijderen.

      Moypher Nachtkrelin zei

    ja, het werkt, maar soms moet ik OCR doen of Libre Office Draw gebruiken.

    Daarnaast zijn er veel pdf-editors. en blijkbaar gebeurt dit niet bij het sms'en van de afbeeldingen, dus ik zie het niet praktisch.

    En Libre Office Draw is intuïtief en praktisch.