Das Problem: PDF Dateien sind nicht einfach durchsuchbar, weil sie komprimiert sind. Deswegen entpacke ich erst deren Text, um die Dateien mit SuperfinderXT oder ähnlichem durchsuchen zu können.
Powershell als Admin starten
Das Command Line Tool herunterladen:
https://www.xpdfreader.com/download.html
Wenn du nur 1 Datei umwandeln willst zu .txt dann geht es so:
F:\VR\xpdf-tools-win-4.05\bin64\pdftotext.exe F:\VR\allepdf\he-frankfurt_am_main_vr_14414chronologischer_abdruck-20170720202110.pdf
Willst du alle PDF Dateien des Ordners auf einmal umwandeln, dann:
Erst Skripte aktivieren über
Set-ExecutionPolicy RemoteSigned
eine script.ps1 Datei erstellen mit diesem Inhalt:
$path_to_script = "F:\VR\xpdf-tools-win-4.05\bin64\pdftotext.exe"
$start_directory = "F:\VR\allepdf\"
# Get all PDF files in the start directory and its subdirectories
$pdf_files = Get-ChildItem -Path $start_directory -Recurse -Filter *.pdf
# Loop through each PDF file and convert it to text
foreach ($pdf in $pdf_files) {
$output_file = [System.IO.Path]::ChangeExtension($pdf.FullName, ".txt")
& "$path_to_script" "$($pdf.FullName)" "$output_file"
}
Dann in der Powershell eingeben:
F:\VR\skript.ps1