Open Office - PDF in Open Office übernehmen

makle · 16.06.12

Hallo Forengemeinde,

der Sachverhalt richtet sich an alle Open Office Experten hier im Forum.
Ich habe mehrere PDFs mit jeweils ca. 20 Seiten mit vollständigen Tabellen.
In diesen Tabellen habe ich Text und Zahlen, die ich in mein Scal. Programm übernehmen und dort auswerten möchte.
Nun habe ich es schon geschafft die PDF als Text zu speichern und über die Funktion "Tabelle einfügen" mittels Spaltentrennung einzelne Abtrennungen vorzunehmen. Leider schaffe ich es nicht einfach den Text in eine Spalte und die Zahlen in vereinzelte Spalten danach einzuteilen.
Weiß dort jemand eine Lösung? als Beispiel habe ich ein paar Bilder angehangen.

Ich freue mich auf eure Antworten

livebox · 17.06.12

Hi makle,

was du da als Textdatei vorliegen hast, interpretiert Calc als CSV (character spearated values; nicht alles glauben, was bei Wiki steht

). Wie du bemerkt hast, kannst du Vorgaben machen, nach welchem Zeichen (englisch "character") getrennt werden soll.
Beim CSV-Import wird quasi nach der äußeren Form geschaut, nicht nach den Inhalten.

Wie hast du die Daten von den PDFs in die Textdatei bekommen - per copy&paste? Gut wäre, wenn du zwischen den einzelnen Spalten (vom Original) einen anderen Wert außer dem Leerzeichen als Trennung hättest, z.B. ein Semikolon. Dann könntest du bei den Trennoptionen das angeben und fertig.

Aber wenn ich mir Screenshot 1 so anschaue... schau mal was passiert, wenn du "Leerzeichen" weg lässt und nur "Tab" aktiviert hast. Allerdings... macht Screenshot 2 da nicht wirklich Hoffnung, das sieht stark nach Leerzeichen aus.

Bei mir in LibreOffice Version 3.5.4.2 gibts noch den Abschnitt "Weitere Optionen", u.a. mit der Option "Erweiterte Zahlenerkennung". Was es damit auf sich hat, konnte ich auf die Schnelle durch Ausprobieren allerdings nicht rauskriegen.

Stichwort für 'ne Web-Suche wär auf jeden Fall "csv import".

MfG, livebox

makle · 17.06.12

livebox schrieb:
Wie du bemerkt hast, kannst du Vorgaben machen, nach welchem Zeichen (englisch "character") getrennt werden soll.
Beim CSV-Import wird quasi nach der äußeren Form geschaut, nicht nach den Inhalten.

Damit ist die automatische Trennung zwischen Worten und Zahlen hinfällig.

livebox schrieb:
Wie hast du die Daten von den PDFs in die Textdatei bekommen - per copy&paste? Gut wäre, wenn du zwischen den einzelnen Spalten (vom Original) einen anderen Wert außer dem Leerzeichen als Trennung hättest, z.B. ein Semikolon. Dann könntest du bei den Trennoptionen das angeben und fertig.

Ja, das Ganze lief über Copy und Paste in eine Textdatei. Wie du selbst sagst, übernimmt er es dann mit einem Leerzeichen als Trennung. Nur "Tab" hatte ich bereits von Anfang an drin, als sich das Menue geöffnet hatte. Erst mit zuschalten der Leerzeichentrennung hat sich etwas getan. Ich hatte natürlich alle Sachen auch so schon drin und draußen. Die normalen Felder führten also nicht zum Erfolg.

Hatte nur gehofft, dass über "Andere" es noch eine Möglichkeit gegeben hätte.

livebox schrieb:
Bei mir in LibreOffice Version 3.5.4.2 gibts noch den Abschnitt "Weitere Optionen", u.a. mit der Option "Erweiterte Zahlenerkennung". Was es damit auf sich hat, konnte ich auf die Schnelle durch Ausprobieren allerdings nicht rauskriegen.

Stichwort für 'ne Web-Suche wär auf jeden Fall "csv import".

MfG, livebox

Da mache ich mich mal dran. Das dürfte ja vielleicht mit der Acrobat Reader-Funktion des kostenpflichtigen konvertierens einer PDF in Excel vergleichbar sein. Darauf bin ich dann gestern noch gestoßen, aber damir graut es gerade etwas davor für sowas nen haufen Geld auszugeben.

Aber schonmal besten Dank für deine Hilfe.

BenChnobli · 18.06.12

Wenn ich das richtig sehe, hast du vier felder: Einen bezeichner, einen text und zwei zahlen. Man müsste also nur drei feldtrenner einfügen, z.b. semikolons, um OpenOffice bei der erkennung zu helfen. Dafür eignen sich einfache skriptsprachen eigentlich ganz gut. In sowas wie Gawk, aber auch Perl etc. wäre das kein sehr schwieriges unterfangen.

In Gawk könnte das ungefähr so aussehen (falls die Windows-version gleich funktioniert wie bei Linux):

Code:

gawk '{x = "" ; for(i = 2 ; i <= NF-2 ; i++) x=x $i " "; print $1";",x";", $(NF-1)";", $NF }' eingebe.txt > ergebnis.txt

Fragt sich halt, ob du lust auf sowas hast

Gruss, Ben

depi · 18.06.12

Wie wäre es denn, wenn du die Tabellen des PDFs als mithilfe von OCR "einliest"?

Open Office - PDF in Open Office übernehmen

Anhänge

Ähnliche Themen

Quick Links

WIN 11 auf älterem Laptop installieren

Boomer-Laptop gesucht - Win 11, Film & Foto-Bearbeitung

Der Apple/Mac - Userthread