Open Office - PDF in Open Office übernehmen

makle
makle
Registrierter Benutzer
Zuletzt hier
09.03.17
Registriert
18.02.12
Beiträge
191
Kekse
1.817
Ort
Deutschland
Hallo Forengemeinde,

der Sachverhalt richtet sich an alle Open Office Experten hier im Forum.
Ich habe mehrere PDFs mit jeweils ca. 20 Seiten mit vollständigen Tabellen.
In diesen Tabellen habe ich Text und Zahlen, die ich in mein Scal. Programm übernehmen und dort auswerten möchte.
Nun habe ich es schon geschafft die PDF als Text zu speichern und über die Funktion "Tabelle einfügen" mittels Spaltentrennung einzelne Abtrennungen vorzunehmen. Leider schaffe ich es nicht einfach den Text in eine Spalte und die Zahlen in vereinzelte Spalten danach einzuteilen.
Weiß dort jemand eine Lösung? als Beispiel habe ich ein paar Bilder angehangen.

Ich freue mich auf eure Antworten ;)
 
Eigenschaft
 

Anhänge

  • dsdfdff.jpg
    dsdfdff.jpg
    166,1 KB · Aufrufe: 115
  • New Bitmap Image.jpg
    New Bitmap Image.jpg
    168,6 KB · Aufrufe: 98
livebox
livebox
Mod Emeritus
Ex-Moderator
HFU
Zuletzt hier
23.11.18
Registriert
22.09.06
Beiträge
10.556
Kekse
59.154
Ort
Landkreis BB oder unterwegs
Hi makle,

was du da als Textdatei vorliegen hast, interpretiert Calc als CSV (character spearated values; nicht alles glauben, was bei Wiki steht ;)). Wie du bemerkt hast, kannst du Vorgaben machen, nach welchem Zeichen (englisch "character") getrennt werden soll.
Beim CSV-Import wird quasi nach der äußeren Form geschaut, nicht nach den Inhalten.

Wie hast du die Daten von den PDFs in die Textdatei bekommen - per copy&paste? Gut wäre, wenn du zwischen den einzelnen Spalten (vom Original) einen anderen Wert außer dem Leerzeichen als Trennung hättest, z.B. ein Semikolon. Dann könntest du bei den Trennoptionen das angeben und fertig.

Aber wenn ich mir Screenshot 1 so anschaue... schau mal was passiert, wenn du "Leerzeichen" weg lässt und nur "Tab" aktiviert hast. Allerdings... macht Screenshot 2 da nicht wirklich Hoffnung, das sieht stark nach Leerzeichen aus.

Bei mir in LibreOffice Version 3.5.4.2 gibts noch den Abschnitt "Weitere Optionen", u.a. mit der Option "Erweiterte Zahlenerkennung". Was es damit auf sich hat, konnte ich auf die Schnelle durch Ausprobieren allerdings nicht rauskriegen.

Stichwort für 'ne Web-Suche wär auf jeden Fall "csv import".

MfG, livebox
 
  • Gefällt mir
Reaktionen: 2 Benutzer
makle
makle
Registrierter Benutzer
Zuletzt hier
09.03.17
Registriert
18.02.12
Beiträge
191
Kekse
1.817
Ort
Deutschland
Wie du bemerkt hast, kannst du Vorgaben machen, nach welchem Zeichen (englisch "character") getrennt werden soll.
Beim CSV-Import wird quasi nach der äußeren Form geschaut, nicht nach den Inhalten.

Damit ist die automatische Trennung zwischen Worten und Zahlen hinfällig.:(

Wie hast du die Daten von den PDFs in die Textdatei bekommen - per copy&paste? Gut wäre, wenn du zwischen den einzelnen Spalten (vom Original) einen anderen Wert außer dem Leerzeichen als Trennung hättest, z.B. ein Semikolon. Dann könntest du bei den Trennoptionen das angeben und fertig.
Ja, das Ganze lief über Copy und Paste in eine Textdatei. Wie du selbst sagst, übernimmt er es dann mit einem Leerzeichen als Trennung. Nur "Tab" hatte ich bereits von Anfang an drin, als sich das Menue geöffnet hatte. Erst mit zuschalten der Leerzeichentrennung hat sich etwas getan. Ich hatte natürlich alle Sachen auch so schon drin und draußen. Die normalen Felder führten also nicht zum Erfolg.

Hatte nur gehofft, dass über "Andere" es noch eine Möglichkeit gegeben hätte.

Bei mir in LibreOffice Version 3.5.4.2 gibts noch den Abschnitt "Weitere Optionen", u.a. mit der Option "Erweiterte Zahlenerkennung". Was es damit auf sich hat, konnte ich auf die Schnelle durch Ausprobieren allerdings nicht rauskriegen.

Stichwort für 'ne Web-Suche wär auf jeden Fall "csv import".

MfG, livebox

Da mache ich mich mal dran. Das dürfte ja vielleicht mit der Acrobat Reader-Funktion des kostenpflichtigen konvertierens einer PDF in Excel vergleichbar sein. Darauf bin ich dann gestern noch gestoßen, aber damir graut es gerade etwas davor für sowas nen haufen Geld auszugeben.

Aber schonmal besten Dank für deine Hilfe.
 
B
BenChnobli
Mod Emeritus
Ex-Moderator
HFU
Zuletzt hier
25.07.21
Registriert
27.09.06
Beiträge
13.294
Kekse
73.105
Wenn ich das richtig sehe, hast du vier felder: Einen bezeichner, einen text und zwei zahlen. Man müsste also nur drei feldtrenner einfügen, z.b. semikolons, um OpenOffice bei der erkennung zu helfen. Dafür eignen sich einfache skriptsprachen eigentlich ganz gut. In sowas wie Gawk, aber auch Perl etc. wäre das kein sehr schwieriges unterfangen.

In Gawk könnte das ungefähr so aussehen (falls die Windows-version gleich funktioniert wie bei Linux):
Code:
gawk '{x = "" ; for(i = 2 ; i <= NF-2 ; i++) x=x $i " "; print $1";",x";", $(NF-1)";", $NF }' eingebe.txt > ergebnis.txt
Fragt sich halt, ob du lust auf sowas hast :)

Gruss, Ben
 
depi
depi
Registrierter Benutzer
Zuletzt hier
24.03.19
Registriert
03.07.07
Beiträge
222
Kekse
698
Ort
Far Beyond the Sun
Wie wäre es denn, wenn du die Tabellen des PDFs als mithilfe von OCR "einliest"?
 

Ähnliche Themen

Neue Themen

Unser weiteres Online-Angebot:
Bassic.de · Deejayforum.de · Sequencer.de · Clavio.de · Guitarworld.de · Recording.de

Musiker-Board Logo
Oben