Rezept
zur Strukturierung und XML-Satzerstellung von über 150.000
Seiten juristischer Loseblattwerke
1. Sichtung der verschiedenen Datenquellen.
Die gewaltige Textmenge lag uns in allen denkbaren Formaten vor:
FrameMaker, alte Satzsysteme wie Berthold und Compugraphic, PDF,
HTML, Scans, ASCII-Dateien.
2. Konvertierung der unterschiedlichen Datenquellen nach Microsoft
Word Mit je nach Datenherkunft unterschiedlichen Methoden und
Programmierungen wurden alle Daten in Microsoft-Word-Dokumente umgewandelt
und dort vorkorrigiert und automatisch möglichst einheitlich
formatiert.
3. Mit VB-Script werden Word-Formatierungen in XML-Strukturen
umgewandelt. Dies betrifft Absatzformate und lokale Formatierungen
ebenso wie Indexeinträge, Fussnoten, Abbildungen, Tabellen
etc.:
4. Perl-Scripts zerlegen die aus Word stammenden
XML-Daten und analysieren mit aufwendigen Verfahren die Dokumentstruktur.
Automatisch wird das Ziel-XML mit verschachtelten Listen, CALS-Tabellen,
Stichwortverzeichnissen etc. erzeugt.
Bei einigen Dokumenten ist eine Überprüfung
und Nachkorrektur der XML-Struktur notwendig.