Kapitel 2 XML und Auszeichnungssprachen

2.1 Textverarbeitung 16

2.2 Das Dokument als integrative Basis 16

2.3 Informationen strukturieren 17

2.4 Alternative Lösungen 18

2.5 Forderungen an eine neue Auszeichnungssprache 21

2.6 Definition: Auszeichnungssprachen 22

2.7 Aufgabe des W3C 26

2.8 Historie und Vergleich 28

2.9 Extensible Markup Language (XML) 40

2.10 Ziele von XML 43

2.11 XML als Alternative zu HTML 43

Das folgende Kapitel verschafft Ihnen einen ersten Überblick über die vorhandenen Auszeichnungssprachen und hilft Ihnen XML in die bisher bestehenden Standards einzuordnen. Lernen Sie Stärken und Schwächen von SGML und HTML kennen und erfahren Sie warum in XML eine Chance für die Zukunft der Textbeschreibung liegt.

2.1 Textverarbeitung

Betrachten wir eine moderne Textverarbeitung wie etwa Microsoft Word, dann bietet uns diese zum Erstellen unserer Texte zahlreiche Möglichkeiten der Formatierung. Im Gegensatz zu den Ursprüngen der Textgestaltung haben wir heute Möglichkeiten, die früher nur dem Drucker oder Setzer vorbehalten waren. Dem normalen Anwender standen selbst mit einer komfortabel anmutenden modernen elektrischen Schreibmaschine nur sehr begrenzte Layoutfunktionen zur Verfügung. Neben hoch- und tiefgestellten Buchstaben, konnte man auf Sperrschrift oder Fettschrift zurückgreifen. Von einem befriedigenden Ausdruck oder gar Textgestaltung konnte man hier wohl nicht reden.

Eine Textverarbeitung im heutigen Sinne bietet jedem Anwender jene zahlreichen Möglichkeiten der Gestaltung, die früher nur den Profis vorbehalten waren. Angefangen bei Fettschrift, Kursiv oder unterstrichenem Text handelt es sich hier in erster Linie um optische Elemente, die wir hier verändern können. Und seit die ersten Apple Macintosh-Computer das Licht der Welt erblickt haben ist WYSIWYG (»What you see is what you get«) in aller Munde. Jeder, der ein solches Programm bedienen kann, wird in die Lage versetzt schon am Bildschirm den Text genau so gestalten zu können, wie er anschließend aus dem Drucker kommt.

Abb. 2.1: Ein professionelles Dokument zeichnet sich nicht unbedingt durch die Vielzahl der genutzten Funktionen aus.

Spätestens wenn wir wieder einmal ein Dokument erhalten, in dem sieben verschiedene Schriftarten eingesetzt sind, wissen wir: hier wurde mit einem DTP-Programm (»Desktop Publishing«) gearbeitet. Diese Programme haben eins gemeinsam: Sie bieten auch dem Laien unüberschaubar viele Möglichkeiten auf die visuelle Darstellung des Textes Einfluss zu nehmen. Am Rande sei bemerkt, dass dies dem Aussehen des Textes nicht immer zum Vorteil gereicht.

Auszeichnungssprachen wie HTML verfolgen aber primär eine andere Richtung der Textauszeichnung. Hier geht es nicht in erster Linie um die optische Gliederung eines Textes, sondern viel mehr um eine inhaltliche Abgrenzung.

2.2 Das Dokument als integrative Basis

Text allein reicht natürlich heute kaum noch zur angemessenen Darstellung von Informationen aus. Aber auch im Zeitalter von Multimedia, in denen zahlreiche Tonwiedergaben und Grafikanimationen und Videosequenzen Internetseiten nicht immer nur bereichern, ist der wichtigste Bestandteil einer Seite der Text. Das Internet ist trotz aller anders klingender Verlautbarungen ein deutlich textorientiertes Medium. Schon allein aus dem Grund, weil nur Text hard- und softwareunabhängig von jeder Computerplattform dargestellt werden kann.

Wenn Sie sich eine Internetseite, die heute üblicherweise noch in HTML programmiert wird, einmal genauer anschauen, erkennen Sie allerdings, dass mit dieser Textauszeichnungssprache doch noch mehr zu machen ist als nur einfachen Text darzustellen.

Ein Dokument dient als Grundlage zur Strukturierung einer Seite. In dieser Struktur ist festgelegt welche weiteren multimedialen Inhalte integriert sind. Das heißt auch eine Seite ohne Text benötigt eine Textauszeichnungssprache als Basis zur Definition des Inhaltes.

Abb. 2.2: Im HTML-Dokument sind alle Bestandteile der Seite integriert.

In dem Dokument ist bestimmt welche Bilder, Videos oder Sounds zur Seite gehören. Der gesamte visuelle Eindruck muss hier bestimmt werden. So ist auch zu verstehen, dass trotz deutlicher multimedialer Ausrichtung des Internet kein völlig neues Format, sondern ein über lange Zeit entwickeltes Textformat die Aufgabe übernimmt als integrative Basis für darauf aufbauende Informationsinhalte.

2.3 Informationen strukturieren

Eine von der WYSIWYG-Welt unabhängig entwickelte Idee ist es aber Informationen nicht nach rein visuellen Gesichtspunkten aufzubauen, sondern strukturiert nach Inhalten festzulegen.

Diese Idee ist nicht ganz so neu und eigentlich ist sie zumindest in der EDV-Welt schon älter als die Idee des Desktop Publishing. Schon 1967 beschäftigte sich William Tunnicliffe mit dem so genannten »Generic Coding«.

Er trennte die Informationsstruktur des Textes von seinem optischen Erscheinungsbild. Zu dieser Zeit war es noch so, dass allein der Setzer für das spätere Druckbild verantwortlich war und der Autor lediglich Anmerkungen und Hinweise für den Druck notieren konnte.

Damals begann man langsam die ersten Texte auch digital mithilfe des Computers zu speichern. Der Autor konnte zwar notieren, dass eine Überschrift beispielsweise groß und in Fettschrift gedruckt werden sollte, die Information, dass es sich dabei aber um eine Überschrift handelt, ging bei der Computerverarbeitung leider verloren. Die Weiterentwicklung von William Tunnicliffe kennen wir heute übrigens als SGML-Standard.

Die Auszeichnungssprachen, von denen im folgenden die Rede sein wird, sind also in erster Linie Hilfen, um einen Text strukturell zu definieren. Natürlich ist der Übergang beispielsweise bei HTML heute fließend zwischen optischer und inhaltlicher Auszeichnung. Selbstverständlich bietet diese Sprache heute bereits zahlreiche Möglichkeiten, Text auch optisch auszuzeichnen.

Aber wir wollen hier die Grundintention nicht vergessen: Informationen durch den Computer nicht nur darzustellen, sondern auch inhaltlich auszuwerten.

Abb. 2.3: Die drei Teile des Dokuments können auch in einer Datei gespeichert sein.

Die heutige Entwicklung geht dazu über ein Dokument in drei Teile zu zerlegen. Ein Teil stellt die reine Text- und Bildinformation also den Inhalt dar. Zusätzlich ist die Struktur der Information elektronisch gespeichert. Der nächste logische Schritt ist, für die vorhandene und definierte Struktur auch ein bestimmtes Layout als Formatvorlage festzulegen. Ob man dabei alle drei Teile in dem Dokument selbst oder in externen Dateien ablegt spielt für das Endergebnis keine Rolle.

Ein großer Vorteil einer solchen Struktur gerade für den Online-Bereich ist, dass der Desktop-Computer diese Daten nach der Übertragung selbst weiterverarbeiten kann. Der PC mit dem man im Netz surft ist meist mit der Darstellung von Webinhalten chronisch unterfordert. Die meiste Zeit wartet man wohl darauf, dass Webserver die eigenen Such- oder Datenbankanfragen verarbeiten und Ergebnisse senden. Die neue XML-Technologie schafft die Möglichkeit einen Teil der Datenverwaltung auf den Desktop-PC zu übertragen und ist so vielleicht ein neuer Schritt zum schnelleren Web.

Abb. 2.4: Die Möglichkeiten der Strukturierung in den verschiedenen Datenformaten.

In die bisherigen Technologien zur Strukturierung eingeordnet, steht XML zwischen dem völlig unstrukturierten Text und den Möglichkeiten zur komplexen Datenstruktur einer Datenbank.

2.4 Alternative Lösungen

Es gibt eine Reihe von alternativen Formaten, die für die inhaltliche Auszeichnung und Strukturierung entwickelt wurden und sich auch heute noch zahlreich im Einsatz befinden.

Jedes Datenbankprogramm stellt eine solche Form von inhaltlicher Auswertung dar. In einer Datenbank können in mehr oder weniger starren Datensätzen einzelne Datenfelder gespeichert werden. Der Nachteil liegt auf der Hand: aufgrund der starren Datenstruktur, die vorgegeben wird, ist ein sinnvoller Einsatz dieser Lösung nur für gleichmäßige, homogene Datenmengen möglich.

Abb. 2.5: Für gleichmäßige Datenstrukturen bieten sich spezielle Datenbankformate an.

Jede Datenbank ist von einer speziellen Software und damit von einem bestimmten Computer-System abhängig auf dem sie entwickelt wurde. Auch wenn inzwischen viele übergreifende Formate existieren, die den Datenaustausch ermöglichen, besteht dieses Problem grundsätzlich.

Viele Formate nutzen zusätzlich zur Speicherung ein binäres Format, das den Austausch zwischen verschiedenen heterogenen Sprach- und Rechnersystemen nicht gerade erleichtert.

2.4.1 Einsatz von MIME-Typen zum Datenaustausch

Ein Ansatz zum Dokumentenaustausch zwischen verschiedenen Systemen besteht in der Verwendung des so genannten MIME-Standards. Dieser beschreibt weniger einen einheitlichen Standard zur Informationsspeicherung, sondern eine Möglichkeit der Verständigung zwischen Sender und Empfänger, darüber welches Format zum Einsatz kommt.

Im praktischen Einsatz kündigt der Web-Server dem Browser, der die Daten anfordert, mit, um welchen MIME-Typen es sich handelt. Der Browser kann dann auf die entsprechend ankommenden, meist binären Daten angemessen reagieren. Entweder kann der Browser die Daten selbst verarbeiten, respektive anzeigen, oder er greift auf die Hilfe eines Zusatzprogramms (s.g. »Plug-In«) zurück.

Eine MIME-Typ-Bezeichnung besteht aus zwei Bestandteilen: dem Haupttyp und dem Subtyp. Der folgenden Tabelle können Sie einige Standard-MIME-Typen entnehmen. Einige MIME-Typen, wie z.B. Word oder Excel, gehören nicht zum ursprünglichen Standard, wurden von uns aber der Übersicht und der Vollständigkeit wegen hinzugefügt.

Haupttyp Subtyp Bedeutung
application msexcel Microsoft Excel-Tabelle
application msword Microsoft Word-Dokument
application pdf Adobe Acrobat Dokument
application postscript PostScript-Datei
audio basic Einfache 8-Bit Audiodaten
audio mid MIDI-Sequenz
audio wav Wave-Audiodaten
image bmp Bitmap-Grafik
image gif Grafik in CompuServes GIF-Format
image jpeg Grafik im JPEG-Format
text css Hypertext-Stylesheet
text html Hypertext-Dokument
text plain Daten in einfacher Textform
text xml XML-Dokument
video mpeg Video-Daten im Motion Picture-Format
video quicktime Video-Daten im Quicktime-Format von Apple

Im Internet findet sich das MIME-Verfahren im HTTP-Protokoll wieder, es informiert den Browser darüber welche Art von Daten gesendet werden. Die Standard-MIME-Typen sind in der Norm RFC 1590 definiert.

2.4.2 Portable Dokumentformate

Einige Formate, die heute breite Anwendung vor allem im Druckbereich finden, möchten wir kurz vorstellen. Sie zeigen, dass portable Dokumentformate auch außerhalb des Webs eine hohe Bedeutung erlangt haben. Vielleicht wird auch XML in das eine oder andere dieser Segmente vorstoßen können und eine sinnvolle Alternative für den Austausch von Dokumenten in allen Bereichen der elektronischen Informationsverarbeitung darstellen

Gerade in großen Unternehmen, in denen eine Flut von Dokumentationsmaterial anfällt, möchte man sich nicht gerne auf ein systemgebundenes Datenformat festlegen. Schließlich möchte man auch in vier oder fünf Jahren, wenn das Textverarbeitungsprogramm bereits drei Versionsnummern weiter ist, auf die vorhandenen Informationen zurückgreifen.

Außerdem muss der Austausch zwischen verschiedenen Ländern und Systemen, zumindest zwischen PC-Welt und Macintosh, sichergestellt werden. Formate also, die den Autor oder Nutzer von der Wahl des Werkzeuges unabhängig machen. Für diese Anforderungen existieren einige Formate, die sich breiter Zustimmung erfreuen.

PostScript-Format

Mit Postscript existiert eine komfortable Lösung zum Austausch von Dokumenten zwischen unterschiedlichen Computer-Plattformen. Die Besonderheit besteht darin, dass sich Postscriptdateien unter jedem Betriebssystem ohne weitere Software auf einem Postscriptdrucker ausgeben lassen. Die meisten hochwertigen Drucker und Satzbelichter sind zum PostScript-Standard kompatibel. PostScript-Dokumente werden typischerweise von der Textverarbeitung oder dem Grafikprogramm automatisch aus dem programminternen Format übersetzt und dann zum Drucker geschickt.

Der große Vorteil von PostScript liegt in der großen Hardware-Unabhängigkeit. Die Datei beschreibt lediglich das Aussehen der Seite, macht aber keine Annahmen über Bildschirm oder Drucker. So kann dieselbe Datei sowohl auf einem 75 -dpi-Bildschirm, als auch auf einem 600-dpi-Laserdrucker oder 2.400-dpi-Satzbelichter ausgegeben werden. In der Praxis bedeutet das: vor der teuren und hochwertigen Belichtung kann ein einfacher Probeausdruck auf einem handelsüblichen Laser- oder Farbtintenstrahldrucker erstellt werden.

Portable Document Format (PDF)

Als Erweiterung zum Postscript-Format, hat die Firma Adobe das Portable Document Format entwickelt. Zusätzlich können mit ihm Seiten- und Inhaltsstrukturen erfasst werden. Der Text wird am Bildschirm lesbar und durchsuchbar.

Abb. 2.6: Das PDF-Format bietet einen Ansatz zur plattformübergreifenden Verbreitung von Dokumenten. Es findet heute auch im Web großen Zuspruch. Zahlreiche downloadbare Handbücher finden sich bei fast allen Herstellern.

Das PDF-Format findet heute breite Anwendung im Print-on-Demand-Bereich. Viele Software-Hersteller verzichten heute auf eine gedruckte Dokumentation und geben dem Kunden lediglich PDF-Dateien als Ersatz mit auf den Weg.

Es bedarf allerdings für die Portabilität (Übertragbarkeit) dieser Daten sehr komplexer Software-Anforderungen. Adobe ist mit dem Adobe Acrobat Reader als das marktführende Produkt im Rennen. Trotzdem erklärte Adobe PDF zum offenen Format und hat die Format-Spezifikationen öffentlich bekannt gegeben. Erste Bestrebungen gehen in die Richtung Anwendungen zu entwickeln, die XML-Dokumente automatisch in das PDF-Format überführen.

Rich Text Format (RTF)

Das von Microsoft entwickelte Rich Text Format (RTF) ähnelt in seiner Struktur Adobes PDF-Format, bietet aber längst nicht so zahlreiche Ausdrucksmittel und ist nur begrenzt portabel.

Sowohl PostScript, PDF als auch RTF stellen rein physische Auszeichnungssysteme dar. PostScript und PDF haben darüber hinaus den Nachteil, dass sie sich nur sehr schlecht oder gar nicht nachträglich editieren lassen.

Obwohl Adobe versucht PDF als Format für das Web zu vermarkten, eignet sich natürlich eine rein physische Auszeichnung nur bedingt als Basisformat für die Informationsübermittlung. In Zukunft ist das XML-Format sicherlich auch in diesem Bereich eine gute Alternative. Denkbar wäre auch ein Programm, dass aus dem XML-Format PDF-Dokumente konvertiert.

2.5 Forderungen an eine neue Auszeichnungssprache

Einige Bedingungen, die aus dem Zusammenhang im vorausgegangenen Kapitel an eine neue Auszeichnungssprache gestellt werden müssten, möchten wir hier noch einmal auflisten. So viel schon im Voraus: XML erfüllt diese Forderungen und setzt sie in der Sprachdefinition um.

Das bedingt natürlich schon, dass es sich um einen offengelegten Standard handelt, der von jeder interessierten Person oder Institution möglichst ohne zusätzliche Lizenzkosten in eigene Programme aufgenommen werden kann. Denn erst durch große Verbreitung von Programmen, die das Format einheitlich unterstützen, ist auch die Möglichkeit gegeben ein solches Format wirklich zum Standard werden zu lassen. Und nur ein solcher durch die Nutzer angenommener Standard verschafft dem Anwender wirkliche Vorteile bei seiner täglichen Arbeit

Im Kapitel über die Bedeutung des W3-Konsortium finden Sie die Forderungen, die sich das XML-Entwicklerteam als Maßgabe für ihre Arbeit an der neuen Metasprache gesetzt haben.

2.6 Definition: Auszeichnungssprachen

Sie haben inzwischen einiges über Auszeichnungssprachen und deren Bedeutung erfahren. Wir möchten es dennoch nicht versäumen Ihnen nun eine theoretische Definition dieses Begriffs zu geben, den wir bisher immer mit einiger Selbstverständlichkeit, und sicherlich im Zusammenhang auch verständlich, eingesetzt haben.

Anschließend wird Sie die kleine Reise durch die Geschichte der vorhandenen Auszeichnungssprachen führen und wir werden das Kapitel mit einem genaueren Einstieg in die Sprachen SGML, HTML und XML beenden.

In der Auszeichnungssprache selbst sind verschiedene Befehle definiert, die der optischen und inhaltlichen Strukturierung von Informationen dienen. Auf Basis einer Auszeichnungssprache können dann Dokumente verfasst und verarbeitet werden.

Die Datenart, die sich weltweit der weitesten Verbreitung und der leichtesten Portierbarkeit erfreut ist die Textdatei. Doch auch auf dieser einfachen Basis und den gänzlichen Verzicht auf binäre Daten bestehen zwei Hauptprobleme, die eine Auszeichnungssprache lösen muss.

Als Erstes existieren weltweit hunderte von verschiedenen länderspezifischen Zeichen. Und wenn man sich bei der Verwendung für die 128 Zeichen des weitverbreiteten US-Zeichensatzes entscheidet, müssen Möglichkeiten gefunden werden diese Zeichen darzustellen. Aber selbst der erweiterte Zeichensatz mit 255 Zeichen, reicht beispielsweise für die hunderte von verschiedenen Schriftzeichen des japanischen oder chinesischen Alphabets nicht aus.

Das erste Problem, das eine Auszeichnungssprache zu lösen hat, haben wir auf den vorangegangenen Seiten schon angesprochen: Text allein reicht zur angemessenen Darstellung von Informationen kaum aus. In reinen Texten können keine Schriftarten, Überschriften, Fußnoten, Kursiv- oder Fettschrift verwendet werden. Es müssen Möglichkeiten gegeben werden, die Wirkung der online abgerufenen oder ausgedruckten Dokumente inhaltlich und visuell zu gestalten. Außerdem müssen sie helfen Text, Grafik und andere Multimedia-Elemente zu verbinden.

In der Praxis wird dieses Problem durch den Einsatz von vorher festgelegten Auszeichnungen gelöst. Beispielsweise wird mit der Auszeichnung <B> in HTML definiert, dass der Text in Fettschrift darzustellen ist.

<B>Dieser Text wird in Fettschrift dargestellt</B>
<I>Dies ist Kursivschrift (Italic)</I>

Der englische Begriff für Auszeichnung ist Markup. Daher können wir den geläufigeren Begriff »Markup Language« für Auszeichnungssprache analog verwenden. In HTML hat sich für die Textauszeichnungen der Begriff »Tag« durchgesetzt. Der komplette Text, für den die Auszeichnung gelten soll, wird in Tags eingeschlossen. Ein »Start-Tag« definiert den Beginn und ein »Schluss-Tag« das Ende einer Auszeichnung.

Delimitierung

Jeder Auszeichnungsbefehl muss durch spezielle, vorher definierte Zeichen eingegrenzt werden. In den meisten bekannten Markup-Sprachen nutzt man hierzu die Größer- und Kleinerzeichen (»<«, »>«). Bei dieser Eingrenzung von Textstellen, die einer besonderen Verarbeitung bedürfen, spricht man auch von Delimitierung. Im günstigsten Fall setzt man hier zwei Zeichen ein, die sonst im übrigen Text nur eine geringe Bedeutung haben und selten genutzt werden. Denn diese Zeichen kann man anschließend im normalen Text nur über Umwege darstellen.

Verschiedene Möglichkeiten der Delimitierung eines Befehls:

<BEFEHL>
<BEFEHL />
<!BEFEHL>
<?BEFEHL>
<!-- KOMMENTAR -->

Man unterscheidet grundsätzlich zwischen zwei verschiedenen Arten von Auszeichnungen, beide verfolgen eine andere Zielrichtung. Die erste Möglichkeit ist die logische oder semantische Auszeichnung, daneben können Informationen auch physisch, also nach visuellen Gesichtspunkten, ausgezeichnet werden. Beide Alternativen stellen wir im Detail in den nächsten Abschnitten vor. Die meisten Auszeichnungssprachen verwenden beide Arten. Die Dominanz einer Richtung ist allerdings je nach verwendeter Sprache stärker und schwächer ausgeprägt.

XML ist im Bezug auf die Syntax der Markups strenger als beispielsweise HTML. Hier konnte der Autor die schließenden Tags auch schon einmal vernachlässigen ohne irgendwelche Probleme befürchten zu müssen.

<BEFEHL>Hier steht der Text</BEFEHL>

Jedes geöffnete XML-Tag muss auch wieder ordnungsgemäß geschlossen werden. Die höhere Flexibilität von XML erfordert gleichzeitig ein höheres Maß an syntaktischer Genauigkeit.

2.6.1 Logische Auszeichnungen

Bei den logischen Auszeichnungen handelt es sich, wie der Begriff schon signalisiert, um eine inhaltliche Definition des Textes. Beispielsweise kann festgelegt werden, ob es sich bei dem gekennzeichneten Begriff um einen Namen, ein Zitat oder eine wichtige Überschrift handelt.

HTML kennt einige logische Auszeichnungen, die eine spätere Auswertung des Textes z.B. durch Suchmaschinen erleichtern. Die folgende Anweisung gibt den Autoren des Dokuments an:

<AUTHOR>Gunter Wielage</AUTHOR>

Ein logisch ausgezeichneter Text bedingt nicht unbedingt eine andere visuelle Darstellung. So kann beispielsweise ein Name in gleicher Textart und Stärke dargestellt werden, wie ein Zitat.

Abb. 2.7: Verschiedene Überschriftenebenen - als logische Auszeichnungen - im Microsoft Internet Explorer dargestellt.

Ziel des Programms zur Darstellung solcher Dokumente wird es natürlich trotzdem sein, einzelne Auszeichnungen auch visuell unterscheidbar zu machen. Aber in erster Linie wird die logische Auszeichnung dazu verwendet, um Informationen und deren Strukturen durch EDV-Programme auswertbar zu machen. So könnte beispielsweise eine Suchmaschine im Internet gezielt nach dem Namen des Autors oder dem Titel der Seite suchen und so ein wesentlich genaueres Ergebnis bieten als eine reine Stichwortsuche über den gesamten Textinhalt.

2.6.2 Physische Auszeichnungen

Physische Auszeichnungen verfolgen das alleinige Ziel Möglichkeiten zur visuellen Textdarstellung zu geben. Ein als Fettschrift definierter Text wird auch in dieser Schrift angezeigt. Es werden allerdings keine Aussagen darüber gemacht, wie wichtig dieser so ausgezeichnete Text für das ganze Dokument ist.

Eine Textverarbeitung wie Microsoft Word tendiert im Format eher in Richtung physischer Formatierungsbefehle. Hier spielt es keine Rolle, ob Word weiß, dass Sie gerade ein Zitat eingebracht haben. Das Programm kann mit dieser Information sowieso nicht viel anfangen und diese vielleicht auswerten. In dieser Situation ist diese Auszeichnungsform also absolut angemessen. Denn hier zählt, wie das Dokument anschließend aus dem Drucker kommt.

Gerade beim Datenaustausch können sich solche physischen Auszeichnungen allerdings leicht als störend erweisen. Denn was tut der Apple-Macintosh-Anwender, wenn er beispielsweise von Ihnen ein Dokument in der ihm unbekannten Schriftart »Arial« erhält. Oder wenn ein Amerikaner ein sauber auf das europäische Papierformat DIN A4 ausgerichtetes Dokument auf seinem etwas breiteren US-Letter-Format ausdrucken möchte.

Unabhängig vom Druckbereich und zurück zum Online-Dokument besteht auch hier das Problem der Hardware-Unterschiede. Unterstützte Farbanzahl, Bildschirmgrößen und -auflösungen variieren einfach zu stark.

Aus diesen Gründen tendiert man gerade im Internet zunehmend in Richtung logischer Auszeichnungen. Alle bekannten Auszeichnungssprachen halten aber neben den logischen auch physische Befehle zur Textauszeichnung bereit.

Eine typische physische Anweisung in HTML definiert beispielsweise die Benutzung eines speziellen Fonts zur Zeichendarstellung (hier die Schriftart »Arial«):

<FONT FACE="ARIAL">Dies ist die Schriftart Arial</FONT>

Es existieren inzwischen auch einige Formate, die nahezu systemübergreifend zumindest PC und Macintosh-Welt problemlos miteinander verbinden und ein an physischen Auszeichnungen orientiertes Format anbieten. Beispielsweise das Postscript-Format oder das PDF-Format (Adobe Acrobat). Mit diesen ist es möglich Dokumente optisch nahezu identisch auf den verschiedenen Plattformen anzuzeigen oder auszudrucken. Die elektronische Weiterverarbeitung oder Auswertung der Informationen ist allerdings nicht so problemlos möglich. Teilweise ist es sogar recht mühsam aus diesen Formaten wieder den reinen Textgehalt zu filtrieren.

Der Trend, gerade bei der Entwicklung der Sprache HTML, ging in letzter Zeit immer stärker in Richtung visueller Auszeichnung des Textes. Viele neue Befehle zielen nur noch darauf aus, dem Autoren Möglichkeiten zu geben eine Webseite möglichst optisch genau zu gestalten. Mit der Entwicklung von XML strebt das W3C wieder zur ursprünglich strukturorientierten Sprache, die auch HTML anfangs einmal war.

2.6.3 Semantische Markups

In der Internet-Entwicklergemeinde hat sich zusätzlich zum Ausdruck »physische Tags« und »logische Tags« noch ein dritter Begriff durchgesetzt, der vor allem für XML an Bedeutung gewinnt. Die so genannten »semantischen Tags« beschreiben weder Formatanweisungen noch die logische Struktur, sondern geben Rückschlüsse über den Inhalt des zwischen den Tags stehenden Textes.

Beispiel:

<GEBURTSDATUM>10.05.1970</GEBURTSDATUM>

Diese semantischen Tags (oder engl. »semantics«) geben der späteren Anwendung die Möglichkeit die entsprechenden Felder auszuwerten oder beispielsweise genau nach einem Geburtsdatum zu suchen. Insbesondere für die Verknüpfung von XML-Dokumenten mit Datenbankanwendungen oder beispielsweise der Suche von bestimmten Informationen spielen die semantischen Tags eine wichtige Rolle. In XML werden fast ausschließlich Markups dieses Typs definiert.

2.7 Aufgabe des W3C

In einem Netz wie dem Internet, an dem inzwischen weltweit Millionen von Teilnehmern mit unterschiedlichster Rechnerausstattung angeschlossen sind, sind offene Standards für die Datenübermittlung Voraussetzung. Ein offener Standard, der der ständigen Weiterentwicklung unterliegt, könnte nicht funktionieren, wenn niemand über diese Standards wachen oder zumindest Entwicklungen verfolgen würde.

Diese Aufgabe hat seit Jahren das W3-Konsortium (W3C = World Wide Web Consortium) übernommen. Es handelt sich dabei um einen freiwilligen Zusammenschluss von Firmen und Institutionen, die die Entwicklung des Internet vorantreiben.

Im Mai 1994 fand in Genf die erste internationale WWW-Konferenz statt. Tim Berners-Lee gründete dann mit dem W3C im Oktober 1994 am Massachusetts Institute of Technology ein neutrales und offenes Forum für die Weiterentwicklung des weltweiten Netzes. Im April 1995 schloss sich auch das französische nationale Forschungsinstitut für Computertechnologie als europäische Sektion dem Konsortium an.

Abb. 2.8: Das W3-Konsortium

Weltweit sind über 255 Mitglieder aus Industrie und Forschung, wie Software-Hersteller, Telekommunikations-Gesellschaften, Internet-Provider, Regierungsstellen und akademische Einrichtungen dem Gremium angeschlossen. Prominenteste deutsche Mitglieder dieses Gremiums sind beispielsweise SAP AG, Deutsche Telekom AG, Deutsches Forschungsnetz e.V. (DFN) oder die Universität Karlsruhe.

Obwohl theoretisch jeder dem W3-Konsortium beitreten kann, besteht für wirtschaftlich orientierte Unternehmen eine finanzielle Hürde in einem gewissen Mindestumsatz. So werden nur Unternehmen mit großer Marktpräsenz und damit Marktbedeutung als Mitglieder zugelassen, um eine gewisse Beschränkung einzuführen. Für öffentliche Organisationen und Forschungsinstitute besteht diese Zugangsvoraussetzung nicht.

Abb. 2.9: Prominente deutsche Mitglieder des W3C

Das W3C möchte nach eigenen Aussagen das volle Potential des Webs durch die Entwicklung von einheitlichen Protokollen ausschöpfen. Gleichzeitig steht die Weiterentwicklung bestehender Standards und eine Sicherstellung der Interoperabilität (Austauschbarkeit von Daten) im Mittelpunkt der Aktionen.

Die augenblicklichen Aktivitäten des W3C gliedern sich in drei Gebiete:

Gerade der letzte Themenkreis macht deutlich, dass sich das W3C nicht nur der Technologie, sondern auch der sozialen und gesellschaftlichen Verantwortung bewusst ist. Denn das Internet betrifft heute alle Bereiche unseres Lebens. Dazu gehört auch ein Schutz von Kindern vor jugendgefährdenden Inhalten und die Sicherheit der Privatsphäre durch Verschlüsselung und die digitale Unterschrift.

Für den Ablauf zur Verabschiedung eines neuen Standards durch das W3C existieren feste formale Regeln. Zunächst bildet das W3C eine Arbeitsgruppe, die sich mit diesem neuen Thema beschäftigt. Diese Gruppe erarbeitet dann zunächst einen ersten Vorschlag. Dieser Vorschlag wird als so genannter »Working Draft« im Internet öffentlich zur Diskussion gestellt. Denn jeder interessierte Teilnehmer des Internet soll sich theoretisch an der Weiterentwicklung beteiligen können. Nach zwei weiteren öffentlich diskutierten Entwürfen, folgt dann in den meisten Fällen die öffentliche Empfehlung des Vorschlags zum Standard.

Jeder dieser Hersteller versuchte durch eigene Erweiterung des HTML-Standards neue De-Facto-Standards hervorzubringen und damit der eigenen Browsersoftware einen Marktvorteil zu verschaffen. Teilweise war es so, dass noch nicht offiziell bestätigte Befehle längst im Netscape Navigator und Microsoft Explorer zu finden waren und mit 90 Prozent Marktabdeckung auch weltweit anerkannt waren, noch immer nicht in den W3C-Empfehlungen zu finden waren.

Doch mit XML geht das W3C auch in dieser Hinsicht neue Wege und bringt eine echte Innovation und Weiterentwicklung hervor, die nicht aus dem Konkurrenzdruck zweier Firmen entstanden ist.

2.8 Historie und Vergleich

Das Internet und HTML haben auf die Entstehung von XML einen sehr großen Einfluss gehabt. Es ist möglich HTML-Dokumente in XML-Dokumente zu konvertieren oder auf der Basis von XML die Sprache HTML zu definieren.

Der folgende Abschnitt gibt einen kurzen Überblick über die wichtigsten bisher bestehenden Auszeichnungssprachen und deren Bedeutung. Es wird die Frage geklärt, warum wir überhaupt eine neue Sprache wie XML benötigen. Außerdem erhalten Sie im Anschluss daran bereits einen ersten Eindruck der neuen Extensible Markup Language.

Die chronologische Entwicklung der heute eingesetzten Auszeichnungssprachen:

1950 Hypertext als Theorie entwickelt von Ted Nelson  
1969 Generalized Markup Language von IBM entwickelt  
1986 Standard Generalized Markup Language festgelegt im ISO Standard 8879 (SGML)
1989 Hyper Text Markup Language entwickelt von Tim Berners-Lee im CERN in Genf (HTML)
1994 Hyper Text Markup Language 2.0 erstmals unter Leitung des W3C als Standard verabschiedet (HTML 2.0)
1994 Cascading Style Sheets 1.0 als Ergänzung zu HTML verabschiedet (CSS 1.0)
1996 Hyper Text Markup Language 3.2 verabschiedet nachdem es zu Version 3.0 keine Einigung gab (HTML 3.2)
1996 Extensible Markup Language 1.0 zunächst als Diskussionsvorschlag verabschiedet (XML 1.0)
1997 Hyper Text Markup Language 4.0 im Dezember als Richtlinie vom W3C verabschiedet (HTML 4.0)
1998 Cascading Style Sheets 2.0 Weiterentwicklung des bestehenden CSS-Standards (CSS 2.0)
1998 Extensible Markup Language 1.0 als Standard vom W3C beschlossen (XML 1.0)
1998 Extensible Style Language 1.0 im August vorerst als Arbeitsvorschlag zur Diskussion gestellt (XSL 1.0)

In den letzten turbulenten Jahren der Entwicklung des Internet konnte sich HTML als Industrie-Standard für die Erstellung von Websites durchsetzen. Heute ist es fast jedem möglich einen leichten Einstieg in die Programmiersprache zu erlangen. Selbst ohne großes Fachwissen sind mit HTML schnelle Anfangserfolge sicher. Nachdem sich die sprunghafte Entwicklung von HTML in der letzten Phase etwas beruhigt hat, stehen wir jetzt mit XML vor einem großen Neuanfang.

Insbesondere die fehlende Datenbankverbindung von HTML machen neue Standards nötig. Außerdem wird die weitere Verbreitung von HTML durch eine umständliche Übertragbarkeit auf andere Medien wie Papier oder CD-ROMs gehemmt.

Die zunehmende Überschneidung von Medien zwingt uns momentan zu einer Mehrarbeit durch die Übersetzung in die verschiedenen Datenformate. Gerade größere Unternehmen sehen hier ein ungenutztes Potential für Einsparungen. Die Forderungen nach einer neuen Sprache, die diese Faktoren berücksichtigt, werden immer lauter. Es geht bei XML nicht mehr um eine Sprache fürs Web, sondern um eine einheitliche Basis für die gesamte Daten- und Informationsverarbeitung eines Unternehmens.

2.8.1 Metasprachen

Insgesamt kann man die hier behandelten Sprachen in drei Gruppen aufteilen: Metasprachen, Beschreibungssprachen und Formatvorgaben. HTML ist eine klassische Sprache zur Beschreibung von Dokumenten. Sie umfasst einen festen Stamm von definierten Befehlen und ist nicht erweiterbar.

Dagegen sind SGML und XML Metasprachen. Mit ihrer Hilfe lassen sich eigene neue Sprachen zur Dokumentenbeschreibung erstellen. Beispielsweise lässt sich mithilfe von XML die Sprache HTML definieren. Eine Metasprache bietet Werkzeuge und eine normierte Syntax zur Beschreibung von »Grammatiken«.

Im Gegensatz zur sehr schwerfälligen und umfangreichen SGML-Sprache kommt XML klein und schlank daher und ist so konstruiert, dass jedem Autoren ermöglicht wird eine auf die persönlichen Belange zugeschnittene Grammatik zu erstellen. Die SGML-Definition des W3C umfasste 1986 über fünfhundert Seiten. Die aktuelle XML-Definition kommt »light« auf knapp 33 Seiten daher. Man hat also hier auch aus der Vergangenheit gelernt und an die Weiterentwicklung nicht nur von HTML, sondern insbesondere von SGML gedacht.

Abb. 2.10: Die Beziehungen zwischen von SGML, HTML und XML graphisch dargestellt.

Die Zusammenhänge der drei wichtigen Sprachen stellen sich folgendermaßen dar: XML ist eine Teilmenge von SGML, also keine völlige Neuentwicklung oder gar Ablösung. HTML war bisher auf der Basis von SGML definiert, inzwischen ist aber auch eine Definition auf der Basis von XML möglich.

CSS stellt eine Erweiterung von HTML dar, die die Sprache um Formatvorgaben ergänzt. Diese Formatvorgaben sind aber auch unter XML einsetzbar. Dagegen ist die neuste Entwicklung XSL eine reine Ergänzung, die für den Einsatz ausschließlich unter XML gedacht ist.

2.8.2 Hypertext

Das Prinzip des Hypertextes ist recht einfach. Sie können innerhalb des Textes Verweise auf andere Textstellen legen. So könnte zum Beispiel der Mausklick auf ein wissenschaftliches Fremdwort direkt zum Glossar und zur entsprechenden Erklärung des Wortes führen. Mitte der 60er Jahre zurzeit der ersten Großrechneranlagen an den Universitäten wurde dieses Prinzip entwickelt.

Der Begriff »Hypertext« wurde bereits 1950 von Ted Nelson veröffentlicht: Die Idee war schon damals geboren:

»Menschen-lesbare Informationen miteinander in zwangloser Reihenfolge verknüpft.«

Es hat lange gedauert bis man auf die Idee kam diese Hypertexte weltweit auf Rechnern abzulegen und zu verknüpfen. Denn mit HTML können Sie nicht nur Verknüpfungen auf Text in einem Dokument legen, sondern weltweit auf jeden angeschlossenen Rechner.

Das heißt im Beispiel: Sie lesen gerade einen Firmennamen in Ihrem Text und können mit einem Klick auf der Firmengeschichte landen, die sich auf einem tausend Kilometer entfernten Rechner befindet.

Gerade bei wissenschaftlichen Arbeiten gibt es keinen festen Wissensstand, die Entwicklung geht immer weiter und die Erkenntnisse wachsen. Genauso dürfte es auch keinen statischen Text geben, man müsste immer wieder Querverweise auf weiterführende Literatur geben. Durch Hypertext wird diese Möglichkeit eröffnet und er lädt jeden ein sich selbst mit weiterführenden Quellen zu beschäftigen und die individuellen Interessen zu vertiefen.

Die Geschichte der Sprache HTML ist untrennbar mit dem Namen Tim Berners-Lee verbunden. Ende 1989 startete der junge britische Informatiker im Kernforschungszentrum CERN in Genf seine ersten Versuche das Internet für sich zu nutzen. Er entdeckte das System Hypertext und setzte es für das Internet um. Ziel von HTML war es auch eine einheitliche Definition zu schaffen, die der Endanwender mit einem speziellen Programm online anzeigen konnte. Damals entstand aufgrund der weltweiten Verweise, die ein Dokument beinhalten konnte, der Begriff »World Wide Web«.

Abb. 2.11: Der Ausgangspunkt des WWW: das Kernforschungszentrum CERN in Genf.

Was als textorientierte Idee begann, wurde 1993 von Marc Andreessen beim NSCA (National Center for Supercomputing Applications) in Illinois weiterentwickelt. Damals entstand im März 1993 der erste WWW-Browser mit grafischer Benutzeroberfläche. Er vereinfachte die Internet-Navigation erheblich. Der kostenlos verfügbare Browser »Mosaic« brachte die Lawine ins Rollen.

Abb. 2.12: Marc Andreessen entwickelte den ersten HTML-Browser »Mosaic«.

Schnell erkannte Marc Andreessen den kommerziellen Nutzwert des Internet und stieg aus dem Projekt »Mosaik« aus um seine eigenen Entwicklungen fortsetzen zu können. Im April 1994 wurde die Firma Netscape von Marc Andreessen und Dr. James H. Clark in den USA gegründet. Dr. James H. Clark hatte vorher das Unternehmen Silicon Graphics gegründet. Schon ein halbes Jahr später wurde der Netscape Navigator veröffentlicht.

Heute beschäftigt Netscape über 2.000 Menschen in 17 Ländern und der Netscape-Browser gehört immer noch zu der weltweit beliebtesten Zugangs-Software zum Internet. Wenn auch Microsoft inzwischen große Marktanteile übernehmen konnte und in Zukunft den weitverbreitesten Browser stellen kann.

2.8.3 Hypertext Markup Language (HTML)

HTML ist eine SGML-Anwendung. In HTML sind eine ganze Reihe von festen Befehlen und deren Syntax vereinbart, denen sich der Webdesigner bedienen kann. Es ist allerdings nicht möglich selbst Auszeichnungsbefehle zu erfinden und zu definieren.

Obwohl HTML in den vergangenen Jahren stetig ausgebaut wurde, hat HTML auch in der aktuellen Version 4.0 mit rund sechzig Befehlen noch gewisse Grenzen. Die begrenzte Auswahl an Elementtypen erleichtert natürlich einerseits den Einstieg in diese Sprache und ermöglicht es jedem ohne ausführliches Informatik-Studium innerhalb von Tagen eigene Internet-Dokumente zu erstellen, andererseits schränkt sie aber auch ein.

Außerdem ist in der Entwicklung von HTML ein stetiges Auseinanderdriften des Standards zu beobachten. Schon auf Version 3.0 konnte man sich nicht gemeinschaftlich einigen und so wurde diese Version nie verabschiedet. Inzwischen sind die Wogen mit Version 3.2 und Version 4.0 zwar wieder geglättet, aber die ständige Weiterentwicklung gerade im multimedialen Sektor erfordert eine neue Möglichkeit.

Erst 1989 begann mit dem von Tim Berners-Lee vorgelegten Entwurf einer Auszeichnungssprache für Hypertexte, die Entwicklung von HTML. Sie erfuhr ständige Weiterentwicklung z.B. 1993 mit dem grafischen Browser Mosaic.

Schon damals begannen die Hersteller der Browserprogramme mit eigenen nicht offiziell definierten so genannten proprietären Befehlen die Entwicklung voranzutreiben. Ein wahrer Krieg entbrannte in den folgenden Jahren nachdem neben der Firma Netscape auch Microsoft groß ins Geschäft mit dem Internet einstieg. Jeder versuchte und versucht noch heute durch eigene Entwicklungen dem Konkurrenten Marktanteile zu entziehen.

2.8.4 HTML 2.0

Die HTML 2.0 Spezifikation war die erste Version von HTML, die konsequent nach dem SGML-Standard entwickelt wurde. Aus diesem Grunde hören wir heute auch nichts mehr von einer HTML 1.0 Spezifikation. HTML 2.0 bildet heute die Basis aller Dokumente im World Wide Web. Sie ist als Standard weltweit verbreitet und jedes Browserprogramm beherrscht heute zumindest die Syntax dieser Version.

Jedes Dokument nach dem SGML-Standard sollte in der ersten Zeile Auskunft darüber geben, welche Sprache Verwendung findet. Dieser so genannte »Public Identifier« (öffentliche Identifizierung) lautet für HTML 2.0:

<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">

Die dann folgende Grundstruktur eines HTML-Elements besteht aus einer Reihe von elementaren Befehlen (»Tags« oder »Markups«):

<HTML>
  <HEAD>
    <TITLE>Hier steht der Titel des Dokuments</TITLE>
  </HEAD>
  <BODY>
    Hier folgt der eigentliche Text-"Körper"
    <H1>Eine wichtige Überschrift erster Ordnung</H1>
    <H2>Eine Überschrift zweiter Ordnung</H2>              
  </BODY>
</HTML>

Hinweis: Bei HTML-Befehlen und Attributen wird im Gegensatz zu XML nicht zwischen Groß- und Kleinschreibung unterschieden.

Zu vielen Befehlen können zusätzliche Optionen, so genannte Attribute eingesetzt werden. Beispielsweise lässt sich mit ALIGN die Ausrichtung eines Elements beeinflussen. Die Voreinstellung (Linksbündig) wurde im folgenden Beispiel auf Zentriert umgestellt:

<TABLE ALIGN="middle"></TABLE>

Zu Recht können Sie in diesem Buch keine vollständige Spezifikation des HTML-Standards erwarten. Wir werden zwar immer wieder vergleichend auf Analogien hinweisen, aber Sie werden auch ohne HTML-Kenntnisse problemlos die Metasprache XML verstehen.

2.8.5 HTML 3.2

Nachdem es mangels Einigung 1995 nicht zu einer offiziell normierten HTML Version 3.0 kam und Netscape mit eigenen Entwicklungen vorpreschte, einigte sich das W3-Konsortium schließlich gemeinsam mit einigen großen Entwicklungsfirmen auf den Sprachstandard 3.2. Aus diesem Grund taucht in der Abfolge der offiziellen HTML-Normen nie eine Version 3.0 auf. HTML 3.2 wurde im Mai 1996 als Internet-Draft vorgelegt und schließlich als Referenz-Spezifikation im November 1996 verabschiedet.

Die Zeile zur Identifizierung eines Dokuments als HTML 3.2 Standard lautet nach den SGML-Regeln:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//EN">

In Doctype wird ein Verweis zur so genannten Document-Type-Definition (DTD) integriert. Die oben genannten Beispiele greifen auf die offiziellen Dokumenten-Definitionen des W3-Konsortiums zurück. Durch den Zusatz PUBLIC wird kenntlich gemacht, dass es sich um eine vom W3C öffentlich zugänglich gemachte Version handelt. Die DTDs haben bei der Verwendung von XML wesentlich an Bedeutung gewonnen. Wir werden in diesem Buch noch einmal ausführlich auf deren Einsatz und Struktur eingehen.

Der Zusatz EN bedeutet, dass die Sprache der Definition (und nicht die Sprache des Dokuments) Englisch ist. Andere Sprachen sind hier für HTML nicht vorgesehen. Neben den oben genannten Versionen sollten Sie für HTML keine anderen Definitionen verwenden. Im Anhang finden Sie eine Liste aller sonst noch möglichen Sprachcodes nach ISO 639.

2.8.6 HTML 4.0

Mit der aktuellen Version von HTML unterstützt die Sprache verstärkt die Einbindung von multimedialen Elementen, Skriptsprachen und Stilvorlagen (Stylesheets). Gegen die Bestrebungen HTML zu einer Art Desktop Publishing Sprache verkommen zu lassen, wurden allerdings klare Akzente gesetzt. Auch die Internationalisierung und Unterstützung beliebiger Sprachen wurden weiter vorangetrieben. Insbesondere für körperlich benachteiligte Menschen wurden weitere Erleichterungen zum Beispiel zur Ausgabe von Braille-Schrift integriert.

In HTML 4.0 wurden vorwiegend kleine Veränderungen und Anpassungen der vorhergehenden Version vorgenommen. Tim Berners-Lee sagte dazu: »Die Entwicklung von HTML nähert sich ihrem Ende. Jetzt ist es eher notwendig einige lose Enden zusammenzufügen.«

Für die Identifizierung eines Dokuments als HTML 4.0-codiert ist nach SGML-Standard in der ersten Zeile folgender Code einzufügen:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0//EN">

Zusätzlich sind in der Version 4.0 einige weitere Dokumentendefinitionen veröffentlicht worden, die die eingesetzte Sprache näher spezifizieren. Insbesondere wurden in der aktuellen Version einige Markups entfernt, deren Nutzung sich als nicht sinnvoll durchgesetzt hat. Mit dem Attribut »Transitional« (übersetzt: übergangsweise) kennzeichnet man beispielsweise ein Dokument, dass zwar HTML 4.0 verwendet, aber noch nicht auf die nicht mehr empfohlenen Befehle aus älteren Versionen verzichtet.

<!DOCTYPE HTML PUBLIC
    "-//W3C//DTD HTML 4.0 Transitional//EN">

Das Gegenteil des Attributs »Transitional« ist »Strict«. Ein so ausgezeichnetes Dokument muss sich streng an die Empfehlungen zur Version HTML 4.0 halten und darf ausschließlich HTML 4.0 Befehle verwenden.

<!DOCTYPE HTML PUBLIC "-//W3C/DTD HTML 4.0 Strict//EN">

Setzen Sie auf Ihrer Seite die so genannten Frames ein und enthält die Seite lediglich die Framedefinition so kennzeichnen Sie diese mit »Frameset«. Der Frameset enthält keinen eigenen Informationsinhalt, sondern lediglich die Bezüge auf die in den Rahmen anzuzeigenden Dokumente und deren Abmessungen.

<!DOCTYPE HTML PUBLIC "-//W3C/DTD HTML 4.0 Frameset//EN">

Im Anhang haben wir Ihnen eine Übersicht aller HTML-Befehle und der zugehörigen Versionsnummer zusammengestellt. Zusätzlich sind dort auch proprietäre Kommandos, die von Netscape oder Microsoft integriert wurden, gelistet.

Die zurzeit aktuelle Version von HTML, Version 4.0, wurde vom W3C im Dezember 1997 verabschiedet. Einige der dort eingebrachten Änderungen fanden in den meisten Browsern schon vorher Unterstützung. Erst jetzt wurden z.B. die weitverbreiteten Frames (Rahmen) offiziell als Standard dokumentiert. Einige Befehle, die sich in der Vergangenheit als nicht sinnvoll oder wenig einsetzbar erwiesen haben, wurden in der aktuellen Version entweder durch neue ersetzt oder ganz entfernt. Der HTML 3.2 Standard enthält bereits über 70 Befehle und 50 weitere mögliche Attribute und diese Flut von Befehlen wollte man etwas einschränken. Um also ganz korrektes HTML 4.0 zu programmieren muss man auf einige ältere Befehle verzichten. Allerdings unterstützt bis heute noch immer kein Programm alle in Version 4.0 vorgelegten Veränderungen.

2.8.7 Cascading Style Sheets (CSS)

Den Begriff Stylesheet kann man im Deutschen mit Formatvorlage oder Layoutvorlage übersetzen. Dabei handelt es sich eigentlich um eine Vorlage zur Umwandlung der logischen Auszeichnungen in die physischen Auszeichnungen. Die Cascading Style Sheets, die für die Verwendung unter HTML vorgesehen sind, sind inzwischen in der Version 2.0 erschienen.

In der CSS-Definition wird beispielsweise angegeben, dass eine Überschrift erster Ordnung in der Schrift »Arial« Punktgröße 28 in Fettschrift ausgegeben wird. Sofern der Browser also Stylesheets unterstützt, wird er statt der voreingestellten Formatierung die von Ihnen gewünschte Formatierung auswählen.

In HTML sieht eine Style-Sheet-Definition wie folgt aus:

<STYLE TYPE="text/css">
    H1 { background-color : black; color : white }
    H2 { background-color : blue;  color : red   }
    H3 { background-color : blue;  color : black }
    H4 { background-color : blue;  color : red   }
    H5 { background-color : blue;  color : black }
</STYLE>

Sie kann direkt in den HTML-Sourcecode integriert werden oder auch als externe Datei einem Dokument zugeordnet werden.

Neben der Definition von neuen Formaten für bereits bestehende Befehle können mithilfe der Stylesheets auch so genannte Unterklassen von Befehlen gebildet werden.

<STYLE TYPE="text/css">
  H1.wichtig
  { background-color : yellow; color : black }
  H1.unwichtig
  { background-color : white;  color : grey  }
</STYLE>

Im Beispiel wurden für eine Überschrift <H1> die zwei Klassen »wichtig« und »unwichtig« gebildet. Die erste Klasse wird mit schwarzer Textfarbe und gelbem Hintergrund angezeigt. Die zweite definierte Klasse des Tags wird mit grauer Textfarbe und weißem Hintergrund dargestellt.

Um im HTML-Quellcode diese Formatvorlagen anwenden zu können, rufen Sie das Tag wie gewöhnlich auf und übergeben ihm zusätzlich als Attribut CLASS, welche definierte Klasse verwendet werden soll:

<BODY>
<H1>Normale Überschrift 1. Ordnung</H1>
<H1 CLASS="wichtig">Wichtige Überschrift</H1>
<H1 CLASS="unwichtig">Nicht so wichtige Überschrift</H1>
</BODY>

Mithilfe dieser Klassendefinitionen wurde die Funktionalität von HTML stark erweitert. Formatvorlagen, wie sie sonst aus jeder Textverarbeitung bekannt sind, werden so auch für Webdokumente möglich. Die Arbeit des Webdesigners und der Autoren wird durch deren Einsatz wesentlich erleichtert. Mussten früher alle Änderungen im ganzen Quellcode durchgeführt werden, genügt jetzt eine einzige Änderung im Style Sheet aus. Beim Einsatz von CSS ist darauf zu achten, dass längst noch nicht alle Browser diese Erweiterung unterstützen.

Abb. 2.13: Umwandlung der logischen Auszeichnungen in visuelle Informationen.

Mithilfe der CSS werden die logischen Auszeichnungen, in unserem Beispiel die verschiedenen Überschriftenebenen, in physische Informationen umgesetzt. Ohne CSS waren diese Umsetzungen ausschließlich durch den Browser vordefiniert. Das bedingte, dass jeder Browser hier Unterschiede machte.

Durch Style Sheets ist der Webdesigner nicht mehr darauf angewiesen auf logische Auszeichnungen weitgehend zu verzichten und ausschließlich physische Markups einzusetzen, um eine genau definierte optisches Darstellung zu erzielen. Wenn beispielsweise eine wichtige Überschrift in Arial, Fettschrift, Größe Punkt 26 dargestellt werden sollte, blieb dem Autoren nichts anderes übrig, als auf die logische Auszeichnung <H1> zu verzichten und statt dessen mithilfe der physischen Tags das entsprechende Layout einzustellen. Jetzt kann die logische Auszeichnung beibehalten werden und statt dessen deren Aussehen direkt verändert werden.

2.8.8 Dynamic HTML (DHTML)

Mit Dynamic HTML bezeichnet man im Allgemeinen alle Bemühungen Internetseiten noch interaktiver zu gestalten. Das heißt Inhalte sollen sich flexibel an die Belange des Nutzers anpassen und auf dessen Eingaben reagieren. Der große Durchbruch gelang DHTML mit dem Erscheinen der vierten Browsergeneration. Bis dahin war Text und ein wenig Animation mithilfe des CompuServe GIF-Formats schon der Höhepunkt der Interaktivität.

DHTML ist der Oberbegriff für verschiedene alternativ einsetzbare Techniken. In den meisten Fällen handelt es sich um kleine Mini-Applikationen, die innerhalb des Browsers ablaufen. In erster Linie werden heute JavaScript, Visual Basic Script (kurz VBScript) oder ActiveX eingesetzt.

Obwohl auch HTML schon eine hohe Interaktivität bietet, liegt der Unterschied beim Einsatz von DHTML darin, dass nicht für jede Veränderung des Inhalts eine neue Seite vom Server angefordert und übertragen werden muss, sondern die vorhandene Seite kann durch den Browser selbst verändert werden.

Bei allen Lösungen, die um dynamische Websites bemüht sind, handelt es sich in erster Linie um proprietäre Lösungen, die keinem übergreifenden Standard zugeordnet werden können.

Document Object Model (DOM)

Mit Blick auf XML hat das W3C das so genannte Document Object Model (DOM) verabschiedet. Es schafft eine einheitliche Schnittstelle (API) für den Zugriff auf die Elemente einer Website. Damit wird die Veränderung und Verarbeitung beispielsweise von eingebundenen Graphiken, Text oder Überschriften möglich. Um diese Schnittstelle nutzen zu können, wird eine objektorientierte Programmier- oder Skriptsprache, wie beispielsweise C++, Java, VBScript oder JavaScript, benötigt. Das Document Object Modul wird nicht nur unter XML, sondern auch unter HTML einsetzbar sein.

Für das bisherige Chaos unter HTML, wie verschiedene Browser auf die einzelnen Elemente der Seite zugreifen konnten, wurde also jetzt eine einheitliche Lösung gefunden. Damit wird es hoffentlich bald der Vergangenheit angehören, für anspruchsvolle Interaktivität für jeden Browser eine spezifische Lösung programmieren zu müssen. Heute muss man vielfach schon beispielsweise für das vergleichbar einfache programmgesteuerte Öffnen einer neuen Instanz des Browsers (neues Browserfenster) zwischen drei oder vier Lösungen unterscheiden, die jeweils nur mit einer Browserversion funktionieren.

Abb. 2.14: Ein einfaches interaktives Spiel als DHTML-Demo (Quelle: Mark Kaufmann)

Nach Expertenmeinung gehört DHTML zu einer der Schlüsseltechnologien des Internet. Bisher konnte sie sich aber aufgrund der hohen Fehleranfälligkeit, die zahlreiche Browserabstürze nach sich ziehen, noch nicht richtig etablieren. Beispielsweise wird DHTML noch von keinem Macintosh-Browser fehlerfrei unterstützt.

2.8.9 Virtual Reality Modeling Language (VRML)

Schon auf der ersten WWW-Konferenz 1994 in Genf hatte man die Vision, das Internet in Richtung 3-Dimensionalität weiterzuentwickeln. Damals erlangte auch das Wort Cyberspace seine heutige Bedeutung. Erstmals wurde der Begriff Cyberspace übrigens von dem Science-Fiction-Autor William Gibson in seinem bekanntesten Roman »Neuromancer« genannt.

VRML bringt dem Web der Räumlichkeit und virtuellen Realität ein Stück näher. Mit der Sprache VRML können virtuelle Einkaufsstraßen oder Städte erschaffen werden in denen der Besucher sich frei bewegen kann. VRML ist stark an HTML angelehnt und diese beiden Dokumenttypen lassen sich auch problemlos miteinander verbinden. Beispielsweise lässt sich beim Klick auf einen virtuellen Gegenstand ein HTML-Dokument aufrufen.

Ursprünglich hatte man dieser neuen Entwicklung sehr große Chancen eingeräumt und alle aktuellen Browser unterstützen den VRML-Standard heute. Aber sowohl die Anforderungen an die Hardware als auch an die Bandbreite sind doch enorm hoch, so dass sich das Internet noch nicht von der zweidimensionalen Darstellung lösen konnte. Bis heute existieren eher experimentelle Lösungen, die breite Masse an Anwendungen fehlt.

Doch die Entwicklung geht weiter und wir kommen der Vision des Cyberspace täglich ein Stück näher. Vielleicht wird diese Vision nicht mit VRML umgesetzt, aber die Faszination des virtuellen Raums geschaffen im Internet ist aktueller denn je.

2.8.10 Standard Generalized Markup Language (SGML)

SGML ist die Mutter aller Auszeichnungssprachen im Web. Sie wurde bereits 1986 als ISO 8879 verabschiedet und bildet heute die Basis aller Auszeichnungssprachen. Charles Goldfarb entwickelte die Sprache, um die logische Struktur von wissenschaftlichen Texten beschreiben zu können.

Als Metasprache können mit SGML Auszeichnungssprachen wie HTML definiert werden. SGML ist wesentlich komplizierter und unhandlicher als XML. Viele Erfahrungen, die mit der Benutzung von SGML in den letzten 12 Jahren gemacht wurden, finden wir heute in verbesserter Form in XML wieder. XML versteht sich als Teilmenge von SGML.

Mit SGML wurde die Idee Texte nicht nur visuell (oder physisch) zu strukturieren, sondern logisch und inhaltlich zu codieren, fortgeführt. Ursprünglich geht diese Entwicklung auf die allgemeine Codierung (Generic Coding), die von IBM 1960 entwickelt wurde, zurück. Es wurde zwischen Inhalt (engl. »content«) und Darstellung (engl. »presentation«) differenziert. SGML stellt Fähigkeiten zur Verfügung mit denen Sie explizit festlegen können, welche Auszeichnungen in Ihren Dokumenten verwendet werden. Mithilfe dieser Definition können dann darauf basierende Dokumente erstellt werden.

In SGML wurde der Einsatz der so genannten DTD (Document Type Definition) eingeführt. Eine DTD beschreibt den strukturellen Aufbau von Dokumenten. Die DTD definiert im Einzelnen die einsetzbaren Befehle und deren zusätzlichen Optionen

Ohne jetzt schon näher auf die Bedeutung der einzelnen Befehle einzugehen, sehen Sie im folgenden Listing die Beschreibung des HTML-Markups IMG zum Einbinden einer Grafik in ein HTML-Dokument:

<!ELEMENT IMG -->
<!ATTLIST IMG
  src       %URL       #REQUIRED
  alt       CDATA       #IMPLIED
  align       %IAlign       #IMPLIED
  height       %Pixels       #IMPLIED
  width       %Pixels       #IMPLIED
  border       %Pixels       #IMPLIED
  hspace       %Pixels       #IMPLIED
  vspace       %Pixels       #IMPLIED
-->

Neben dem IMG-Markup ist die komplette Syntax einschließlich aller erforderlichen und optionalen Attribute angegeben. Die Übersicht zeigt die Definition des Befehls nach dem aktuellen HTML 4.0-Standard. Im Dokument kann der Befehl dann beispielsweise wie folgt eingesetzt werden:

<IMG SRC="bild.gif" HEIGHT="200" WIDTH="150">

Üblicherweise schreibt man nicht für jedes Dokument eine neue DTD, sondern verwendet diese in einer Klasse von Dokumenten. Themen, die einer eigenen Dokumentenklasse zuzuordnen sind, könnten beispielsweise sein: Mathematik, Literatur aber auch Versandhauskataloge. Jede dieser Klassen zeichnen sich durch eine durchgängige Struktur aus. Spezielle Bedürfnisse des Mathematikers z.B. um Formeln korrekt und einfach anzeigen zu können.

Für die einzelnen Versionen von HTML existiert jeweils nur eine einzige DTD. Das erleichtert uns einerseits natürlich die Arbeit damit, andererseits schränkt dieser kleinste gemeinsame Nenner aber auch ein. Auch in XML können eigene DTDs definiert werden, aber natürlich viel einfacher als mit SGML. Es existieren auf dem Markt außerdem keine HTML-Browser, die eine DTD einlesen könnten. Daher hat die Verwendung von DTDs bisher keine Rolle gespielt, die aktuellen HTML-Definitionen waren und sind einfach fest und unveränderlich in den Browser integriert und können frühestens beim nächsten Browserupdate an aktuelle Veränderungen angepasst werden.

Jedes SGML-Dokument beginnt mit der SGML Deklaration. In diesem Teil der Datei finden wir einige Hinweise zur Konfiguration, beispielsweise die Festlegung des verwendeten Zeichensatzes.

Mit der folgenden Zeile beginnt ein SGML-Dokument:

<!SGML ISO8879:1986>

Sie gibt die Version des verwendeten Standards wieder. Zusätzlich zur ISO-Norm ist die Jahreszahl der Veröffentlichung mit angegeben.

Die wichtigsten Bestandteile einer SGML Applikation sind:

SGML findet heute meist als Ausgangsbasis für die Weiterverarbeitung von Informationen seinen Einsatz. Dokumente werden ausgehend von SGML - meist automatisch - in visuelle Formate überführt. Denn zum Anzeigen und Ausdrucken des SGML-Formats selbst existieren fast keine Möglichkeiten. Auf der Basis eines SGML-Textes ist es aber ohne weiteres möglich beispielsweise TeX-Dateien oder PDF-Dokumente zu erstellen, die sich dann problemlos zu einem druckbaren Ergebnis umsetzen lassen.

Existierende SGML-Dokumente können in XML-Dokumente konvertiert werden, wenn einige Voraussetzungen erfüllt sind. In erster Linie muss dabei berücksichtigt werden, dass in der verwendeten DTD keine Features eingesetzt werden, die in XML nicht erlaubt sind. Einige manuelle Änderungen sind allerdings in den meisten Fällen trotzdem notwendig. In XML sind übrigens im Gegensatz zu SGML auch Dokumente ganz ohne Verweis auf eine DTD erlaubt. XML vermindert die gewaltige Komplexität von SGML und ermöglicht so einen wesentlich leichteren Zugang zu der Sprache, sowie eine schnellere Umsetzung in praktische Ergebnisse.

Folgende SGML-Konstrukte sind in XML nicht erlaubt:

<!-- Kommentar -->
SHORTREF, USEMAP,      LINKTYPE, LINK, USELINK, IDLINK

2.8.11 Synchronized Multimedia Integration Language (SMIL)

Eine ganz neue Entwicklung, die erst auf der Basis von XML möglich war, präsentierte das W3C im Sommer 1998. Die neue deklarative Sprache Synchronized Multimedia Language (SMIL) wurde konkret als Unterstützung von Multimedia-Präsentationen im Web konstruiert. Sie schafft damit endlich einen eindeutigen Standard und macht Webdesigner nicht mehr abhängig von Dynamic HTML, Java-Script oder Plug-Ins wie RealPlayer2 oder Shockwave.

Es handelt sich bei SMIL um eine Metasprache wie XML, die sich dann auch als Untermenge des XML-Sprachstandards deklariert. Mit SMIL können Multimediainhalte, wie Video, Audio oder Text, zeitlich koordiniert abgespielt werden. Die Empfehlung enthält allerdings keine detaillierten Vorschriften zu den verwendeten Multimedia-Formaten.

SMIL-Anweisungen lassen sich einfach in HTML-Quellcode integrieren und haben in ihrer Syntax eine große Ähnlichkeit zur bekannten Hypertextsprache. Mit optionalen Attributen kann man steuern, wann eine Sequenz startet und wie lange sie läuft. Video- und Audioausgaben lassen sich so leicht synchronisieren. Durch die Trennung von Videobild und Tonausgabe können Videos in verschiedenen Sprachen ausgegeben werden indem lediglich eine andere Audiosequenz eingespielt wird.

Ein weiterer entscheidender Vorteil von SMIL liegt nicht nur in der einfachen Einsetzbarkeit, sondern in der je nach vorhandener Bandbreite veränderbaren Anweisungen. Bei geringer Bandbreite wird dann beispielsweise keine zeitraubende Videosequenz gesendet, sondern eine reduzierte Version übertragen.

Zurzeit existiert allerdings kaum Software für diesen neuen Standard und auch die aktuellen Browserversionen unterstützen SMIL noch nicht. Microsoft zum Beispiel sieht die bestehenden Standards als ausreichend an und sieht für eine Berücksichtigung von SMIL derzeit keinen Anlass.

2.9 Extensible Markup Language (XML)

XML ist keine SGML-Anwendung, wie beispielsweise HTML, sondern ein SGML-Profil. Man spricht hier von einem »generalized markup« (verallgemeinerte Auszeichnung). Das ermöglicht es eigene neue Sprachen zu definieren. Das heißt Ihre Seiten werden letztendlich auch nicht mit XML, sondern mit einer darauf definierten Sprache verfasst.

Eine solche Sprache könnte z.B. einem bestimmten Fachgebiet zugeordnet sein und insbesondere Befehle enthalten, die dort benötigt werden. Vorstellbar ist eine mathematisch orientierte Auszeichnungssprache mit deren Hilfe sich komplexe Formeln darstellen lassen.

Einige solcher auf der Basis von XML definierten Auszeichnungssprachen existieren inzwischen schon oder befinden sich im Aufbau:

XML ist eine Teilmenge von SGML. Die Sprache wurde entworfen, um eine einfachere Implementierung neuer Elemente zu ermöglichen.

In den ersten Entwürfen zu XML war eine Kompatibilität zu SGML noch nicht gegeben. Man hat dann in den folgenden Entwicklungen große Anstrengungen unternommen, um XML zu einer Teilmenge von SGML zu machen. Letztlich wäre die vollständige SGML-Konformität nicht ohne Einschränkungen des XML-Standards möglich. Also hat man sich im Dezember 1997 dazu entschlossen SGML entsprechend zu erweitern.

Letztlich bedeutet das in der Praxis, dass sich XML-Applikationen nicht immer ganz problemlos in SGML-Code umwandeln lassen.

XML unterscheidet sich zu HTML unter anderem dadurch, dass Informationsanbieter eigene Markupbefehle und Attribute nach Bedarf definieren können. Dokumentenstrukturen können in Ihrer Komplexität an die erforderlichen Informationen angepasst werden. Jedes XML-Dokument kann weitere optionale Beschreibungen seiner Grammatik enthalten, mit deren Hilfe eine Applikation dann eine strukturelle Überprüfungen durchführen kann.

Abb. 2.15: XML als Ausgangssprache für die Weiterverarbeitung.

Die Vision von XML für die Zukunft ist es, die Sprache als Basis für jede Art von Daten zu etablieren. Aus diesen Daten können dann fast beliebig andere Dokumententypen erzeugt werden. Die heute anfallende Doppelarbeit bei Erfassung und Konvertierung fällt weg. Deutlich wird dabei auch, dass nicht mehr einzig und allein die Verarbeitung von Dokumenten im Vordergrund steht, sondern selbst Datenbanken wie beispielsweise Artikelstammdaten mithilfe von XML verarbeitet werden können.

In unserem Beispiel eines Versandhauses bildet eine Artikelübersicht auf Grundlage von XML die Basis. Diese Artikelbeschreibungen können einerseits direkt in eine Lagerverwaltung konvertiert werden, andererseits aber auch in jede andere Form gebracht werden. Eine mühsame Mehrarbeit für die Erstellung des Online-Angebots oder der druckreifen Vorlagen entfällt.

Man erkennt allerdings schnell, dass unsere wunderbare und arbeitssparende Zukunftsvision nur funktionieren kann, wenn eine möglichst breite Schicht an Anwenderprogrammen den neuen Standard annimmt und unterstützt. Gegenwärtig sieht es so aus, als ob die Vision Realität werden könnte. In den USA ist ein wahrer XML-Boom ausgebrochen, der uns mit der üblichen Zeitverzögerung von einigen Monaten inzwischen erreicht. Software-Entwickler setzen alles daran XML-fähige Versionen ihrer Produkte auf den Markt zu bringen. Allen voran hat Microsoft sich der Technologie angenommen und bietet in der neuen Office 2000 Version eine umfangreiche XML-Unterstützung an.

2.9.1 Extensible Style Sheet Language (XSL)

Ergänzend zu den Cascading Style Sheets kümmert sich XSL speziell um die Formatvorlagen zu XML. Sie bestimmt das Layout einer Seite oder wandelt Dokumente beispielsweise in HTML-fähige Konstrukte um. Die bekannten Cascading Style Sheets lassen sich zwar auch unter XML nutzen, XSL soll aber noch stärker auf die Belange von XML zugeschnitten sein.

Die Entwicklung von XSL wurde entscheidend durch die Firmen Microsoft, Inso und ArborText vorangetrieben und so verwundert es auch nicht, dass die von Microsoft entwickelte Version als Vorschlag vom W3C übernommen wurde.

XSL ist abgeleitet von der »Document Style Semantics and Specification Language« (kurz DSSSL), die ihren Ursprung in der SGML-Entwicklung hat. Wesentliche Grundzüge von CSS bzw. der neueren Version CSS 2.0 fanden in XSL natürlich auch Eingang.

Eine neue Technologie für die Verwendung von Stylesheets unter XML wurde notwendig, da die Cascading Style Sheets doch mit einigen wichtigen Einschränkungen daherkommen. Die größte Einschränkung ist wohl das völlige Fehlen von typischen Elementen einer Programmiersprache. Beispielsweise lassen sich weder bedingte Abfragen definieren, noch werden Variablen unterstützt. So lassen sich mithilfe von CSS noch nicht einmal Seitenzahlen automatisch generieren.

Abb. 2.16: Mithilfe von XSL lässt sich aus XML-Dokumenten automatisch HTML-Quellcode erstellen (Quelle: Microsoft)

Die Aufgaben von XSL liegen vor allem in zwei Bereichen:

Stylesheets haben für XML erheblich an Bedeutung gewonnen, denn abweichend von HTML kennt der Browser bei selbst definierten Befehlen nicht das Format in dem er es anzeigen soll.

2.10 Ziele von XML

XML wurde von einer eigenen Arbeitsgruppe des W3C unter dem Vorsitz von Jon Bosak von Sun Microsystems entwickelt. Das W3C gründete diese Gruppe 1996 als Fortführung des SGML Editorial Review Board. Die zehn wichtigsten Ziele zum Entwurf der neuen Metasprache haben wir hier kurz zusammengefasst:

In der Spezifikation werden folgende bereits bekannten Standards eingesetzt:

Die Tabellen dieser wichtigen ISO-Normen finden Sie im Anhang.

2.11 XML als Alternative zu HTML

Gerade in einem Werk über XML erwarten Sie als Leser natürlich auch eine Einschätzung der Autoren zur zukünftigen Entwicklung mit kritischer Distanz zum Thema.

Soviel vorab: XML wird HTML, die Lingua Franca des Internet und Intranets, niemals ersetzen. Das stellt auch das W3-Konsortium in seinen Kommentaren kategorisch zu dieser Frage fest.

Die Entwicklung von HTML wird ausdrücklich weiter fortgeführt und die oft gehörte Behauptung XML sei der Nachfolger von HTML ist somit hinfällig. Sicherlich werden wir auch noch eine HTML Version 5.0 erleben.

Auch wenn die Entwicklung hier in Zukunft wesentlich langsamer voran gehen wird. Denn durch XML muss nicht jedesmal ein neuer HTML-Standard vom W3C ausgerufen werden, wenn ein neuer Befehl erforderlich ist. Der Vorzug von XML liegt ja gerade in der Erweiterbarkeit. Auch müssen die Browserhersteller nicht ständig ihre Software überarbeiten - zumindest nicht aus dem Grund, dass eine neue HTML-Version verabschiedet wurde. Lediglich eine funktionierende XML-Unterstützung muss implementiert werden. XML ist auch keine neue Browser-Erweiterung oder ein Plug-In, sondern eine völlig neue Entwicklung zur Verwaltung, Verarbeitung und Veröffentlichung von strukturierten Daten.

Es stellt sich allerdings die Frage, warum überhaupt eine neue Metasprache zur Definition von Auszeichnungssprachen notwendig ist. Kann man den heutigen Erfordernissen von Multimedialität nicht einfach durch den weiteren Ausbau der Sprache HTML entgegnen.

Die Ausrichtung von XML ist allerdings, wie Sie in den vergangenen Abschnitten erfahren haben, eine ganz andere. Wer heute HTML einsetzt, kümmert sich in erster Linie darum, wie die Informationen auf den Bildschirmen der Anwender erscheinen. XML ist dagegen stärker darauf ausgerichtet Informationen so aufzubereiten, dass sie leicht weiterverarbeitet werden können.

Das folgende Beispiel einer einfachen Adressen-Definition könnte in der vorhandenen Struktur in eine Datenbank überführt werden.

<ADRESSE>
    <NACHNAME>        Meier      </NACHNAME>
    <VORNAME>        Hans      </VORNAME>
    <STRASSE>        Waldweg 3      </STRASSE>
    <PLZ>        33102      </PLZ>
    <ORT>        Paderborn      </ORT>
</ADRESSE>

Eigentlich rücken hier Aspekte wieder in den Vordergrund, die in den ersten HTML-Versionen noch eine übergeordnete Rolle gespielt haben. Es geht nicht darum, wie die Informationen auf dem Monitor dargestellt werden, sondern viel stärker darum wie sie strukturiert sind.

In der kommenden Zeit werden weitere neue Technologien zu XML unterstützend hinzukommen. Die Entwicklung geht also weiter. Beispielsweise die schon erwähnten Extensible Style Sheet Language (XSL) oder Dynamic HTML mit dem Document Object Model. Größtenteils befinden sich diese zurzeit noch in der Entwicklung und sind noch nicht ganz ausgereift.

2.11.1 Die Zukunft von HTML und XML

In Zukunft wird HTML nicht durch XML ersetzt, aber HTML wird auf Basis von XML neu definiert und ist damit leichter an individuelle Belange anzupassen. Das W3C hat bis ungefähr Ende 1999 die Entwicklung der nächsten HTML-Generation abgeschlossen und X-HTML 1.0 entwickelt. Diese Version wird deutlich von der Entwicklung der Expanded Markup Language geprägt sein.

Abb. 2.17: Die Zukunft liegt in einer Verbindung von HTML und XML  (Quelle: W3C)

Die zukünftige HTML-Version wird aus einzelnen Befehls-Modulen (beispielsweise für Tabellen oder Multimediaelemente) bestehen, die je nach Bedarf dem Dokument hinzugefügt werden können. Neben dem Basis-Modul werden verschiedene vorgegebene aber optionale Module zur Verfügung stehen. Zusätzlich zu diesem Befehls-Kern, der die heute bekannten Tags enthält, ist es durch das Modul-System möglich eigene Befehlssätze auf XML-Basis zu schaffen und diese in die bestehende Struktur zu integrieren. Denkbar sind Module für den wissenschaftlichen Einsatz beispielsweise in der Mathematik.

Es besteht also mit XML kein Anlass zur Sorge jetzt bei Null anfangen und alle Befehle, mit denen man unter HTML so gut vertraut war, selbst neu erfinden zu müssen. Otto Normalanwender wird auch in den nächsten Jahren keinen Blick auf XML werfen müssen und seine Seiten weiterhin mit HTML erstellen. HTML wird weiterhin Grundlage für die unabhängigen und einfachen Dokumente im Web sein.

XML wird sich vor allem im professionellen Bereich der Dokumentenverarbeitung seinen Weg bahnen. Dort kann es mit seinen vielfältigen Möglichkeiten an die spezifischen Bedürfnisse insbesondere von größeren Projekten angepasst werden.

Künftige Berufsfelder

Die Entwickler sind allerdings gefragt sich der neuen Technologie anzunehmen. Den reinen Webdesigner, der sich nur mit der Präsentation im Netz beschäftigt, wird es so in Zukunft nicht mehr geben.

Vielmehr wird sich das Berufsbild ausweiten auf die Realisierung von Konzeptionen zur Unternehmenskommunikation. Aufgabe wird sein Lösungen zu finden, die alle Informationen eines Unternehmens in einem Format zusammenführen.

Weg vom Design - hin zur Konzentration auf die Strukturierung der vorhandenen Daten. Der Bereich Webdesign wird sich nicht mehr völlig autark das bestehende Informationsmaterial zusammensuchen und zu einer Online-Präsenz formieren. Von der bereits vorhandenen Information beispielsweise aus dem Print-Bereich oder der Artikeldatenbank ist die fertige Internet-Präsentation dann nur noch einen Mausklick entfernt.

Also ist es gerade in diesem neu entstehenden und sich ständig verändernden Berufsfeld wichtig sich flexibel den neuen Gegebenheiten anzupassen. Aber hier besteht weniger Gefahr für alle, die zurzeit von dieser Tätigkeit leben. Denn eine Internet-Seite in HTML zu erstellen ist denkbar einfach und mit dieser Fähigkeit allein kann und wird in Zukunft niemand mehr sein Geld verdienen können. Für die Erstellung komplexer Informationsstrukturen und der Umsetzung in XML, sowie für die Programmierung von DTDs werden dagegen in Zukunft zunehmend Profis gefordert sein.