Bitte wählen Sie:

Content - der Inhalt eines Webauftritts

Besonders im World Wide Web bezeichnet man jede Form von Inhalt, der auf einer Webseite erscheint, als Content. Content ist schließlich auch der englische Ausdruck für „Inhalt”. Doch auch im webaffinen deutschen Sprachgebrauch hat sich dieser Begriff etabliert und sogar auf andere Mediengattungen ausgedehnt.

Landläufig sind also mit dem Begriff „Content” Texte, Bilder, Videoclips, Animationen oder auch Tonaufnahmen im World Wide Web als einen Teil des Internets gemeint. Für die Darstellung auf Webseiten eignen sich aber nicht alle Dateiformate gleichermaßen gut. Am unkompliziertesten ist immer noch, vielleicht aus historischen Gründen, Text, der mit verschiedenen Zeichenformatierungen vorliegen kann, also in verschiedenen Schriftarten, fett, kursiv, unterstrichen, in verschiedenen Farben und Größen sowie mit Verweisen auf andere via Internet zugängliche Dokumente.

Mit dem Hypertext Transfer Protocol (HTTP) liegt ein Standard vor, der es möglicht macht, Dokumente untereinander zu verlinken. Es genügt dank dieses Protokolls ein Klick mit der Maus, um ein weiteres Dokument zu öffnen. Untereinander verlinkte Dokumente mit Inhalten bilden das World Wide Web (WWW). Andere Internetprotokolle wie beispielsweise FTP, NNTP oder IMAP, leisten dies nicht, haben aber andere Vorzüge. Im WWW gibt es Milliarden Webdokumente, die in der Seitenbeschreibungssprache HTML (für Hypertext Markup Language verfasst sind. In den HTML-Dokumenten befindet sich der eigentliche Inhalt oder ist dort referenziert, also mit einem Verweis dort repräsentiert.

Content is king

Mit der inzwischen abgegriffenen Parole Content is king kommt zum Ausdruck, dass der Inhalt einer Website der eigentliche Grund ist, warum diese Website von Usern besucht wird. Heute kommt der Aspekt hinzu, dass auch Suchmaschinen die Abschätzung der Relevanz einer Website als vorgeschlagener Treffer für einen Suchbegriff stärker als früher anhand der Inhalte vornehmen. Während einst eine einfache Betrachtung der Keyworddichte, also der Häufigkeit des Suchbegriffs im Text bezogen auf die komplette Textmenge dafür ausreichend schien, werden heute ausgefeiltere Methoden angewendet. Dazu gehört der aus der information retrieval-Forschung stammende Ansatz der Within document frequency bezogen auf die Inverse document frequency. Dabei steht der Begriff frequency für "Häufigkeit". Bei diesem Ansatz ist wesentlich, wie oft der Suchbegriff im abzuschätzenden Textdokument im Vergleich zu anderen, ähnlichen Dokumenten vorkommt und welche weiteren Begriffe im analysierten Dokument vorkommen, wobei diese Begriffe ebenfalls mit deren Vorkommen in Vergleichsdokumenten betrachtet werden.

Webdokumente sind meist Textdokumente

In einem Webdokument liegen die meisten Informationen in Textform vor. Dies ist ein wesentlicher Unterschied zu anderen Mediengattungen wie Fernsehen oder Rundfunk. Für die kontinuierliche Darstellung von Bewegtbild oder die Wiedergabe von Audiodaten auch in Echtzeit (streaming) gibt es besondere internetbasierte Protokolle. Das Hypertext Transfer Protocol (HTTP) ist dafür nur bedingt geeignet.

In Textdokumenten gilt: Der eigentliche und wesentliche Informationsgehalt steckt nicht in der Größe, Formatierung oder allgemein der Präsentation, sondern in der Abfolge der Zeichen, sprich: Wörter, die eben eine Bedeutung haben. So kann man das Wort „Haus” schreiben als „HAUS” oder „Haus” oder „ Haus ”. Jeder Webseitenbesucher wird immer das Wort „Haus” und seine Bedeutung erkennen.

Auch Formatierungen können semantischen Gehalt haben

Formatierungen dienen nicht nur der ästhetischen Bereicherung: Ein fett- oder kursivgedrucktes Wort etwa erscheint im Kontext wichtiger als die Begriffe und Wörter in der Nachbarschaft. Um solche Hervorhebungen vornehmen zu können, hält der HTML-Standard einige Auszeichnungselemente bereit, die für Formatierungsanweisungen verwendet werden können. Zu diesen Auszeichnungen gehören die sogenannten Überschriften-Tags H1, H2, H3, mit denen eine Hierarchie der Überschriften festgelegt werden kann. Diese Auszeichnungen haben auch semantische Aspekte, geben also dem reinen Text zusätzliche Bedeutung.

Bilder im Web

Bilddaten sind nicht direkter Teil eines Webdokuments. Es finden sich darin lediglich Verweise auf die Datei, die an entsprechender Stelle angezeigt werden soll. Webbrowser kommen normalerweise mit den Bildformaten JPG, GIF oder PNG gut zurecht und können diese problemlos darstellen und sogar die Größe zur Anzeige ändern (Skalierung). Diese Formate sind optimiert für ihren Einsatz im Internet, denn die Datenmenge, die nötig ist, um das Bild zu kodieren und übertragbar zu machen, wurde mittels geeigneter Verfahren reduziert.

Bei einem Bild im psd-Format werden sich Browser für gewöhnlich schwer tun.

Videocontent im Web

Noch diffiziler gestaltet sich der Einsatz von Bewegtbildern im Web. Verbreitete Browser bringen von Haus aus keine Darstellungsmöglichkeit von Videoclips mit, sondern sind auf Erweiterungen angewiesen, die bestimmte Medientypen wiedergeben können. Erst mit dem HTML5 Standard wurde dies anders. HTML5-fähige Browser brauchen kein Player-Plugin mehr

Zudem muss der Videocontent, so wie er auf dem Webserver abgelegt ist, gewisse Formatbedingungen erfüllen, so dass in Zusammenspiel mit dem Webserver ein Abspielen des Videoclips auf der Webseite im Internet möglich wird. Hier gibt es eine Vielfalt von herstellerspezifischen Formaten, die unterschiedliche Datenraten ermöglichen oder verschiedene Kompressionsalgorithmen implementiert haben. Im Web setzt sich das H.264 Format durch, wobei die Daten an sich in einen sogenannten Container eingebettet sind. Ein Container für Videoclips kann das Flashformat (FLV) oder auch AVI sein.

Bei reinen Audiodaten ist dies ähnlich. Es ist möglich, auf einer Website Ton-Dateien anzubieten, die ebenfalls in einem eingebetteten Player abgespielt werden können. Als Audioformate sind MP3, das mit Kopierschutz und Rechtemanagement ausgestattete AIFF oder WMA üblich.

Animierte Grafiken können nochmals in weitere Typen unterteilt werden. Animationen, die mit dem Ziel einer Emotionalisierung eingesetzt werden, bestehen meist aus einer Abfolge von Bildern, die dynamisch präsentiert werden, wobei die Übergänge (auch Transitions genannt) für Aufmerksamkeit sorgen sollen. Diese Arbeit übernehmen programmierte Abfolgen, die oft mit Javascript realisiert werden. Eine andere Form von animierten Grafiken sind interaktiv manipulierbare Veranschaulichungen von Daten oder Zusammenhängen, wobei aber wiederum spezielle Erweiterungen für den Browser nötig sind. Auch dafür liefert Javascript eine gute Basis zur Realisierung. Viele oft benötigte Funktionen finden sich in Frameworks wie JQuery.

Es gab einige Bemühungen, die Art und Weise wie Content in Dokumenten beschrieben und so für Speicherung und Weitergabe aufbereitet werden kann, zu standardisieren. Das gängigste Metaformat für Inhalte ist XML (Extensible Markup Language), das wiederum aus SGML (Standardised Markup Language) hervorgegangen ist.

Web 2.0 und user generated content

Mit der gestiegenen Verbreitung von Technologien, die stärkere Userinteraktion zulassen - dazu gehört beispielsweise PHP in Zusammenspiel mit MySQL - fanden mehr Webangebote Verbreitung, die weniger statische Inhalte als vielmehr von Usern eingebrachte Inhalte präsentierten. Diese von Usern in Foren, Fragencommunities und Bewertungsportalen eingebrachten Inhalte werden oft als User generated content bezeichnet. Als Abkürzung dafür wird gelegentlich UGC verwendet.

Mit der wachsenden Popularität von Userinhalten stellten sich viele rechtliche Fragen bezüglich der Urheberrechte an den Inhalte neu. In vielen Fällen sichert sich der Betreiber der Plattform zumindest ein Nutzungsrecht, oft aber auch ein Weiterverbreitungsrecht an Nutzerinhalten zu. Auf der anderen Seite sind aber auch Haftungsfragen für potentiell oder tatsächlich problematische Inhalte neu diskutiert worden.

Unter user generated content fällt nicht nur Text, sondern fallen auch andere Contentformate wie Video, Audio, Bilder, aber auch Bewertungen in Nichttextform (z.B. Abgabe eines Votings auf einer Ratingskala).

Duplicated Content

Der Begriff Duplicated Content verweist auf eine Problematik, mit der sich Suchmaschinen konfrontiert sehen: Oft stehen Inhalte nicht nur auf einer Webseite unter einer URL, sondern finden sich in gleicher oder sehr ähnlicher Form auf anderen URLs unter der gleichen Domain oder unter anderen Domains. Die Suchmaschinenbetreiber mussten Strategien entwickeln, um gleiche Inhalte zu identifizieren und damit umzugehen. Zentrale Frage ist hierbei: Welche der URLs mit dem eigentlich zur Suchanfragen gut passenden Inhalt sollte man als Suchtreffer anzeigen?

Dass doppelte Inhalte im Web entstehen, kann zufällig, unabsichtlich oder auch absichtsvoll geschehen. Im letzeren Fall kann es sich auch um Contentklau handeln: Inhalte einer Webseite werden einfach kopiert und auf der eigenen Webseite eingesetzt, mit der Absicht, suchende User auf die eigenen Webseiten zu locken. Dies kann auch urheberrechtlich problematisch sein, denn normalerweise wurde ein Text oder Video von einer natürlichen Person erstellt, der bestimmte Urheberrechte zukommen.