Zum Inhalt springen

Startseite > Datenrettung Lexikon > Anfangsbuchstabe C > Charset

Charset Definition & Begriffserklärung

Charset: Zeichensatz und Zeichenkodierung (Übersetzungstabelle für Bitfolgen)Bei einem Charset handelt es sich um eine Art Übersetzungstabelle, mit deren Hilfe Zeichen aus Bitfolgen dargestellt werden können. Dabei bedeutet Charset selbst einen definierten Zeichensatz, beispielsweise das Alphabet oder Ziffern (0–9) sowie die Binärzeichen 0 und 1, die über die Computertastatur eingegeben, gespeichert und übertragen werden können.

Der Begriff Charset ist eng verbunden mit der Zeichenkodierung. Unter Zeichenkodierung versteht man die konkrete Zuordnung von Buchstaben, Ziffern und Sonderzeichen zu Zahlenwerten (Codepunkten) und deren Umsetzung in Bytefolgen. Generell werden in der IT sämtliche Zeichen über Zahlenwerte kodiert, die sich dann für die Speicherung, Verarbeitung oder Übertragung eignen. Ein Charset beschreibt den vorhandenen Zeichenvorrat (z. B. welche Zeichen es gibt), die Kodierung legt fest, wie diese Zeichen in Bytes abgebildet werden.

So wird beispielsweise das deutsche Ü im ISO-8859-1-Zeichensatz mit dem dezimalen Wert 220 dargestellt. Beim EBCDIC-Code wird über den Wert 220 die geschweifte Klammer } kodiert. Für eine richtige Zeichendarstellung muss folglich auch die jeweilige Zeichenkodierung bekannt sein – der reine Zahlenwert reicht hierfür nicht aus. Ein und derselbe Bytewert kann je nach Kodierung ein anderes Zeichen bedeuten; falsche Annahmen führen zu fehlerhaften Darstellungen (sogenanntes „Mojibake“).

Wichtige Unterscheidungen:

  • Zeichensatz (Charset): Welche Zeichen existieren – z. B. lateinische Buchstaben, Umlaute, Kyrillisch, Arabisch, Emoji.
  • Kodierung: Wie werden diese Zeichen als Bytefolgen gespeichert – z. B. ASCII (7-Bit), ISO‑8859‑1, Windows‑1252, UTF‑8, UTF‑16, UTF‑32.
  • Codepunkt: Abstrakte Nummer eines Zeichens (in Unicode als U+XXXX notiert).
  • Glyph/Graphem: Die optische Darstellung eines Zeichens bzw. eine wahrgenommene Einheit, die auch aus mehreren Codepunkten bestehen kann (z. B. Buchstabe + kombinierender Akzent).

Gängige Kodierungen und ihre Eigenschaften:

  • ASCII (7‑Bit): Basislatein, 128 Zeichen.
  • ISO‑8859‑1 („Latin‑1“): 8‑Bit, westeuropäisch; keine typografischen Anführungszeichen.
  • Windows‑1252: Erweiterung von Latin‑1 mit typografischen Zeichen; oft fälschlich als ISO‑8859‑1 deklariert.
  • UTF‑8: Variable Länge (1–4 Bytes), deckt den gesamten Unicode‑Zeichensatz ab; heute Quasi‑Standard im Web.
  • UTF‑16/UTF‑32: Fixe 2/4‑Byte‑Einheiten (UTF‑16 mit Surrogates), verbreitet in einigen APIs und Systemen.
  • EBCDIC: 8‑Bit‑Kodierung historisch auf Großrechnern (Mainframes) von IBM.

Typische Fehlerbilder bei falscher Kodierung:

  • Umlaute und Sonderzeichen erscheinen als � oder kryptische Sequenzen (z. B. „ö“ statt „ö“).
  • Inkonsistenzen zwischen Datei, Datenbank, Anwendung oder HTTP‑Headern führen zu uneinheitlicher Darstellung.
  • Fehlende oder unpassende Schriftarten verhindern die korrekte Anzeige vorhandener Zeichen.
Datenrettung zum Festpreis

Wir analysieren Defekte an allen gängigen Datenträgern aller Hersteller - kostenlos und unverbindlich.

Sie erhalten anschließend ein Festpreis-Angebot für die Wiederherstellung Ihrer Daten. Kosten fallen nur an, wenn Sie uns beauftragen und wir Ihre Daten retten können!

100% kostenlose Analyse anfordern!

Charset Geschichte

Die Ursprünge der Zeichenkodierung liegen bereits in der Antike. Schon immer waren Rauchzeichen und Trommelzeichen weithin bekannt. Selbst das 1648 entwickelte Signalflaggensystem in der Marine gehörte zur Zeichenkodierung. 1837 wurde der weltweit bekannte Morsecode entwickelt. Der erste Zeichensatz wurde 1870 von Jean-Maurice-Emile Baudot entwickelt. Er basierte auf einem 5er-Code-Alphabet für einen Synchrontelegraphen. Der Baudot-Code war auch die Grundlage für den definierten Zeichensatz des Commité Consultatif International Telegraphique et Telephonique, kurz CCITT.

Ebenfalls auf der Grundlage von Baudot begann die Umsetzung der Zeichenkodierung in binäre Bitfolgen, als die ersten Computer ihren Siegeszug antraten. Um die aus Bitfolgen bestehenden Zeichen darstellen zu können, mussten Übersetzungstabellen als Charsets geschaffen werden. Generell lassen sich die verschiedenen Zeichenkodierungen durch elektrische, optische oder akustische Signale transportieren. Die binäre Darstellung und Verarbeitung bietet jedoch den Vorteil, dass ein solcher Charset wesentlich sicherer übermittelt werden kann, als die anderen Varianten.

Im Jahr 1963 wurde der erste 7-Bit ASCII-Code von der American Standards Association definiert. Es sollte eine Vereinheitlichung der Zeichenkodierung stattfinden. IBM führte 1964 eine eigene 8-Bit-Zeichenkodierung ein, dem EBCDIC. Beide Kodierungen werden bis heute in der Computertechnik angewandt.

Weiterentwicklung bis heute:

  • 1970er/80er: Erweiterungen zu 8‑Bit‑„Extended ASCII“, ISO‑8859‑Familie (z. B. ISO‑8859‑1 für Westeuropa).
  • 1990er: Microsoft‑Codepages (z. B. Windows‑1252) und der Start von Unicode (Version 1.0 Anfang der 1990er Jahre).
  • 2000er bis heute: Dominanz von Unicode mit UTF‑8 als Standard im Web, breite Unterstützung in Betriebssystemen, Datenbanken und Programmiersprachen.
  • Aktuell: Unicode 16.0 (neueste Fassung) umfasst hunderttausende Codepunkte inklusive Emoji, historischen Schriften und technischen Symbolen. Ältere Normen wie ASCII oder EBCDIC bleiben als Referenz und für Legacy‑Systeme relevant.

Unicode trennt bewusst zwischen Zeichenrepertoire (Codepunkte) und Kodierungsformen (UTF‑8, UTF‑16, UTF‑32). Diese klare Trennung ist der Kern moderner Internationalisierung und Interoperabilität.

Für jede Sprache ein eigener Charset

Jede Sprache besteht aus einem eigenen Zeichensatz und besitzt ihre eigenen diakritischen Zeichen für die Betonung und Darstellungsweise. Aus diesem Grund wurden verschiedene Charsets definiert. So hat der ISO-Standard 8859 sämtliche Charsets für die europäischen Staaten, der arabischen Welt, Hebräisch und sogar Thai definiert.

1991 veröffentlichte das Unicode Consortium eine erste Fassung der Norm ISO 10646, auch als Unicode bekannt, bei der alle Zeichen aller Sprachen in einer Codeform definiert wurden. In EDV-Anlagen muss daher vor der Verarbeitung elektronischer Texte festgelegt werden, mit welchem Charset gearbeitet wird.

Ein schönes Beispiel stellt die Kopfzeile einer HTML-Webseite dar, in der unter mit UTF-8 die am weitesten bekannte 8-Bit Kodierung für Unicodezeichen definiert wird. Ebenso hätte aber auch mit charset=„ISO-8859-1“ der für europäische Staaten geltende Zeichensatz definiert werden können. Auch wenn Charsets eindeutig definiert worden sind, setzt dies jedoch nicht voraus, dass diese auch richtig auf dem Bildschirm dargestellt werden können. Für die richtige grafische Umsetzung muss auch für jeden Charset eine passende Schriftart installiert sein.

Aktuelle Praxis und Hinweise:

  • UTF‑8 als Standard: UTF‑8 ist variabel (1–4 Bytes) und heute für Webseiten, APIs, JSON und viele Dateiformate etabliert.
  • Ende‑zu‑Ende‑Konsistenz: Datei, Editor, Webserver‑Header, Datenbank und Anwendung sollten dieselbe Kodierung nutzen (idealerweise UTF‑8). Mischen führt zu Darstellungsfehlern.
  • HTTP‑Header und Metadaten: Eine deklarierte Kodierung (z. B. im HTTP‑Header oder in der HTML‑Kopfzeile) muss zur tatsächlichen Bytefolge passen.
  • BOM (Byte Order Mark): Kann bei UTF‑8 optional sein, bei UTF‑16/UTF‑32 oft nötig. Ein unerwartetes BOM kann in Skripten oder Protokollen Probleme verursachen.
  • Normalisierung: Zeichen können in Unicode verschieden repräsentiert werden (z. B. „ä“ als fertiges Zeichen oder als „a“ + kombinierender Akzent). Normalisierungsformen (NFC, NFD, NFKC, NFKD) sind wichtig für Suche, Vergleich und Sortierung.
  • Kollation/Sortierung: Sprachenabhängige Sortierregeln (z. B. für Umlaute) erfordern passende Kollationen und Locale‑Einstellungen in Datenbanken und Betriebssystemen.
  • Schriftarten: Auch bei richtiger Kodierung braucht es Fonts, die die gewünschten Codepunkte enthalten (inkl. Emoji und seltener Schriften).
  • Kompatibilität mit Legacy‑Daten: Ältere Bestände in ISO‑8859‑1 oder Windows‑1252 lassen sich verlustfrei nach UTF‑8 konvertieren, wenn die ursprüngliche Kodierung bekannt ist.

Häufige Fragen und Antworten

Was ist ein Charset?

Ein Charset ist eine Art Übersetzungstabelle, die Bitfolgen in Zeichen darstellen kann. Dabei handelt es sich um einen definierten Zeichensatz, der beispielsweise Buchstaben, Zahlen und Sonderzeichen enthält. Mit Hilfe des Charsets können diese Zeichen über die Computertastatur eingegeben werden. Ein Charset ist eng mit der Zeichenkodierung verbunden, bei der die Zuordnung von Zeichen zu bestimmten Zahlenwerten erfolgt.

Zusätzlich wichtig: Ein moderner Zeichensatz wie Unicode definiert den gesamten Zeichenraum über sogenannte Codepunkte. Die tatsächliche Speicherung erfolgt über Kodierungen wie UTF‑8, UTF‑16 oder UTF‑32. Ein Zeichen ist dabei nicht zwingend gleichbedeutend mit einer einzigen Bytefolge, da auch kombinierende Zeichen und Emoji‑Sequenzen existieren.

  • Zeichensatz: Welche Zeichen sind vorhanden?
  • Kodierung: Wie werden sie als Bytes gespeichert?
  • Darstellung: Welche Schriftart zeigt die Zeichen korrekt an?
Wozu dient ein Charset?

Ein Charset dient dazu, Zeichen aus Bitfolgen darzustellen. Es ermöglicht die korrekte Übertragung und Speicherung von Zeichen, indem es eine eindeutige Zuordnung von Zeichen zu bestimmten Zahlenwerten bietet. Ein passendes Charset stellt sicher, dass die Zeichen korrekt angezeigt und verarbeitet werden können. Für jede Sprache gibt es in der Regel einen eigenen Charset, um die spezifischen Zeichen einer Sprache darstellen zu können.

Praxisnutzen:

  • Interoperabilität: Systeme verstehen sich gegenseitig, wenn die gleiche Kodierung genutzt wird (z. B. UTF‑8).
  • Datenqualität: Umlaute, Sonderzeichen und Emoji bleiben beim Speichern, Übertragen und Auswerten erhalten.
  • Internationalisierung: Mehrsprachige Inhalte können in einem einzigen, konsistenten Zeichensatz verwaltet werden.

Best Practice: Eine durchgängige Nutzung von UTF‑8 über alle Ebenen (Datei, Datenbank, API, Anwendung) verhindert typische Darstellungsfehler.

Wie sind Charsets historisch entstanden?

Die Ursprünge der Zeichenkodierung und damit der Charsets liegen bereits in der Antike. Unterschiedliche Zeichensysteme wie Rauchzeichen, Trommelzeichen und Signalflaggen wurden entwickelt, um Botschaften zu übermitteln. Mit der Entwicklung von Telegrafie und Computern wurden Übersetzungstabellen als Charsets geschaffen, um Zeichen aus Bitfolgen darzustellen. Der erste Zeichensatz wurde 1870 von Jean-Maurice-Emile Baudot entwickelt. Später wurden weitere Zeichensätze wie der ASCII-Code und der EBCDIC-Code definiert, die bis heute in der Computertechnik angewendet werden.

Zeitleiste im Überblick:

  • 1870: Baudot‑Code (5‑Bit) für die Telegrafie.
  • 1963: ASCII (7‑Bit) als Basisstandard für Latein.
  • 1964: EBCDIC (8‑Bit) auf IBM‑Mainframes.
  • 1980er: ISO‑8859‑Familie (u. a. ISO‑8859‑1 für Westeuropa).
  • 1990er: Unicode als einheitlicher globaler Zeichensatz; Einführung von UTF‑8/UTF‑16/UTF‑32.
  • Heute: Unicode 16.0 deckt nahezu alle modernen und viele historische Schriftsysteme sowie Symbole und Emoji ab.

Damit wurde der Wechsel von vielen isolierten, teilweise inkompatiblen Codepages hin zu einem universellen Standard vollzogen.

Welche Rolle spielen Charsets für verschiedene Sprachen?

Charsets spielen eine wichtige Rolle für verschiedene Sprachen, da jede Sprache in der Regel einen eigenen Zeichensatz besitzt. Charsets ermöglichen die korrekte Darstellung und Verarbeitung der spezifischen Zeichen einer Sprache. Der ISO-Standard 8859 definiert beispielsweise Charsets für europäische Staaten, die arabische Welt, Hebräisch und weitere. Das Unicode Consortium hat mit dem Unicode-Standard eine Norm geschaffen, bei der alle Zeichen aller Sprachen in einer Codeform definiert sind. Vor der Verarbeitung elektronischer Texte muss festgelegt werden, welcher Charset verwendet wird, um die richtige Zeichendarstellung sicherzustellen.

Sprachspezifische Aspekte:

  • Diakritika und kombinierende Zeichen: Akzente und Sonderzeichen können als eigene Codepunkte oder kombiniert auftreten.
  • Schriftrichtung: Rechts‑nach‑links‑Schriften (z. B. Arabisch, Hebräisch) erfordern bidi‑fähige Darstellung.
  • Kollation: Sortier‑ und Vergleichsregeln unterscheiden sich je nach Sprache.
  • Erweiterungen: Neue Zeichen (inkl. Emoji) kommen mit aktuellen Unicode‑Versionen hinzu; Systeme sollten entsprechend aktualisiert werden.

Für die Praxis hat sich UTF‑8 als universelle Lösung etabliert, da es mehrsprachige Inhalte effizient und konsistent abbildet.

Quelle für Ihr Zitat: Obenstehende Definition darf in kommerziellen und nicht kommerziellen Publikationen (somit auch in Hausarbeiten, Foren, Social Media Seiten) ohne Rückfrage zitiert werden. Kopieren Sie einfach den nachfolgenden Link für Ihr Zitat:

https://www.it-service24.com/lexikon/c/charset/

Bildnachweis: iStock.com/trutenka

Sie können entspannt sein.
Wir retten Ihre Daten.

Sie können entspannt sein. Wir retten Ihre Daten.
100% kostenlose Analyse!

Senden Sie uns jetzt Ihre unverbindliche Anfrage: Sie erhalten eine kostenlose Analyse und ein unverbindliches Angebot zur Datenrettung mit Festpreisgarantie.

Ihre Daten werden gemäß Datenschutzerklärung verarbeitet, um Ihre Anfrage bearbeiten zu können.
Wir helfen Ihnen gerne!

Häufige Fragen
und Antworten

Für weitere Fragen stehen wir Ihnen gerne zur Verfügung: