Byte-ReihenfolgeDie Byte-Reihenfolge (englisch byte order oder endianness) bezeichnet in der Informatik die Speicherorganisation für einfache Zahlenwerte, in erster Linie die Ablage ganzzahliger Werte (Integer) im Arbeitsspeicher. Die ersten Rechnerarchitekturen haben die Darstellung mehrstelliger Zahlen aus dem Alltag entsprechend der Konvention des Stellenwertsystems übernommen, zunächst für dezimal, dann auch für binär dargestellte Zahlen. In dieser Konvention beginnt die Notation einer Zahl mit der Ziffer an der höchstwertigen Stelle. Addition, Subtraktion und Multiplikation beginnen aber mit der niedrigstwertigen Ziffer, der Einerstelle. Solange man innerhalb ähnlicher Rechnerarchitekturen blieb, musste man sich nicht um die Endianness kümmern, sie entsprach ja der gewohnten. Da die genannten drei mathematischen Grundfunktionen jedoch einen Maschinenzyklus früher starten können, wenn man die Bitreihenfolge umkehrt, haben in der Folge einige Hersteller ein entsprechendes Architekturprinzip erstellt. Das heißt: die Einerstelle wird an die Anfangsadresse gelegt, und die 3 genannten Algorithmen schreiten nach rechts in die höheren Stellen und Adressen fort. Diese Abweichung vom Gewohnten machte die Begriffsbildung Endianness erforderlich:
Im Sprachgebrauch werden die beiden Varianten in der Computertechnik oft auch nach den Herstellern von Mikroprozessoren benannt, die die jeweilige Variante in mehreren Prozessorfamilien verwenden bzw. verwendet haben: „Motorola-Format“ steht für big-endian, „Intel-Format“ für little-endian. Werden Daten bitweise seriell übertragen, so ist zusätzlich die Bit-Reihenfolge festzulegen. Auch hier sind unterschiedliche Varianten anzutreffen:
VereinbarungenFolgende Aussagen, über die in der Literatur hochgradiger Konsens besteht, seien als Ausgangsbasis für die Diskussion und Definition der Sachverhalte explizit gemacht:
Steigt bei einer im Speicher abgelegten Zahl die Wertigkeit einer Stelle mit der wachsenden Adresse, dann ist sie im Little-Endian-Format dargestellt. Fällt bei einer im Speicher abgelegten Zahl die Wertigkeit einer Stelle mit der wachsenden Adresse, dann ist sie im Big-Endian-Format dargestellt. Wird bei einem Computersystem eines dieser beiden Formate für die Speicherung numerischer[4] Felder durchgehalten, so wird das erste als Little-Endian-, das zweite als Big-Endian-System bezeichnet. Beispiel: Speicherung einer 32-Bit-Ganzzahl in 4 Bytes
Das Beispiel in der Grafik stellt die Ganzzahl 168.496.141 als 32-Bit-Integer-Wert dar (hexadezimal:
Einige ältere Systeme (z. B. PDP-11) speichern die Bytes auch in der Reihenfolge Einige Systeme speichern sowohl big-endian als auch little-endian, was als bi-endian bezeichnet wird. Reihenfolge der Ziffern innerhalb von Zahlen in der SpracheAuch die gewöhnliche Darstellung von (Dezimal-)Zahlen ist – im Sinne der Leserichtung der meisten europäischen Sprachen von links nach rechts – big-endian. Dies kommt dadurch zustande, dass die Ziffernreihenfolge der indisch-arabischen Zahlen bei den Schriften Mitteleuropas beibehalten wurde. Im Arabischen, das sich von rechts nach links liest, werden die Zahlen gleich geschrieben, d. h. für Zahlen unter 100 werden sie als „little-endian“ gelesen (für Zahlen ab 100 werden sie „big-endian“ gelesen). Auch im Deutschen werden die Zahlen von 13 bis 99 little-endian ausgesprochen: „Ein-und-Zwanzig“; die Eins als weniger wertige Stelle wird zuerst gesprochen (diese Reihenfolge gibt es auch in anderen Sprachen). Ein Beispiel für Dezimalzahlen: In der gebräuchlichsten Darstellung (big-endian) wird die Dezimalzahl Eintausend-zweihundert-dreißig dargestellt als „1230“, wobei die „1“ die Wertigkeit 1000 hat, die „2“ die Wertigkeit 100 und die „3“ die Wertigkeit 10. In der „Little-Endian“-Darstellung ist es umgekehrt, so dass die Darstellung der Zahl „0321“ wäre (ausgesprochen vielleicht „Dreißig-Zweihundert-Eintausend“). Kontexte des Byte-Reihenfolge-ProblemsDas Problem der Byte-Reihenfolge betrifft solche Datentypen, die aus mehreren Byte zusammengesetzt sind und vom jeweiligen Prozessor direkt unterstützt werden, also hauptsächlich Ganzzahl- und Gleitkommatypen, sowie Datentypen, die vom Prozessor effektiv als solche interne Datentypen behandelt werden, z. B. UTF-16. Um dieses Problem bei Unicode-Zeichen zu umgehen, wird oft eine Bytereihenfolge-Markierung (BOM) benutzt. Die Zeichenfolge "Die" (drei Zeichen, 6 Byte) mit BOM (ein Zeichen, 2 Byte) als UTF-16-Kodierung, in der Byte-Darstellung von Hex-Editoren (8 Byte) stellt sich für die beiden unterschiedliche Byte-Reihenfolgen etwa so dar: Big Endian: FE FF 00 44 00 69 00 65 | þÿ␣D␣i␣e Little Endian: FF FE 44 00 69 00 65 00 | ÿþD␣i␣e␣ Plattformübergreifende Darstellung von ZahlenUm einen fehlerfreien Datenaustausch zwischen Computern verschiedener Plattformen zu ermöglichen, ist bei Netzwerkprotokollen immer die Byte-Reihenfolge festgeschrieben. Diese wird als „Network Byte Order“ bezeichnet. Die natürliche Byte-Reihenfolge des Systems wird demgegenüber als „Host Byte Order“ bezeichnet. Arbeitet das System nicht mit dieser Byte-Reihenfolge, so muss diese im Netzwerktreiber beziehungsweise zum Teil im Anwendungsprogramm entsprechend umgewandelt werden. Im Falle des heute vornehmlich verbreiteten Internetprotokoll-Satzes entspricht die Network Byte Order dem Big-Endian-Format. Es existieren jedoch noch immer Protokolle, die eine andere Byte-Reihenfolge verwenden. Darüber hinaus gibt es Datentypen, die nicht oder nicht nur durch die Endianness charakterisiert sind, wie z. B. Gleitkommazahlen, bei deren Umwandlung auch Genauigkeitsverluste möglich sind. In der auf den meisten Betriebssystemen angebotenen BSD-IP-Socket-API existieren zur Umwandlung der Byte-Reihenfolge sechs Funktionen:
Die korrekte Umwandlung ist garantiert für vorzeichenlose Ganzzahlen. Negative Ganzzahlen werden korrekt umgewandelt, wenn sie im Zweierkomplement dargestellt sind und die Bitbreite übereinstimmt. Auf Big-Endian-Maschinen sind diese Funktionen trivial, da Host- und Network-Byteorder identisch sind. Für Programmierer von Netzwerkanwendungen empfiehlt sich die Verwendung dieser Funktionen, da sich der Quellcode dadurch auch auf andere Systeme übertragen lässt. Die Auswahl der zur laufenden Hardware passenden Implementierung geschieht normalerweise implizit durch das Betriebssystem – im Notfall auch durch den Benutzer beim Download. Der Endianness-Typ einer Maschine lässt sich programmtechnisch wie folgt feststellen: union {
uint16_t sixteenBits;
uint8_t twoBytes[2];
} test_endianness;
test_endianness.sixteenBits = 1 << 15; // 0x8000, 32768
if (test_endianness.twoBytes[0] != 0) {
// Das Programm läuft auf einer Big-Endian-Maschine.
}
else {
// Das Programm läuft auf einer Little-Endian-Maschine.
}
In der Byte-Order-Probleme können auch beim Austausch von Dateien sowie zum Teil beim Austausch von Datenträgern zwischen verschiedenen Plattformen auftreten. Hier muss entweder durch eindeutige Definition des entsprechenden Dateiformats beziehungsweise Dateisystems oder durch einen Kompatibilitätsmodus, der während des Ladens eine Erkennung und eventuelle Umwandlung durchführt, Abhilfe geschaffen werden. Die Problematik der Darstellung von Daten auf unterschiedlichen Systemen und ihres Austauschs wird ganz allgemein adressiert von der Darstellungsschicht des OSI-Modells. „Nuxi“Scherzhaft wird das Problem verschiedener Endianness unterschiedlicher Architekturen auch oft als NUXI-Problem bezeichnet: Wenn das Wort UNIX in zwei Zwei-Byte-Words (zwei 16-Bit-Register für „UN“ und „IX“) gespeichert wird, liegt es in einem Big-Endian-System als „UNIX“ im Speicher, in einem Little-Endian-System dagegen wegen der Vertauschung der Bytes in jedem Wort als „NUXI“ (auf 32-Bit-Systemen stünde dagegen „XINU“ in einem einzelnen 32-Bit-Register). Wichtige EigenschaftenBei den ersten Mikroprozessoren waren dies nur 4 Bit (später dann lange Zeit 8 Bit). Der Adressbus ist aber bei diesen CPUs wesentlich breiter. Damit ergab sich die Notwendigkeit, Daten mit einem Befehl zu laden oder zu speichern, welche auf mindestens zwei gekoppelte Register verteilt waren. Um die Komplexität der CPU zu verringern (jede einzelne Transistorfunktion war noch teuer) war es einfacher, bei jeder Operation automatisch das niederwertige „Datenhäppchen“ zu laden, während dieser Speicheroperation konnte dann der Befehl weiter dekodiert und gegebenenfalls die weiteren Daten im nächsten Zyklus bearbeitet werden. Bei Großrechnern („main frames“) bestand dieses Problem weniger, da sie damals schon mit Datenbus-Breiten von 16 bis 48 Bit arbeiteten, diese also in einem einzigen Speicherzyklus laden konnten und somit die (Byte)-Reihenfolge keine Rolle spielte. Big-Endian-Format
Little-Endian-Format
Beispiel für eine dezimale Little-Endian-Addition: 717 + 0452 ---- 7523 ==== (Probe: Beispiel: Interpretation eines HexdumpsDer Zweck eines Dumps ist die eindeutige Darstellung des Speicherinhalts bspw. zur Fehleranalyse. Bei Maschinen, deren Speicherstelle (Byte) aus 8 Bits besteht, wird hierfür die Darstellung im Hexadezimalsystem gewählt, bei dem die 28 = 256 = 162 verschiedenen Inhalte eines Bytes in 2 Hexadezimalziffern ausgedrückt werden. Dieser Codierung, die sowohl Binärwerte wie Maschineninstruktionen wie Dezimalwerte im BCD-Code unmittelbar abdeckt, wird üblicherweise eine Spalte beigegeben, die jedes einzelne Byte sofern möglich als alphabetisches Zeichen darstellt, so dass eventuell im Speicher vorhandene Texte leichter erkannt und lesbar werden. Das folgende Beispiel zeigt, wie zwei aufeinander folgende Bytes (4 Halbbytes) in einem Hexdump mit dem lesbaren hexadezimalen Inhalt
Besteht das Feld nur aus einem einzelnen Byte (8-Bit-Binärzahl mit oder ohne Vorzeichen) oder einer Ansammlung davon (bspw. Text im Code ISO 8859) – in der Tabelle die Spalten „2 vorzeichenlose 8-Bit Binärzahlen“ –, dann unterscheidet sich die Interpretation bei den beiden Formaten big- oder little-endian nicht. Zwar ist zwischen den beiden Formaten die interne Reihenfolge der Bits pro Byte genauso gespiegelt wie die der Bytes pro Integer (s. Bitwertigkeit#Adressierung von Bits). Durch die Maßgaben der Hexadezimaldarstellung ist der Hexdump aber Byte für Byte vollkommen festgelegt, so dass sich big- oder little-endian nicht unterscheiden. Besteht das Feld aus mehr als einem Byte, kommt bei little-endian die sogenannte „Intel-Konvention“[9] zum Zuge. Diese besagt, dass – anders als bei big-endian – das niederwertige Byte auf der niederen Speicheradresse abgelegt wird und die höherwertigen Bytes auf den nachfolgenden Speicheradressen. Im Ergebnis sind bspw. bei ganzzahligen Feldern der Länge 16, 32 oder 64 Bits die beiden Hexdump-Darstellungen byteweise Spiegelungen voneinander. Zur Verdeutlichung ist in der Tabelle bei den Spalten „1 vorzeichenlose 16-Bit Binärzahl“ der Inhalt des ersten der 2 Bytes mit einem Überstrich versehen. Verwendung und Hardware-BeispieleBig-endianDas Format big-endian wurde z. B. eingesetzt bei der Motorola-6800- sowie der Motorola-68000- bzw. -Coldfire-Familie, den Prozessoren der System-z- und Sun-SPARC-CPUs und dem Power (bis Power7) und PowerPC. Big-endian wird verwendet von Mainframe-Systemen (z. B. IBM-Mainframe) sowie MIPS-, SPARC-, Power-, PowerPC-, Motorola 6800/68k-, Atmel-AVR32-[10] und TMS9900-Prozessoren. Auch Alpha-Prozessoren lassen sich in diesem Modus betreiben, dies ist jedoch unüblich. Mit dem IBM POWER8 wurde die Power-Architektur (PAPR) auf little-endian umgestellt, jedoch kann der POWER8 ebenfalls noch im Big-Endian-Modus betrieben werden.[11] PowerPC kann bei einigen Modellen auch auf little-endian umgeschaltet werden sowie POWER8 vom Little- in den Big-Endian-Modus umgestellt werden – IBM forciert jedoch seit dem POWER8 den Little-Endian-Modus. Little-endianDas Little-Endian-Format wurde ursprünglich beim Prozessor 6502, der NEC-V800-Reihe, PICmicro oder den Intel-x86-Prozessoren verwendet. Auch heutige PC-Systeme (x86-kompatible) verwenden little-endian. Weitere sind Alpha, Altera Nios, Atmel AVR, IBM Power ab POWER8, manche SH3/SH4-Systeme oder VAX. Dies sind True-Little-Endian-Systeme. Auch die Arm-Architektur verwendet standardmäßig Little-Endian. Arm-CPUs werden in Mikrokontrollern (beispielsweise RP2040), Single-Board-Computern (Raspberry Pi) und den allermeisten Mobiltelefonen eingesetzt. Die Smartphone-Betriebssysteme Android und IOS[12] verwenden die Arm-Architektur und verwalten den Speicher im Little-Endian-Modus. Im Gegensatz dazu stehen Architekturen, wie manche PowerPC-Varianten (u. a. 603, 740, 750), die nur als Little-Endian-Systeme konfiguriert werden können (s. u. bi-endian) und aus der Sicht des laufenden Programms dann little-endian verwenden, Werte im Speicher jedoch weiterhin im big-endian-Format ablegen. Bei Lade- und Speicheroperationen wird die Darstellung implizit umgewandelt. Bei der Softwareerstellung für diese Systeme muss dies gegebenenfalls berücksichtigt werden, z. B. bei der Treiber-Programmierung. Mischvarianten (bi-endian)Einige Prozessoren, z. B. bestimmte MIPS-Varianten und POWER/PowerPC (PAPR) sowie alle Alpha-Prozessoren, lassen sich zwischen little-endian und big-endian umschalten. Auch Arm-Prozessoren (inkl. des Intel XScales) können bei Datenzugriffen sowohl in little- als auch in big-endian betrieben werden; auf Code wird bei ARM-Prozessoren allerdings immer im Little-Endian-Format zugegriffen. Die von Hewlett-Packard und Intel gemeinsam entwickelte Itanium-Architektur „IA-64“ beherrscht ebenfalls beide Byte-Reihenfolgen, was zur Erleichterung der Portierung von Betriebssystemen hatte dienen sollen (insbesondere zwischen HP-UX (big-endian) und Windows (little-endian)). DateiformateDie typische Verwendung einer Byte-Reihenfolge in einer Prozessorarchitektur zur Ablage von Werten im Arbeitsspeicher hat Einfluss auf die Byte-Reihenfolge von Werten im Sekundärspeicher (oft Festplatten). Bei der Neuerstellung von Dateiformaten wurde die Byte-Reihenfolge der Zahlenwerte so gelegt, dass sie beim Speichern und Zurückladen vom Sekundärspeicher ohne Wandlung auskommen. Mittels Speichervirtualisierung können Daten auf dem Sekundärspeicher sogar direkt vom Programm angesprochen werden. Bedeutsam ist dies für Containerformate mit einer allgemeinen Strukturdefinition. So wurde das Interchange File Format (IFF) für Amiga-Programme entworfen, und entsprechend diesem Motorola-68000-Prozessor wurden die Vier-Byte-Chunk-Längen im Motorola-Format big-endian abgelegt. Auf dem ebenfalls mit Motorola-Prozessoren arbeitenden Macintosh-Rechnern wurde dieses u. a. für das Audioformat AIFF übernommen. Bei der Übernahme auf die Windows-Plattform mit Intel-Prozessoren wurden die Chunk-Längen umdefiniert auf das Vier-Byte Intel-Format little-endian und das neue allgemeine Containerformat als Resource Interchange File Format (RIFF) bezeichnet. Dieses RIFF-Dateiformat ist die Grundlage verbreiteter Dateiformate wie RIFF WAVE (*.wav-Dateien) für Audio und Audio Video Interleave (*.avi-Dateien) für Video. Auch bei Dateiformaten ist es möglich, eine Definition zu entwickeln, die beide Byte-Reihenfolgen der Prozessorarchitekturen zulässt. So steht z. B. bei TIFF-Dateien (Tagged Image File Format) in den ersten zwei Bytes der Datei:
Nachfolgende Längen- und Offset-Werte in der Datei werden dann entsprechend kodiert. EtymologieDie Bezeichnungen gehen auf den satirischen Roman Gullivers Reisen von Jonathan Swift zurück, in dem die Bewohner des Landes Liliput in zwei verfeindeten Gruppen leben: Die einen schlagen ihre Frühstücks-Eier am dicken, „großen“, englisch „big“, Ende auf und werden deshalb als Big Ender bezeichnet, während die Little Ender die Eier am spitzen, „kleinen“, englisch „little“ Ende öffnen. Swift spielte damit auf die Abspaltung der englischen Kirche (Spitz-Ender) von der katholischen Kirche (Dick-Ender) an – in Zusammenhang mit der Byte-Reihenfolge wurde dies erstmals 1980 von Danny Cohen in dem Aprilscherz-Paper On Holy Wars and a Plea for Peace gebracht.[13] Weblinks
Einzelnachweise und Anmerkungen
|
Portal di Ensiklopedia Dunia