Universally Unique IdentifierEin Universally Unique Identifier (UUID) ist eine 128-Bit-Zahl, welche zur Identifikation von Informationen in Computersystemen verwendet wird. Der Ausdruck Globally Unique Identifier (GUID) wird ebenfalls benutzt, typischerweise im Zusammenhang mit Microsoft (z. B. Software, Registry). Bei der Generierung nach den Standardmethoden können UUIDs für praktische Zwecke als global eindeutig angenommen werden. Obwohl die Wahrscheinlichkeit, dass ein UUID dupliziert wird, nicht null ist, ist sie so gering, dass die Wahrscheinlichkeit für eine Kollision zumeist vernachlässigbar ist. Ein Vorteil von UUIDs ist die – im Gegensatz zu den meisten anderen Nummerierungsschemata – Unabhängigkeit von einer zentralen Registrierungsstelle oder Koordinierung zwischen den Parteien. Daher kann jeder einen UUID erstellen und ihn zur Identifizierung eines Objekts verwenden und dabei mit größtmöglicher Sicherheit davon ausgehen, dass die Kennung keine andere Kennung dupliziert, die bereits erstellt wurde oder in Zukunft zur Identifizierung eines anderen Objekts erstellt wird. Die Verwendung von UUIDs und GUIDs ist weit verbreitet. Viele Computerplattformen bieten Unterstützung beim Generieren und Parsen ihrer Textdarstellung. Er wurde von der Open Software Foundation (OSF) als Teil des Distributed Computing Environment (DCE) standardisiert und ist jetzt in RFC 4122[1] geregelt. Ein UUID besteht aus einer 16-Byte-Zahl, die hexadezimal notiert und in fünf Gruppen unterteilt wird. In seiner Normalform sieht ein UUID beispielsweise so aus: 550e8400-e29b-11d4-a716-446655440000 Geschichte und StandardisierungUUID sind als Teil des Standards ISO/IEC 11578:1996 “Information technology – Open Systems Interconnection – Remote Procedure Call (RPC)” und als separater Standard ISO/IEC 9834-8:2005 dokumentiert. Die IETF hat das auf UUID basierende RFC 4122[1] veröffentlicht. Das originale (Version 1) Generierungsschema für UUID war, die UUID-Version mit der MAC-Adresse des Computers, der den UUID generiert, und der Anzahl der 100-Nanosekunden-Intervalle seit Beginn des Gregorianischen Kalenders aneinanderzuhängen. In der Praxis ist der eigentliche Algorithmus komplizierter. Dieses Schema wurde kritisiert, weil es sowohl die Identität des generierenden Computers als auch den Zeitpunkt der Generierung preisgibt. Mehrere andere Algorithmen zur Generierung wurden entwickelt und flossen in den Standard ein, so ein Schema, welches nur auf Zufallszahlen basiert (Version 4 UUID), und Schemata, in denen der UUID aus einem beliebigen String (z. B. DNS-Eintrag, URL, ISO OID, „X.500 Distinguished Names“, aber auch jeder beliebigen anderen Semantik, sofern ein Basis-UUID dafür definiert wird) über MD5- (Version 3 UUID) oder SHA-1- (Version 5 UUID) Hashwerte hergeleitet wird. Das Release 5.0 von Java stellt eine Klasse zur Verfügung, die 128 Bit breite UUID generiert. Die API-Dokumentation für die Klasse AufbauRFC 4122[1] beschreibt den Aufbau eines UUID. Die Namen der einzelnen Felder orientieren sich an der ursprünglichen UUID-Version 1 und sind bei den heute vorwiegend verwendeten zufällig generierten UUIDs nur noch von historischem Interesse.
Das zugehörige Bitfelddiagramm sieht wie folgt aus: 0 1 2 3 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | time_low | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | time_mid |version| time_hi | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ |clk_seq_hi_res | clk_seq_low | node (0-1) | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | node (2-5) | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ Die obersten vier Bits im Feld
Darüber hinaus wird die Einführung von weiteren Versionsnummern diskutiert, wie in folgender Tabelle mit Stand im Jahr 2022 dargestellt.[3]
Zeitstempelbasierte UUIDsDer Zeitstempel ist ein 60-Bit-Wert, der die seit dem 15. Oktober 1582 (Einführung des heutigen Gregorianischen Kalenders) vergangenen 100-ns-Intervalle zählt. Um die Zeitstempel eindeutig zu halten, falls die Systemzeit einmal zurückgestellt werden muss, gibt es ein Feld Clock sequence, welches in diesem Fall entweder um 1 erhöht wird oder auf einen neuen (pseudo)zufälligen Wert gesetzt werden soll. Die Node-ID soll die MAC-Adresse einer der im System verbauten Netzwerkkarten sein oder ein pseudozufälliger Wert, falls das System keine MAC-Adresse besitzt.[5] (Pseudo)zufällig generierte UUIDs (Version 4)Hierbei werden sämtliche Bits, die nicht vom UUID-Format auf feste Werte gesetzt werden, durch (pseudo-)zufällige Werte besetzt. Obwohl die Eindeutigkeit für einen so generierten UUID nicht garantiert ist, ist die Gesamtzahl der zufällig generierbaren UUIDs mit 2122 ≈ 5,3169 × 1036 so groß, dass die Wahrscheinlichkeit der Erzeugung zweier gleicher UUIDs sehr klein ist, sofern die verwendeten Zufallszahlenalgorithmen gleichverteilte Zufallszahlen liefern. Daher können UUIDs beliebig ohne zentrales Kontrollorgan erzeugt und zur Kennzeichnung eingesetzt werden, ohne relevante Gefahr zu laufen, dass derselbe UUID für etwas anderes verwendet wird. Mit UUID markierte Informationen können somit später in einer einzigen Datenbank zusammengeführt werden, ohne Bezeichnerkonflikte auflösen zu müssen. Namensbasierte UUIDs (Version 3 und 5)Hierbei wird ausgehend von einem nicht näher bestimmten Namen ein UUID generiert. Namen sind innerhalb eines zugewiesenen Namensraums eindeutige Bezeichner für ein Objekt, eine Ressource oder Ähnliches. Ausgehend von einem UUID für den Namensraum wird aus dem Namen ein UUID generiert, indem eine Bytesequenz aus der Namensraum-UUID und dem Namen selbst gebildet wird und diese Bytesequenz dann mit MD5 oder SHA1 gehasht wird. Der Hash wird dann auf definierte Weise auf die verfügbaren UUID-Bits verteilt. RFC 4122[1] enthält beispielhafte Namensraum-UUIDs für die Namensräume DNS, URL, ISO OID und „X.500 Distinguished Names“. Soll beispielsweise aus dem DNS-Namen
Zeitstempelbasierte UUIDs (Version 6)UUIDv6 zielt darauf ab, die Implementierung der UUID Erstellung zu vereinfachen, indem das Bitlayouts von UUIDv1 wiederverwendet wird, jedoch mit Änderungen in der Bitreihenfolge für den Zeitstempel.
0 1 2 3 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | time_high | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | time_mid | ver | time_low | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ |var| clock_seq | node | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | node | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ Zeitstempel + Zufallszahl basierte UUIDs (Version 7)UUIDs der Version 7 bestehen aus[7]
0 1 2 3 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | unixts | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ |unixts | subsec_a | ver | subsec_b | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ |var| subsec_seq_node | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | subsec_seq_node | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ Durch den Zeitstempel wird eine Sortierung in Datenbanken ermöglicht, während durch die Zufallsbits Kollisionen vermieden werden. Anwendungsspezifische UUIDs (Version 8)Eine UUIDv8 besitzt im Feld Es wird empfohlen, dass eine UUIDv8 aus Das folgende Schema zeigt auf, wie eine UUIDv8 implementiert sein kann: 0 1 2 3 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | timestamp_32 | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | timestamp_48 | ver | time_or_seq | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ |var| seq_or_node | node | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | node | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ Globally Unique IdentifierEin Globally Unique Identifier ist eine Zahl mit 128 Bit (16 Bytes), die in verteilten Computersystemen zum Einsatz kommt. GUID stellt eine Implementierung des Universally-Unique-Identifier-Standards (UUID) dar. GUIDs werden üblicherweise im 8-4-4-4-12 Format XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX dargestellt, wobei jedes X für ein Zeichen aus dem Hexadezimalsystem steht und damit eine Ziffer 0–9 oder ein Buchstabe A–F sein kann, z. B. 936DA01F-9ABD-4D9D-80C7-02AF85C822A8 (32 Buchstaben/Ziffern, mit Bindestrichen 36 Zeichen). Die vier höchstwertigen Bits des dritten Blocks (von links aus gezählt) geben die Version der GUID an, aus der man auf die Art des verwendeten Algorithmus zur Erzeugung der GUID schließen kann. Die bis zu drei höchstwertigen Bits des vierten Blocks identifizieren die verwendete Variante. Im Beispiel ist die Version an der 4 erkennbar und die Variante an der 8 in 936DA01F-9ABD-4D9D-80C7-02AF85C822A8. Dieselbe Variante wie im Beispiel könnte statt durch eine 8 auch durch eine 9, ein A oder B gekennzeichnet sein, da für diese Variante nur die ersten beiden Bit zählen.[1] Eine denkbare Möglichkeit, einen eindeutigen Bezeichner zu erhalten, wäre die Zuteilung durch eine zentrale Registraturstelle. Für Computer-Netzwerkkarten gibt es bereits eine solche zentrale Registraturstelle für die zugrunde liegenden MAC-Adressen. Geht man davon aus, dass ein Computer zu einem Zeitpunkt nur einen Datensatz neu anlegen kann, so lässt sich aus der MAC-Adresse des anlegenden Computers und dem Zeitstempel eine global eindeutige Kennung des Datensatzes ermitteln. GUIDs der Version 1 basieren auf der MAC-Adresse und der aktuellen Uhrzeit des berechnenden Systems. Die Verwendung der MAC-Adresse ist umstritten, da hierdurch sichtbar wird, ob ein bestimmter Host der Urheber einer GUID ist. Dies kann die Privatsphäre der GUID-Erzeuger beeinträchtigen.[8] In der aktuellen Version 4 wird die MAC-Adresse nicht mehr zur Erzeugung von GUIDs herangezogen. Schlüsse auf den Urheber sind somit kaum noch möglich. Der überwiegende Teil einer GUID ist nun eine pseudozufällige Zahl, die jedoch nicht kryptographisch sicher ist. Microsoft verwendet in seinem Component Object Model ebenfalls UUIDs, dort auch GUID genannt. Allerdings entsprechen diese IDs zum Teil einer eigenen Spezifikation. Die hier beschriebenen UUIDs sind an den obersten beiden Bits des Feldes In den Windows-Betriebssystemen von Microsoft werden GUIDs an vielen Stellen verwendet, um beispielsweise Office-Dokumente, COM-Schnittstellen oder Active-X-Steuerelemente eindeutig zu identifizieren. Eine andere Anwendung ist die Identifikation von Datenträgern und Partitionstypen in der GUID Partition Table. SquidsSquids, früher als HashID bezeichnet,[9] ist eine Codierung von Zahlen, welche aus dem Zeichensatz Die UUID Da die Darstellung einer UUID als Squids ebenfalls relativ groß ausfällt, wird in Anwendungen, welche Objekte als UUID referenzieren, zumeist eine Tabelle hinterlegt, welche eine Zuordnung einer eindeutigen Zahl zu einer UUID ermöglicht. Diese Zahl wird als Squid codiert in der URI übermittelt. Die Zuordnungstabelle kann z. B. wie folgt aussehen:
Der Wert KollisionenKollisionen entstehen, wenn derselbe UUID mehr als einmal generiert und verschiedenen Referenzobjekten zugewiesen wird. Bei Version 1 und 2 kann eine Kollision nur entstehen, wenn von der Standardimplementation abgewichen wird, entweder absichtlich oder unabsichtlich. Bei den Hash-basierten Versionen 3 und 5 sowie der pseudo-zufälligen Version 4 können Kollisionen auch ohne Abweichungen in der Implementierung entstehen. Jedoch ist die Wahrscheinlichkeit dafür so gering, dass sie normalerweise ignoriert werden kann. Die Wahrscheinlichkeit hierfür kann analog zum Geburtstagsproblem genau berechnet werden.[10] Zum Beispiel beträgt die Anzahl von Version-4 UUIDs, die berechnet werden müssen, um eine 50 %-Wahrscheinlichkeit von mindestens einer Kollision zu haben, 2,71 Trillionen.: Die kleinste Anzahl von Version-4 UUIDs, die für die Wahrscheinlichkeit, eine Kollision zu finden, erzeugt werden müssen, wird durch diese Formel approximiert:
Daher beträgt die Wahrscheinlichkeit für ein Duplikat eins aus einer Milliarde bei 103 Billionen Version-4 UUIDs. Die Anzahl generierbarer Version-4-UUIDs beträgt 4.294.967.296 * 65.536 * 4.096 * 4 * 4.096 * 281.474.976.710.656 = 5.316.911.983.139.663.491.615.228.241.121.378.304 Stück. Bei 1 mm je UUID ergibt sich eine Distanz von 561.998.040.061.409.650 Lichtjahren oder 3.406.048.727.644 Milchstraßen (~165.000 Lichtjahre) oder 40.730.000 Universum-Durchmessern (~13.800.000.000 Lichtjahre). ImplementierungenBeispiele für Implementierung des UUID-Standards in Betriebssystemen sind:
Zudem gibt es Implementierungen für UUIDs in den Standardbibliotheken der meisten Programmiersprachen. Beispiele:
Weblinks
Einzelnachweise
|