Hamming-Ähnlichkeit

Die Hamming-Ähnlichkeit (nach Richard Hamming) ist ein rudimentäres Ähnlichkeitsmaß, das beim maschinellen fallbasierten Schließen eingesetzt wird. Es wird verwendet, um den Grad der Ähnlichkeit zweier Fälle (z. B. Krankheitsbilder, Rechtsfälle, Geschäftsmanagement) zu ermitteln. Ist die Ähnlichkeit zwischen zwei Fällen groß, so kann man unter Umständen die Lösung des einen Falles auch im anderen Fall anwenden. Man kann daher zu einem gegebenen Fall mittels der Hamming-Ähnlichkeit in einer Fallbasis nach einem möglichst ähnlichen Fall suchen.

Die Hamming-Ähnlichkeit basiert auf der Hamming-Distanz. Man kann sich dabei vorstellen, dass die einzelnen Bits, die bei der Ermittlung der Hamming-Distanz verglichen werden, Merkmale eines Falles darstellen, die jeweils die Ausprägung 0 oder 1 oder eine andere zweiwertige Ausprägung annehmen können. Setzt man die Hamming-Distanz ins Verhältnis zur Anzahl der Merkmale, so erhält man die Hamming-Ähnlichkeit, die ein grobes Maß für die Ähnlichkeit der beiden betrachteten Fälle (in den betrachteten Merkmalen) darstellt. Formal schreibt man für zwei Fälle x und y mit n Merkmalen:

Eine Variante der Hamming-Ähnlichkeit arbeitet mit Gewichtung der einzelnen Merkmale. Dies berücksichtigt, dass einige Merkmale wichtiger als andere sein können. Statt wie oben die Hamming-Distanz ins Verhältnis zur Anzahl der Merkmale zu setzen, summiert man dabei einzelne Gewichte für jedes Merkmal. Man spricht von gewichteter Hamming-Ähnlichkeit:

Wie man sehen kann, ist die Hamming-Ähnlichkeit nur dann als Ähnlichkeitsmaß verwendbar, wenn die Merkmale jeweils nur zwei verschiedene Werte annehmen können. Das Verfahren lässt sich jedoch verallgemeinern und dann auch für beliebige Merkmalswerte anwenden.

Literatur

  • Christoph Beierle, Gabriele Kern-Isberner: Methoden wissensbasierter Systeme. Grundlagen – Algorithmen – Anwendungen, 5. Auflage, Springer Fachmedien, Wiesbaden 2014, ISBN 978-3-8348-1896-6.
  • Martin Werner: Information und Codierung. Grundlagen und Anwendungen, 2. Auflage, Vieweg + Teubner Verlag, Wiesbaden 2008, ISBN 978-3-8348-0232-3.