Data Warehouse

Ein Data Warehouse (kurz DWH oder DW; wörtlich „Datenlager“, im Deutschen dominiert die englische Schreibweise, die Schreibweise Datawarehouse wird jedoch auch verwendet) ist eine für Analysezwecke optimierte zentrale Datenbank, die Daten aus mehreren, in der Regel heterogenen Quellen zusammenführt. Der Begriff stammt aus dem Informationsmanagement in der Wirtschaftsinformatik. Vollständige Daten zum Beispiel eines Unternehmens oder eines größeren Projekts, die in der Regel als Rohdaten vorliegen und nicht bereits nach bestimmten Vorgaben verarbeitet oder ausgewählt wurden, werden hingegen in Data Lakes vorgehalten.

Begriff

Mitte der 1980er-Jahre wurde bei IBM der Begriff information warehouse geschaffen. Der Terminus data warehouse wurde erstmals 1988 von Barry Devlin verwendet.[1]

Es gibt derzeit keine einheitliche Definition für den Begriff „Data Warehouse“. Weitgehend gilt jedoch:

  • Ein Data Warehouse ermöglicht eine globale Sicht auf heterogene und verteilte Datenbestände, indem die für die globale Sicht relevanten Daten aus den Datenquellen zu einem gemeinsamen konsistenten Datenbestand zusammengeführt werden. Dies ermöglicht einen komfortablen Datenzugriff.[2]
  • Der Inhalt eines Data Warehouse entsteht durch Kopieren und Aufbereiten von Daten aus unterschiedlichen Quellen.
  • Meist ist ein Data Warehouse die Basis für die Aggregation von betrieblichen Kennzahlen und darauf aufbauende Analysen, das sogenannte Online Analytical Processing (OLAP).
  • Ein Data Warehouse ist häufig Ausgangsbasis für Data Mining.
  • Oft arbeiten die Anwendungen mit anwendungsspezifisch erstellten Auszügen aus dem Data Warehouse, den sogenannten Data Marts.

Unterschiede bei den Definitionen finden sich vor allem im generellen Zweck eines Data Warehouses sowie im Umfang und Umgang mit den Daten im Data Warehouse.

  • Das Spektrum der Definitionen beginnt mit der restriktiven Sicht von Bill Inmon:
    „Ein Data Warehouse ist eine themenorientierte, integrierte, chronologisierte und persistente Sammlung von Daten, um das Management bei seinen Entscheidungsprozessen zu unterstützen.“
    Im Original: „A data warehouse is a subject-oriented, integrated, time-variant, nonvolatile collection of data in support of management’s decision-making process.“[3]
    Die Definition nach Inmon kann wie folgt interpretiert werden:
    • subject-oriented (Themenorientierung): Die Auswahl der in das Data Warehouse zu übernehmenden Daten geschieht nach bestimmten Datenobjekten (Produkt, Kunde, Firma, …), die für die Analysen von Kennzahlen für Entscheidungsprozesse relevant sind, nicht hingegen nach operativen Prozessen
    • integrated (Vereinheitlichung): Die in verschiedenen (operativen) Quellsystemen unterschiedlich strukturierten Daten werden im Data Warehouse in einheitlicher Form gespeichert.
    • time-variant (Zeitorientierung): Analysen über zeitliche Veränderungen und Entwicklungen sollen im Data Warehouse ermöglicht werden; daher ist die langfristige Speicherung der Daten im Data Warehouse nötig (Einführung der Dimension „Zeit“).
    • nonvolatile (Beständigkeit): Daten werden dauerhaft (nicht-flüchtig) gespeichert.
  • Die folgende Definitionen von Bauer und Günzel[4] wie auch die von Kimball[5] sind weniger restriktiv, sind aber auf einen speziellen Zweck, die Analysefunktion, ausgerichtet:
    „Ein Data Warehouse ist eine physische Datenbank, die eine integrierte Sicht auf (beliebige) Daten darstellt, um Analysen zu ermöglichen.“[4]
    „A data warehouse is a copy of transaction data specifically structured for querying and reporting.“[5]
  • Das Spektrum der Definitionen endet bei der Definition von Zeh, die ohne Restriktionen an Umfang und Umgang der Daten sowie ohne Zweckbestimmung ist:
    „Ein Data Warehouse ist ein physischer Datenbestand, der eine integrierte Sicht auf die zugrundeliegenden Datenquellen ermöglicht.“[6]

Die Einschränkung „physisch“ ist notwendig, um das Data Warehouse von dem „logischen“ föderierten Datenbanksystem abzugrenzen.

Betrieb (Data Warehousing)

Der Erstellung eines Data Warehouses liegen zwei Leitgedanken zugrunde:

  1. Integration von Daten aus verteilten und unterschiedlich strukturierten Datenbeständen, um im Data Warehouse eine globale Sicht auf die Quelldaten und damit übergreifende Auswertungen zu ermöglichen.
  2. Separation der Daten, die für das operative Geschäft genutzt werden, von solchen Daten, die im Data Warehouse etwa für Aufgaben des Berichtswesens, der Entscheidungsunterstützung, der Geschäftsanalyse sowie des Controllings und der Unternehmensführung verwendet werden.

Der Gesamtprozess der Datenbeschaffung, Verwaltung und Auswertung eines Data Warehouses wird auch als Data Warehousing bezeichnet. Zum Data Warehousing gehören:

  • Datenbeschaffung, Datenintegration (Staging) und Weiterverarbeitung im ETL-Prozess
  • Datenhaltung, das heißt die langfristige Speicherung der Daten im Data Warehouse (siehe auch Langzeitarchivierung)
  • Datenauswertung und -analyse
  • Versorgung und Datenhaltung der für die Analyse notwendigen separaten Datenbestände, den Data Marts.

In den Data Marts werden die Daten häufig als mehrdimensionale Matrizen im sogenannten Sternschema oder in verwandten Datenschemata wie Schneeflocken- und Galaxy-Schema abgelegt.

In den letzten Jahren hat sich mehr und mehr die Abkehr von der turnusmäßigen Beladung hin zur Echtzeitbeladung des Data Warehouse vollzogen (real-time data warehousing). Manche Branchen wie die Telekommunikationsindustrie und der Einzelhandel hatten Bedarf nach sofort verfügbaren Daten unter Wahrung der Trennung von operativen und auswertenden Systemen. Real-Time-Data-Warehousing ermöglicht zudem das unmittelbare Zurückspielen der Ergebnisse in die operativen Systeme. Damit beeinflussen Analyseergebnisse von Daten des Data Warehouse wiederum die das Data Warehouse speisenden operativen Systeme (closed loop).

Anwendungen

Ausschnitt aus dem Data-Warehouse-System
  • Integration von Daten aus unterschiedlich strukturierten und verteilten Datenbeständen, um eine globale Sicht auf die Quelldaten und damit übergreifende Auswertungen zu ermöglichen
  • Ermittlung verborgener Zusammenhänge zwischen Daten durch Data Mining
  • Schnelle und flexible Verfügbarkeit von Berichten, Statistiken und Kennzahlen, um etwa Zusammenhänge zwischen Markt und Leistungsangebot erkennen zu können
  • Umfassende Information über Geschäftsobjekte und Zusammenhänge
  • Transparenz im Zeitablauf zu Geschäftsprozessen, Kosten und Ressourceneinsatz
  • Informationsbereitstellung, zum Beispiel für die Erstellung von Produktkatalogen.

Risiken

Die 59. Konferenz der Datenschutzbeauftragten des Bundes und der Länder vom 14./15. März 2000 weist in ihrer Entschließung zum Thema Data Warehouse, Data-Mining und Datenschutz auf das rechtliche Risiko hin, das mit diesen Verfahren verbunden ist.

Insbesondere ist das Grundrecht auf informationelle Selbstbestimmung und für den Schutz der Privatheit in Gefahr.

Grund ist die Möglichkeit der genannten Verfahren, personenbezogene Daten über ihre Zweckbindung hinaus zu speichern und zu nutzen, was unter bestimmten Umständen rechtswidrig ist. Als Empfehlung gilt, auf Techniken zu setzen, die eine anonymisierte oder pseudonymisierte Form der ursprünglich personenbezogenen Form der Daten verwenden.

Literatur

  • Jan Holthuis: Der Aufbau von Warehouse-Systemen, Konzept, Datenmodellierung, Vorgehen. Deutscher-Universitäts-Verlag, ISBN 3-8244-6959-6.
  • Ralph Hughes: Agile Data Warehousing for the Enterprise. Morgan Kaufmann, Waltham, Massachusetts 2015, ISBN 978-0-12-396518-9.
  • Hans Hultgren: Modeling the Agile Data Warehouse with Data Vault. Brighton Hamilton, Denver u. a. 2012, ISBN 978-0-615-72308-2.
  • William H. Inmon, Richard D. Hackathorn: Using the Data Warehouse. John Wiley & Sons, ISBN 0-471-05966-8.
  • Reinhard Jung, Robert Winter: Data Warehousing Strategie. Springer, ISBN 3-540-67308-3.
  • H.-G. Kemper, W. Mehanna, C. Unger: Business Intelligence. Grundlagen und praktische Anwendung. Vieweg, ISBN 3-528-05802-1.
  • Ralph Kimball, Margy Ross: The Data Warehouse Toolkit. The Definitive Guide to Dimensional Modeling. 3. Auflage. Wiley, New York 2013, ISBN 978-1-118-53080-1.
  • Wolfgang Lehner: Datenbanktechnologie für Data-Warehouse-Systeme. Konzepte und Methoden. dpunkt, ISBN 3-89864-177-5.
  • Daniel Linstedt, Michael Olschimke: Building a Scalable Data Warehouse with Data Vault 2.0. Morgan Kaufmann, Waltham, Massachusetts 2016, ISBN 978-0-12-802510-9.
  • Dani Schnider, Claus Jordan u. a.: Data Warehouse Blueprints. Business Intelligence in der Praxis. Hanser, München 2016, ISBN 978-3-446-45075-2.
  • Reinhard Schütte: Data Warehouse Managementhandbuch. Konzepte, Software, Erfahrungen. Springer, ISBN 3-540-67561-2.
  • J.-H. Wieken: Der Weg zum Data Warehouse. Addison-Wesley, ISBN 978-3-8273-1560-1.

Einzelnachweise

  1. Barry Devlin: Data Warehouse. From Architecture to Implementation. Addison-Wesley, ISBN 0-201-96425-2.
  2. P. Mertens et al.: Grundzüge der Wirtschaftsinformatik. 5. Auflage. Springer Verlag, Berlin 1998, S. 72.
  3. William H. Inmon: Building the Data Warehouse. John Wiley & Sons, 1996, ISBN 978-0-471-14161-7, Seite 33
  4. a b Andreas Bauer, Holger Günzel: Data-Warehouse-Systeme: Architektur, Entwicklung, Anwendung. dpunkt, 2013, ISBN 3-89864-785-4
  5. a b Ralph Kimball, Mary Ross: The Data Warehouse Toolkit. The Complete Guide to Dimensional Modeling. Wiley, ISBN 0-471-20024-7
  6. Thomas Zeh: Data Warehousing als Organisationskonzept des Datenmanagements. Eine kritische Betrachtung der Data-Warehouse-Definition von Inmon. In: Informatik – Forschung und Entwicklung. 18, Nr. 1, 2003 (PDF).

Read other articles:

Хип-хоп Направление популярная музыка Истоки фанкдискоэлектронная музыкадабритм-энд-блюзреггидэнсхоллджаз[1]чтение нараспев[англ.]исполнение поэзииустная поэзияозначиваниедюжины[англ.]гриотыскэтразговорный блюз Время и место возникновения Начало 1970-х, Бронкс, Нь…

Vous lisez un « bon article » labellisé en 2009. Pour les articles homonymes, voir Continent (homonymie). Carte animée montrant les différents systèmes de continents. Le mot continent vient du latin continere pour « tenir ensemble », ou continens terra, les « terres continues ». Au sens propre, ce terme désigne une vaste étendue émergée continue du sol à la surface du globe terrestre. Cependant, en géographie, la définition est souvent amendée selo…

برايان كابيلكا (بالإنجليزية: Brian Kobilka)‏    معلومات شخصية الميلاد 30 مايو 1955 (69 سنة)[1]  ليتل فولز  مواطنة الولايات المتحدة  الديانة كاثوليكية[2]  عضو في الأكاديمية الوطنية للعلوم،  والأكاديمية الأمريكية للفنون والعلوم  الحياة العملية المدرسة الأم جام…

Artikel ini sebatang kara, artinya tidak ada artikel lain yang memiliki pranala balik ke halaman ini.Bantulah menambah pranala ke artikel ini dari artikel yang berhubungan atau coba peralatan pencari pranala.Tag ini diberikan pada November 2022. The Dancing Boys of AfghanistanSutradaraNajibullah QuraishiProduserJamie DoranDitulis olehNajibullah QuraishiSinematograferMike Healy iTanggal rilis 29 Maret 2010 (2010-03-29) Durasi52 menitNegaraAfganistanBahasaBahasa Inggris The Dancing Boys of Af…

2010年冬季奥林匹克运动会挪威代表團挪威国旗IOC編碼NORNOC挪威奧林匹克暨殘障奧林匹克委員會和體育同盟網站www.idrettsforbundet.no(挪威文)2010年冬季奥林匹克运动会(溫哥華)2010年2月12日至2月28日運動員99參賽項目11个大项獎牌榜排名第4 金牌 銀牌 銅牌 總計 9 8 6 23 历届奥林匹克运动会参赛记录(总结)夏季奥林匹克运动会19001904190819121920192419281932193619481952195619601964196819721976198…

2007 Pacific hurricane seasonSeason summary mapSeasonal boundariesFirst system formedMay 27, 2007Last system dissipatedOctober 23, 2007Strongest stormNameFlossie • Maximum winds140 mph (220 km/h)(1-minute sustained) • Lowest pressure949 mbar (hPa; 28.02 inHg) Seasonal statisticsTotal depressions15Total storms11Hurricanes4Major hurricanes(Cat. 3+)1Total fatalities42 totalTotal damage$80 million (2007 USD)Related articles 2007 Atlantic hurricane season 2007 Pacifi…

American physician (1772–1853) This article is about the American physician. For other uses, see Charles Caldwell. Charles CaldwellCharles Caldwell, from his 1855 autobiographyBorn(1772-05-14)May 14, 1772Caswell County, North Carolina, U.S.DiedJuly 9, 1853(1853-07-09) (aged 81)Louisville, Kentucky, U.S.Resting placeCave Hill CemeteryLouisville, Kentucky, U.S.Alma materUniversity of Pennsylvania School of Medicine (M.D.)OccupationsPhysicianacademicSignature Charles Caldwell (May 14, 1…

Playa El Tarajal is a beach of Ceuta, bordering northern Morocco. The beach is about 250 metres in length with an average width of about 15 metres.[1] The beach is at the southern tip of Ceuta where the N13 coastal road leaves for Morocco. References ^ Playa El Tarajal. El Tiempo (in Spanish). Retrieved 16 February 2013. 35°52′18.43″N 5°20′36.43″W / 35.8717861°N 5.3434528°W / 35.8717861; -5.3434528 vteCeutaArchitecture Anyera Arab Baths Bienes de inter…

Siti Hutami Endang AdiningsihLahir23 Agustus 1964 (umur 59)Jakarta, IndonesiaKebangsaanIndonesiaNama lainMamiek SoehartoPekerjaanPengusahaPartai politikPartai Berkarya (sejak 2018)Suami/istriPratikno Singgih (cerai)AnakWiratama Hadi RachmantoOrang tuaSoeharto (bapak)Siti Hartinah (ibu)KerabatSiti Hardijanti Rukmana (kakak)Sigit Harjojudanto (kakak)Bambang Trihatmodjo (kakak)Siti Hediati Hariyadi (kakak)Hutomo Mandala Putra (kakak) Ir. Hj. Siti Hutami Endang Adiningsih (lahir 23 Agustus…

SancourtcomuneSancourt – Veduta LocalizzazioneStato Francia Regione Normandia Dipartimento Eure ArrondissementLes Andelys CantoneGisors TerritorioCoordinate49°21′N 1°41′E49°21′N, 1°41′E (Sancourt) Superficie6,47 km² Abitanti154[1] (2009) Densità23,8 ab./km² Altre informazioniCod. postale27150 Fuso orarioUTC+1 Codice INSEE27614 CartografiaSancourt Modifica dati su Wikidata · Manuale Sancourt è un comune francese di 154 abitanti situato nel dipar…

TambourineNama lainRiq, BubenKlasifikasi perkusi tanganAlat musik terkait Riq, Buben, Dayereh, Daf, Kanjira, Frame drum Tamburin merupakan salah satu contoh dari alat perkusi yang tidak banyak berubah sepanjang masa. Di Indonesia, tamburin merupakan sejenis alat musik tradisional yang paling populer di Aceh. Tamburin ini awalnya pernah digunakan sebagai musik Klasik, musik Roma, musik Persia, musik Gospel, musik Pop, dan rock and roll. Di Brasil, umumnya dikenal sebagai Pandeiro. Sejarah Asal us…

Hip hop music from around 1985–1995 Golden age hip hopRun-DMC and Beastie Boys (with DJ Hurricane) in 1987. Their albums are often considered a start to hip hop's golden era.Stylistic originsHip hopnew-school hip hopEast Coast hip hopCultural originsMid 1980s, New York City, Long IslandTypical instrumentsTurntablesmicrophoneRoland TR-808E-mu SP-1200Derivative formsJazz rapBoom bapHardcore hip hopmafioso rapLocal scenesSouth Bronx, Hollis, Queens, Brooklyn, Harlem, Long Island Golden age hip ho…

بورت هوينيمي     الإحداثيات 34°09′37″N 119°11′40″W / 34.160277777778°N 119.19444444444°W / 34.160277777778; -119.19444444444   [1] تاريخ التأسيس 1871  تقسيم إداري  البلد الولايات المتحدة[2][3]  التقسيم الأعلى مقاطعة فينتورا  خصائص جغرافية  المساحة 12.096311 كيلومتر مربع12.096314 …

Samar Province Lalawigan han Samar مقاطعة في الفلبين  [لغات أخرى]‏   علم Samar ProvinceعلمOfficial seal of Samar Provinceشعار أسماء أخرى The caving capital of the Philippines الاسم الرسمي Province of Samar Map of the Philippines with Samar highlighted الإحداثيات 11°50′N 125°00′E / 11.833°N 125.000°E / 11.833; 125.000 تأسس 1768 (separation from Leyte) تقسيم إداري  …

2022年北馬里亞納群島總督選舉 ← 2018 2022年11月8日 (首輪)2022年11月25日 (次輪)   获提名人 阿諾德·帕拉西奧斯 拉爾夫·托雷斯 蒂娜·薩布蘭 政党 无党籍 共和黨 民主黨 竞选搭档 大衛阿帕唐 維尼·薩布蘭 萊拉·斯塔夫勒 首輪 489032.2% 572638.8% 413228.0% 次輪 7,l07754.1% 601745.9% 淘汰 选前總督 拉爾夫·托雷斯 共和黨 當選總督 阿諾德·帕拉西奧斯 无党籍 2022年北馬里亞納群島總…

1983 Indian filmVellai RojaPosterDirected byA. JagannathanScreenplay byA. L. NarayananStory byDr. PavithranBased onPost Mortem (1982)Produced byV. ViswanathanStarringSivaji GanesanAmbikaPrabhuRadhaCinematographyP. GanesapandiyanEdited byR. DevarajanMusic byIlaiyaraajaProductioncompanyFilmcoRelease date 4 November 1983 (1983-11-04) CountryIndiaLanguageTamil Vellai Roja (transl. White Rose) is a 1983 Indian Tamil-language thriller film, directed by A. Jagannathan and written a…

This article uses bare URLs, which are uninformative and vulnerable to link rot. Please consider converting them to full citations to ensure the article remains verifiable and maintains a consistent citation style. Several templates and tools are available to assist in formatting, such as reFill (documentation) and Citation bot (documentation). (August 2022) (Learn how and when to remove this message) Royal Australian Army Ordnance CorpsBadge of the Royal Australian Army Ordnance CorpsActive1 Ju…

Mario II Sforza di Santa Fiora, XV conte di Santa Fiora (Firenze, 24 luglio 1594 – Roma, 26 settembre 1658) fu figlio di Alessandro Sforza, 2.º Duca di Segni dal 1631 al 1634 e di Eleonora Orsini[1]. Stemma degli Sforza di Santa Fiora Indice 1 Biografia 2 Discendenza 3 Ascendenza 4 Note 5 Bibliografia 6 Voci correlate Biografia Le vicissitudini di Mario II Sforza sono tra le più sfortunate e disastrate dell'intero Seicento: erede di una famiglia, gli Sforza, che era stata grande nei …

Eigil NielsenNielsen in gol nella semifinale delle olimpiadi del 1948 a WembleyNazionalità Danimarca Calcio RuoloPortiere CarrieraSquadre di club1 1937-1952 KB? (-?) Nazionale 1940-1951 Danimarca28 (-?) Palmarès  Olimpiadi BronzoLondra 1948 1 I due numeri indicano le presenze e le reti segnate, per le sole partite di campionato.Il simbolo → indica un trasferimento in prestito.   Modifica dati su Wikidata · Manuale Eigil Nielsen (Esbjerg, 15 settembre 1918 – Freder…

The Norwegian Institute at Athens (Norwegian: Det Norske Institutt I Athen; Greek: Νορβηγικό Ινστιτούτο Αθηνών) is one of the 19 foreign archaeological institutes operating in Athens, Greece. The Institute aims to promote research in all areas of Greek Studies by Norwegian scholars. It contributes, with its Danish, Finnish and Swedish counterparts, to the Nordic Library at Athens. Its archaeological activities, since its foundation in 1989, include archaeological survey …