تحوي هذه المقالة أو هذا القسم ترجمة آلية. فضلًا، ساهم في تدقيقها وتحسينها أو إزالتها لأنها تخالف سياسات ويكيبيديا. (نقاش)
تشير جودة البيانات[1] إلى حالة كمية المعلومات سواءً كانت نوعية أو كمية. هناك المزيد من تعريفات جودة البيانات، ولكن البيانات تعتبر بشكل عام ذات جودة عالية إذا كانت مناسبة للاستخدام المقصود في العمليات وصنع القراروالتخطيط .[2][3][4] علاوةً على ذلك، تعتبر البيانات ذات جودة عالية إذ إنها ستمثل بشكل صحيح تكوين العالم الحقيقي التي يشير إليها.
وبخلاف هذه التعريفات والزيادة في عدد مصادر البيانات، تعيش مجتمعات ما بعد الصناعة الأكثر تطوراً بالمعلومات وتكنولوجيا الاتصالات في عالم جودة البيانات وأصبح مصطلح جودة البيانات شائع جداً وكلما زادت جودة البيانات ازدهرت هذه المجتمعات أكثر،[5] تصبح مسألة اتساق البيانات الداخلية مهمة، بغض النظر عن مدى ملاءمتها لأي غرض خارجي معين. غالبًا ما يكون لدى الأشخاص أفكار مختلفة حول جودة البيانات، حتى عند مناقشة نفس مجموعة البيانات المستخدمة لنفس الغرض. في نفس السياق، يتم استخدام إدارة البيانات لتشكيل تعريفات ومعايير جودة البيانات المتفق عليها. في مثل هذه الحالات، قد يلزم تنقية البيانات، بما في ذلك التوحيد القياسي، لضمان جودة البيانات.[6]
التعريفات
يعد تحديد جودة البيانات أمراً صعباً نظراً للسياقات المتعددة التي يتم تستخدم فيها البيانات، ووجهات النظر المختلفة بين المستخدمين النهائيين والمنتجين وأمناء البيانات.[7]
البيانات الصالحة للإستخدام من قبل مستهلكي البيانات
البيانات التي تلبي أو تتجاوز توقعات المستهلك
البيانات التي تفي بمتطلبات الاستخدام المقصود
من منظور الأعمال التجارية، فإن جودة البيانات هي:
البيانات الملاءمة للاستخدام في أدوارها التشغيلية واتخاذ القرار والأدوار الأخرى المقصودة أو التي تثبت التوافق مع المعايير التي وضعت، بحيث يتم لتحقيق الملاءمة للاستخدام [8]
البيانات الملاءمة للاستخدامات المقصودة في العمليات واتخاذ القرار والتخطيط [9]
قدرة البيانات على تلبية متطلبات الأعمال والنظام والمتطلبات الفنية لمؤسسة ما [10]
من المنظور القائم على المعايير، فإن جودة البيانات هي:
الدرجة التي تفي بها مجموعة من الخصائص المتأصلة (أبعاد الجودة) للكائن (البيانات) بالمتطلبات [7][11]
يمكن القول، في جميع هذه الحالات، جودة البيانات هي مقارنة الحالة الفعلية لمجموعة معينة من البيانات بالحالة المرغوبة، والتي يشار إليها غالبًا باسم ملاءمة للاستخدام، للمواصفات، لتلبية توقعات المستهلك أو خالية من العيوب أو تفي بالمتطلبات. غالبًا ما تتم صياغة هذه التوقعات والقواعد والمتطلبات بواسطة فرد أو أكثر أو مجموعات أو منظمات معايير أو قوانين ولوائح أو سياسات التوظيف أو سياسات تطوير البرامج.[7]
أبعاد جودة البيانات
عند التعمق أكثر، يتم تحديد تلك التوقعات والمواصفات والمتطلبات من حيث الخصائص أو أبعاد البيانات، أمثلة:[7][8][9][10][13]
إمكانية الوصول أو التوفر
الدقة أو الصحة
قابلية المقارنة
الكمال أو الشمولية
الاتساق والتماسك والوضوح
المصداقية أو الثقة أو الصيت
المرونة
المعقولية
الملاءمة أو الصلة أو الفائدة
حسن التوقيت أو الكمون
التفرد
الصلاحية أو المعقولية
تشير مراجعة تحديد النطاق المنهجية للأدبيات إلى أن أبعاد جودة البيانات والأساليب ذات البيانات الحقيقية لا تتسق في الأدبيات، ونتيجة لذلك فإن تقييمات الجودة تمثل تحديًا بسبب الطبيعة المعقدة وغير المتجانسة لهذه البيانات.[13]
تاريخ
قبل ظهور تخزين بيانات الكمبيوتر غير المكلف، تم استخدام أجهزة الكمبيوتر الضخمة الحاسوبية للحفاظ على بيانات الاسم والعناوين لخدمات التوصيل. كان هذا حتى يمكن توجيه البريد بشكل صحيح إلى وجهته. استخدمت الحواسيب المركزية قواعد العمل لتصحيح الأخطاء الإملائية الشائعة والأخطاء المطبعية في الإسم والعناوين، وكذلك تتبع العملاء الذين انتقلوا أو ماتوا أو ذهبوا إلى السجن أو المتزوجين أو المطلقين أو من عانى من أي أحداث أخرى غيرت حياتهم، الوكالات الحكومية بدأت في إتاحة البيانات البريدية لعدد قليل من الشركات الخاصة بخدمات الإحالة المرجعية لبيانات العملاء مع السجل الوطني لتغيير العنوان (NCOA) . وفرت هذه التكنولوجيا على الشركات الكبيرة ملايين من الدولارات مقارنةً بالتصحيح اليدوي لبيانات العميل، تم توفير الشركات الكبيرة على الطوابع البريدية، حيث وصلت الفواتير والمواد التسويقية المباشرة إلى العميل المقصود بشكل أكثر دقة، تم بيع جودة البيانات في البداية كخدمة، حيث تم نقل جودة البيانات داخل جدران الشركات، حيث أصبحت تقنية الخادم منخفضة التكلفة ومتاحة بشكل أقوى.
غالبا ما ركزت الشركات التي تركز على التسويق جهودها في مجال الجودة على معلومات الاسم والعنوان، ولكن يتم التعرف على جودة البيانات كخاصية مهمة لجميع أنواع البيانات. يمكن تطبيق مبادئ جودة البيانات على بيانات سلسلة التوريد وبيانات المعاملات وتقريبا كل فئة أخرى من البيانات الموجودة. على سبيل المثال، جعل بيانات سلسلة التوريد مطابقة لمعيار معين له قيمة بالنسبة للمؤسسة من خلال:
تجنب التخزين الزائد لمخزون مشابه ولكنه مختلف قليلا
تجنب المخزون الخاطئ
تحسين فهم مشتريات البائعين للتفاوض على خصومات الحجم
تجنب التكاليف اللوجستية في تخزين وشحن الأجزاء عبر مؤسسة كبيرة.
بالنسبة للشركات التي تبذل جهودًا بحثية كبيرة، يمكن أن تشمل جودة البيانات تطوير بروتوكولات لطرق البحث، وتقليل أخطاء القياس، وفحص حدود البيانات، وجدولة متقاطعة، والنمذجة، واكتشاف الحالات الخارجية، والتحقق من سلامة البيانات، وما إلى ذلك.
ضمان جودة البيانات
ضمان جودة البيانات هو عملية تنميط البيانات لاكتشاف التناقضات والشذوذ الأخرى في البيانات، بالإضافة إلى تنفيذ أنشطة تنقية البيانات[14][15] (مثل إزالة القيم المتطرفة، واستيفاء البيانات المفقودة ) لتحسين جودة البيانات.
مراقبة جودة البيانات هي عملية التحكم في استخدام البيانات لتطبيق أو عملية. يتم تنفيذ هذه العملية قبل وبعد عملية ضمان جودة البيانات (QA)، والتي تتكون من اكتشاف عدم تناسق البيانات وتصحيحها.
قبل:
يقيد المدخلات، بعد عملية ضمان الجودة، يتم جمع الإحصائيات التالية لتوجيه عملية مراقبة الجودة (QC):
شدة التناقض
عدم الاكتمال
الدقة
الإحكام
مفقود / غير معروف
تستخدم عملية مراقبة جودة البيانات المعلومات من عملية ضمان الجودة لتقرير استخدام البيانات للتحليل أو في تطبيق أو عملية تجارية. مثال عام: إذا وجدت عملية مراقبة جودة البيانات أن البيانات تحتوي على عدد كبير جدًا من الأخطاء أو التناقضات، فإنها تمنع استخدام هذه البيانات في العملية المقصودة مما قد يتسبب في حدوث اضطراب. مثال محدد: قد يؤدي توفير قياسات غير صالحة من عدة أجهزة استشعار إلى ميزة الطيار الآلي على متن طائرة إلى تعطلها. وبالتالي، فإن إنشاء عملية مراقبة الجودة يوفر حماية لاستخدام البيانات.
الاستخدام الأمثل لجودة البيانات
تعد جودة البيانات (DQ) مجالًا متخصصًا مطلوبًا لسلامة إدارة البيانات من خلال تغطية الفجوات في قضايا البيانات. هذه إحدى الوظائف الرئيسية التي تساعد في إدارة البيانات من خلال مراقبة البيانات للعثور على استثناءات لم تكتشفها عمليات إدارة البيانات الحالية. يمكن تحديد فحوصات جودة البيانات على مستوى السمة للتحكم الكامل في خطوات الإصلاح الخاصة بها.
قد تتداخل فحوصات جودة البيانات وقواعد العمل بسهولة إذا لم تكن المنظمة منتبهًا لنطاق جودة البيانات الخاص بها. يجب أن تفهم فرق العمل نطاق جودة البيانات تمامًا لتجنب التداخل. تكون فحوصات جودة البيانات زائدة عن الحاجة إذا كان منطق الأعمال يغطي نفس الوظيفة ويفي بنفس الغرض مثل جودة البيانات. يجب تحديد نطاق جودة البيانات للمنظمة في استراتيجية جودة البيانات وتنفيذها بشكل جيد. قد تتم ترجمة بعض فحوصات جودة البيانات إلى قواعد عمل بعد تكرار حالات الاستثناءات في الماضي.
فيما يلي بعض مجالات تدفق البيانات التي قد تحتاج إلى فحوصات جودة البيانات الدائمة:
يمكن إجراء فحوصات الدقة والاكتمال جودة البيانات على جميع البيانات عند نقطة الدخول لكل سمة إلزامية من كل نظام مصدر. يتم إنشاء قيم قليلة للسمات بعد الإنشاء الأولي للمعاملة ؛ في مثل هذه الحالات، تصبح إدارة هذه الفحوصات صعبة ويجب إجراؤها فورًا بعد الحدث المحدد لمصدر تلك السمة واستيفاء شروط السمة الأساسية الأخرى للمعاملة.
يمكن التحقق من صحة جميع البيانات التي تحتوي على سمات تشير إلى البيانات المرجعية في المؤسسة مقابل مجموعة القيم الصالحة المحددة جيدًا للبيانات المرجعية لاكتشاف قيم جديدة أو متناقضة من خلال التحقق من الصلاحية جودة البيانات. يمكن استخدام النتائج لتحديث البيانات المرجعية المُدارة بموجب إدارة البيانات الرئيسية (MDM) .
قد تخضع جميع البيانات التي يتم الحصول عليها من طرف ثالث إلى الفرق الداخلية للمؤسسة لفحص دقيق مقابل بيانات الطرف الثالث. تعتبر نتائج فحص جودة البيانات هذه ذات قيمة عند إدارتها على البيانات التي قامت بقفزات متعددة بعد نقطة إدخال تلك البيانات ولكن قبل أن يتم التصريح بهذه البيانات أو تخزينها لذكاء المؤسسة.
يمكن التحقق من صحة جميع أعمدة البيانات التي تشير إلى البيانات الرئيسية للتحقق من التناسق . يكتشف فحص جودة البيانات الذي يتم إدارته على البيانات عند نقطة الإدخال بيانات جديدة لعملية إدارة البيانات الرئيسية، لكن فحص جودة البيانات الذي يتم إدارته بعد نقطة الدخول يكتشف فشل (وليس استثناءات) في الاتساق.
مع تحول البيانات، يتم التقاط طوابع زمنية متعددة ومواقع تلك الطوابع الزمنية ويمكن مقارنتها مع بعضها البعض ومدى صلاحيتها للتحقق من قيمتها، وانحلالها، وأهميتها التشغيلية مقابل اتفاقية مستوى خدمة محددة (اتفاقية مستوى الخدمة). يمكن استخدام فحص التوقيت جودة البيانات هذا لتقليل معدل اضمحلال قيمة البيانات وتحسين سياسات الجدول الزمني لحركة البيانات.
عادة ما يتم فصل المنطق المعقد في المنظمة إلى منطق أبسط عبر عمليات متعددة. المعقولية يتحقق جودة البيانات من مثل هذا المنطق المعقد الذي يؤدي إلى نتيجة منطقية ضمن نطاق محدد من القيم أو العلاقات المتبادلة الثابتة (قواعد العمل المجمعة) يمكن التحقق من صحتها لاكتشاف العمليات التجارية المعقدة ولكن الحاسمة والقيم المتطرفة للبيانات، وانحرافها عن العمل كالمعتاد ) التوقعات، وقد توفر استثناءات محتملة تؤدي في النهاية إلى مشكلات في البيانات. قد يكون هذا الفحص عبارة عن قاعدة تجميع عامة بسيطة غارقة في جزء كبير من البيانات أو يمكن أن يكون منطقًا معقدًا على مجموعة من سمات المعاملة المتعلقة بالأعمال الأساسية للمؤسسة. يتطلب فحص جودة البيانات درجة عالية من المعرفة والفطنة في مجال الأعمال. قد يساعد اكتشاف مسائل المعقولية في إجراء تغييرات في السياسة والاستراتيجية من خلال إدارة الأعمال أو البيانات أو كليهما.
هناك العديد من الأماكن في حركة البيانات حيث قد لا تكون فحوصات جودة البيانات مطلوبة. على سبيل المثال، يعد التحقق من جودة البيانات للاكتمال والدقة في الأعمدة غير الفارغة مكررًا للبيانات التي تم الحصول عليها من قاعدة البيانات. وبالمثل، يجب التحقق من صحة البيانات للتأكد من دقتها فيما يتعلق بالوقت الذي يتم فيه تجميع البيانات عبر مصادر مختلفة. ومع ذلك، فهذه قاعدة عمل ولا ينبغي أن تكون في نطاق جودة البيانات.
للأسف، من منظور تطوير البرمجيات، غالبًا ما يُنظر إلى جودة البيانات على أنه شرط غير وظيفي. وعلى هذا النحو، لا يتم أخذ عمليات فحص / عمليات جودة البيانات الرئيسية في الاعتبار في حل البرنامج النهائي. في مجال الرعاية الصحية، تُنشئ التقنيات القابلة للارتداء أو شبكات منطقة الجسم كميات كبيرة من البيانات.[17] مستوى التفاصيل المطلوب لضمان جودة البيانات مرتفع للغاية وغالبًا ما يتم التقليل من شأنه. وينطبق هذا أيضًا على الغالبية العظمى من تطبيقات الصحة المحمولة والسجلات الصحية الإلكترونية وغيرها من الحلول البرمجية المتعلقة بالصحة. ومع ذلك، توجد بعض الأدوات مفتوحة المصدر التي تفحص جودة البيانات.[18] السبب الرئيسي لذلك، ينبع من التكلفة الإضافية المتضمنة إضافة درجة أعلى من الصرامة داخل بنية البرنامج.
أمن البيانات الصحية والخصوصية
يؤدي استخدام الأجهزة المحمولة في مجال الصحة، أو الصحة المتنقلة، إلى خلق تحديات جديدة لأمن البيانات الصحية وخصوصيتها، بطرق تؤثر بشكل مباشر على جودة البيانات.[3] تعد الصحة المحمولة استراتيجية متزايدة الأهمية لتقديم الخدمات الصحية في البلدان منخفضة ومتوسطة الدخل.[19] تُستخدم الهواتف المحمولة والأجهزة اللوحية لجمع البيانات وإعداد التقارير عنها وتحليلها في الوقت الفعلي تقريبًا. ومع ذلك، تُستخدم هذه الأجهزة المحمولة بشكل شائع في الأنشطة الشخصية أيضًا، مما يجعلها أكثر عرضة لمخاطر الأمان التي قد تؤدي إلى انتهاكات البيانات. دون ضمانات أمنية مناسبة، قد يؤدي هذا الاستخدام الشخصي إلى تعريض جودة البيانات الصحية وأمانها وسريتها للخطر.[20]
جودة البيانات في الصحة العامة
أصبحت جودة البيانات محورًا رئيسيًا لبرامج الصحة العامة في السنوات الأخيرة، خاصة مع زيادة الطلب على المساءلة.[21] يجب أن يستند العمل نحو أهداف طموحة تتعلق بمكافحة الأمراض مثل الإيدز والسل والملاريا إلى أنظمة مراقبة وتقييم قوية تنتج بيانات عالية الجودة تتعلق بتنفيذ البرنامج.[22] تسعى هذه البرامج ومدققو البرامج بشكل متزايد إلى أدوات لتوحيد وتبسيط عملية تحديد جودة البيانات، [23] والتحقق من جودة البيانات المبلغ عنها، وتقييم إدارة البيانات الأساسية وأنظمة إعداد التقارير الخاصة بالمؤشرات.[24] ومن الأمثلة على ذلك أداة مراجعة جودة البيانات الخاصة بمنظمة الصحة العالمية و MEASURE Evaluation [25] تعاونت منظمة الصحة العالمية والصندوق العالمي والتحالف العالمي للقاحات والتحصين وتقييم MEASURE لإنتاج نهج منسق لضمان جودة البيانات عبر مختلف الأمراض والبرامج.[26]
^ ابFadahunsi، Kayode Philip؛ Akinlua، James Tosin؛ O’Connor، Siobhan؛ Wark، Petra A؛ Gallagher، Joseph؛ Carroll، Christopher؛ Majeed، Azeem؛ O’Donoghue، John (مارس 2019). "Protocol for a systematic review and qualitative synthesis of information quality frameworks in eHealth". BMJ Open. ج. 9 ع. 3: e024722. DOI:10.1136/bmjopen-2018-024722. ISSN:2044-6055. PMID:30842114. {{استشهاد بدورية محكمة}}: الوسيط غير المعروف |PMCID= تم تجاهله يقترح استخدام |pmc= (مساعدة)
^Floridi, Luciano (31 Jan 2013). "Information quality" (Bronze Open Access) (بالإنجليزية). United Kingdom: School of Humanities, University of Hertfordshire de Havilland Campus, Hatfield, Hertfordshire AL10 9AB. DOI:10.1007/s13347-013-0101-3. ISSN:2210-5441. Archived from the original on 2022-12-20. Retrieved 2022-12-15. {{استشهاد بدورية محكمة}}: الاستشهاد بدورية محكمة يطلب |دورية محكمة= (help) and الوسيط غير المعروف |trans_title= تم تجاهله يقترح استخدام |عنوان مترجم= (help)
^Smallwood, R.F. (2014). Information Governance: Concepts, Strategies, and Best Practices. John Wiley and Sons. ص. 110. ISBN:9781118218303. مؤرشف من الأصل في 2020-07-30. اطلع عليه بتاريخ 2020-04-18. Having a standardized data governance program in place means cleaning up corrupted or duplicated data and providing users with clean, accurate data as a basis for line-of-business software applications and for decision support analytics in business intelligence (BI) applications.
^ ابجدهFürber, C. (2015). "3. Data Quality". Data Quality Management with Semantic Technologies. Springer. ص. 20–55. ISBN:9783658122249. مؤرشف من الأصل في 2020-07-31. اطلع عليه بتاريخ 2020-04-18.
^NIST Big Data Public Working Group, Definitions and Taxonomies Subgroup (أكتوبر 2019). "NIST Big Data Interoperability Framework: Volume 4, Security and Privacy"(PDF). National Institute of Standards and Technology (ط. 3rd). DOI:10.6028/NIST.SP.1500-4r2. مؤرشف(PDF) من الأصل في 2020-05-09. اطلع عليه بتاريخ 2020-04-18. Validity refers to the usefulness, accuracy, and correctness of data for its application. Traditionally, this has been referred to as data quality.
^ ابBian, Jiang; Lyu, Tianchen; Loiacono, Alexander; Viramontes, Tonatiuh Mendoza; Lipori, Gloria; Guo, Yi; Wu, Yonghui; Prosperi, Mattia; George, Thomas J (9 Dec 2020). "Assessing the practice of data quality evaluation in a national clinical data research network through a systematic scoping review in the era of real-world data". Journal of the American Medical Informatics Association (بالإنجليزية). 27 (12): 1999–2010. DOI:10.1093/jamia/ocaa245. ISSN:1527-974X. PMID:33166397. {{استشهاد بدورية محكمة}}: الوسيط غير المعروف |PMCID= تم تجاهله يقترح استخدام |pmc= (help)
^O'Donoghue, John, and John Herbert. "Data management within mHealth environments: Patient sensors, mobile devices, and databases". Journal of Data and Information Quality (JDIQ) 4.1 (2012): 5.
^Huser، Vojtech؛ DeFalco، Frank J؛ Schuemie، Martijn؛ Ryan، Patrick B؛ Shang، Ning؛ Velez، Mark؛ Park، Rae Woong؛ Boyce، Richard D؛ Duke، Jon (30 نوفمبر 2016). "Multisite Evaluation of a Data Quality Tool for Patient-Level Clinical Datasets". eGEMs. ج. 4 ع. 1: 24. DOI:10.13063/2327-9214.1239. PMID:28154833. {{استشهاد بدورية محكمة}}: الوسيط غير المعروف |PMCID= تم تجاهله يقترح استخدام |pmc= (مساعدة)
^Wambugu, S. & Villella, C. (2016). mHealth for health information systems in low- and middle-income countries: Challenges and opportunities in data quality, privacy, and security (tr-16-140). Chapel Hill, NC: MEASURE Evaluation, University of North Carolina. Retrieved from https://www.measureevaluation.org/resources/publications/tr-16-140نسخة محفوظة 2017-08-08 على موقع واي باك مشين.
^Hasan Dalip، Daniel؛ André Gonçalves، Marcos؛ Cristo، Marco؛ Calado، Pável (2009). "Automatic quality assessment of content created collaboratively by web communities". Proceedings of the 2009 joint international conference on Digital libraries - JCDL '09. ص. 295. DOI:10.1145/1555400.1555449. ISBN:9781605583228.
Baškarada، S؛ Koronios، A (2014). "A Critical Success Factors Framework for Information Quality Management". Information Systems Management. ج. 31 ع. 4: 1–20. DOI:10.1080/10580530.2014.958023.
Baamann, Katharina, Data Quality Aspects of Revenue Assurance , Article
Eckerson, W. (2002) Data Warehousing Special Report: Data quality and the bottom line , Article
Hansen, M. (1991) Zero Defect Data, MIT. Masters thesis [1]
Kahn, B., Strong, D., Wang, R. (2002) Information Quality Benchmarks: Product and Service Performance, Communications of the ACM, April 2002. pp. 184–192. Article
Price, R. and Shanks, G. (2004) A Semiotic Information Quality Framework, Proc. IFIP International Conference on Decision Support Systems (DSS2004): Decision Support in an Uncertain and Complex World, Prato. Article
Redman, T. C. (2008) Data Driven: Profiting From Our Most Important Business Asset
Wand, Y. and Wang, R. (1996) Anchoring Data Quality Dimensions in Ontological Foundations, Communications of the ACM, November 1996. pp. 86–95. Article
Wang, R., Kon, H. & Madnick, S. (1993), Data Quality Requirements Analysis and Modelling, Ninth International Conference of Data Engineering, Vienna, Austria. Article
Daniel F., Casati F., Palpanas T., Chayka O., Cappiello C. (2008) Enabling Better Decisions through Quality-aware Reports , International Conference on Information Quality (ICIQ), MIT. Article
Jack E. Olson (2003), Data Quality: The Accuracy dimension , Morgan Kaufmann Publishers