قرارات عملية ماركوفعملية ماركوف أو عملية قرار ماركوف[1] (بالإنجليزية: Markov decision process) هو نموذج مؤشر عشوائى stochastic يحتوي على خاصية ماركوف.[2] ويمكن استخدامه في تصميم نموذج لنظام عشوائي الذي يتغير وفقا لقاعدة التحول الذي يعتمد فقط على الحالة الراهنة current state. تستخدم عمليات ماركوف في كثير من المجالات منها: تعلم الآلة (وخاصة التعلم المعزز) والتعرف على الأنماط وتشخيص الأمراض وقرارات العلاج الطبي بشكل عام حيث أنه يعتبر استخدامه ضروري في حاله اتخاذ قرار يتضمن خطر مع مرور الوقت مثل زراعة الكبد والكلي. بشكل خاص، يحتاج مؤشر المعلمة الدولة الفضاء والوقت النظام على أن تكون محددة. ويوجد حالات مختلفة من عمليات ماركوف لمستويات مختلفة من الحالات عموما وللزمن المتقطع مقابل الزمن المتواصل. تعريفهصناعة قرارات ماركوف هي طريقة لتحليل السلوك الحالى لمتغير معين وذلك لأغراض التنبوء بالسلوك المستقبلى لهذا المتغير المعين، وتنسب سلاسل ماركوف إلى اسم مكتشفها أندريا ماركوف " العالم الروسي الذي ولد عام 1856 وتوفى عام 1922، وتعتبر سلاسل ماركوف أحد أدوات "البرمجة الديناميكية" dynamic programming التي تعد أحد أساليب بحوث العمليات. ويهتم أسلوب ماركوف بدراسة عملية إتخاذ القرارات حيث يتعامل مع احتمالات حدوث حدث معيّن في المستقبل مستنداً إلى تحليل بعض الاحتمالات، أي أنه أسلوب علميّ لدراسة وتحليل ظاهرة الفترة الحالية من أجل التنبؤ بسلوكها في المستقبل. وهناك بعض التعاريف الأخرى لهذه السلسلة:
أنواع سلاسل ماركوف
وتعتمد عمليات ماركوف على فرض ثبات احتمالات تحول الحالة من فترة زمنية إلى فترة زمنية أخرى وعلى وجود فترات زمنية متساوية يتم حساب التحول بينها، ويمكن أن يكون عدد حالات التحول محدوداً وهو ما يعرف بسلاسل ماركوف أو مستمر (غير محدود) وهو ما يعرف بعمليات ماركوف المستمرة. فروض تحليل قرارات ماركوفيستند تحليل قرارات ماركوف إلى أربعة افتراضات أساسية:
أهم الأسياسيات الرياضية المتعلقة بسلاسل ماركوف مستمرة الزمنتعريفها
المشكلة الأساسية من قرارات عملية ماركوف هي العثور علي السياسة لصانع القرار، وهي تهدف إلى اختيار السياسة التي تقوم بتعظيم بعض الدوال التراكمية للحالات العشوائية. ويمكن لقرارات عملية ماركوف أن تحل من خلال البرمجة الخطية والبرمجة الديناميكية. مراجع
|