ขั้นตอนวิธีการค้นหาเพื่อนบ้านใกล้สุด k ตัว
ขั้นตอนวิธีการเพื่อนบ้านใกล้ที่สุด (อังกฤษ: K-Nearest Neighbour Algorithm) เป็นวิธีที่ใช้ในการจัดแบ่งคลาส โดยเทคนิคนี้จะตัดสินใจว่า คลาสใดที่จะแทนเงื่อนไขหรือกรณีใหม่ๆ ได้บ้าง โดยการตรวจสอบจำนวนบางจำนวน (“K” ในขั้นตอนวิธีการเพื่อนบ้านใกล้ที่สุด) ของกรณีหรือเงื่อนไขที่เหมือนกันหรือใกล้เคียงกันมากที่สุด โดยจะหาผลรวม (Count Up) ของจำนวนเงื่อนไข หรือกรณีต่างๆ สำหรับแต่ละคลาส และกำหนดเงื่อนไขใหม่ๆ ให้คลาสที่เหมือนกันกับคลาสที่ใกล้เคียงกันมากที่สุด ตัวอย่าง![]() กำหนดให้จุดที่พิจารณาคือ วงกลมสีเขียว ควรจัดกลุ่มให้จุดที่สนใจไปอยู่ใน คลาสแรกของสี่เหลี่ยมสีน้ำเงิน หรือ คลาสสองของสามเหลี่ยมสีแดง
ขั้นตอนวิธีการนำเทคนิคของขั้นตอนวิธีการเพื่อนบ้านใกล้ที่สุดไปใช้นั้น เป็นการหาระยะห่างระหว่างแต่ละตัวแปร (Attribute) ในข้อมูล จากนั้นก็คำนวณค่าออกมา ซึ่งวิธีนี้จะเหมาะสำหรับข้อมูลแบบตัวเลข แต่ตัวแปรที่เป็นค่าแบบไม่ต่อเนื่องนั้นก็สามารถทำได้ เพียงแต่ต้องการการจัดการแบบพิเศษเพิ่มขึ้น อย่างเช่น ถ้าเป็นเรื่องของสี เราจะใช้อะไรวัดความแตกต่างระหว่างสีน้ำเงินกับสีเขียว ต่อจากนั้นเราต้องมีวิธีในการรวมค่าระยะห่างของ Attribute ทุกค่าที่วัดมาได้ เมื่อสามารถคำนวณระยะห่างระหว่างเงื่อนไขหรือกรณีต่างๆ ได้ จากนั้นก็เลือกชุดของเงื่อนไขที่ใช้จัดคลาส มาเป็นฐานสำหรับการจัดคลาสในเงื่อนไขใหม่ๆ ได้แล้วเราจะตัดสินได้ว่าขอบเขตของจุดข้างเคียงที่ควรเป็นนั้น ควรมีขนาดใหญ่เท่าไร และอาจมีการตัดสินใจได้ด้วยว่าจะนับจำนวนจุดข้างเคียงตัวมันได้อย่างไร โดยขั้นตอนวิธีการเพื่อนบ้านใกล้ที่สุดมีขั้นตอนโดยสรุป ดังนี้
การดำเนินการหลัก
คุณสมบัติของฟังก์ชันระยะทาง (Distance Function)
การคำนวณค่าฟังก์ชันระยะทาง
การรวมค่าระยะทาง (Distance) ในเรคคอร์ด (Record)
ตัวอย่างการใช้ขั้นตอนวิธีการเพื่อนบ้านใกล้ที่สุด.
จากตัวอย่างข้างต้น กำหนดให้ k= 5 ดังนั้น สังเกตได้ว่า ระยะทางที่ใกล้กับจุด (3,3) มากที่สุด คือ 5 มีลำดับ คือ D1 (+), D2 (+), D3 (-), D4 (-), D9 (-) จากระยะทางที่ใกล้ที่สุดทั้ง 5 ให้สังเกตว่ากลุ่ม (class) ที่มีจำนวนมากที่สุด ปรากฏว่าคือ class (-) ดังนั้น จึงกำหนดกลุ่ม (class) ให้กับจุด (3,3) คือ class (-) ตัวอย่างการประยุกต์ใช้งานขั้นตอนวิธีการเพื่อนบ้านใกล้ที่สุด ได้มีการนำไปใช้ประโยชน์ในหลากหลายด้าน ได้แก่ - การวิเคราะห์รูปแบบการบุกรุกเครือข่ายคอมพิวเตอร์ โดยขั้นตอนวิธีการเพื่อนบ้านใกล้ที่สุด กล่าวคือ มีการประยุกต์ใช้ในการตรวจสอบความปลอดภัยในเครือข่ายระบบคอมพิวเตอร์ ซึ่งจะใช้ตัวแปร K ในการวิเคราะห์ข้อมูล และจำแนกประเภทของข้อมูลที่มีขนาดใหญ่ๆ ขั้นตอนวิธีการเพื่อนบ้านใกล้ที่สุด สามารถใช้ในการวิเคราะห์ข้อมูลได้เป็นอย่างดี - ขั้นตอนวิธีการเพื่อนบ้านใกล้ที่สุด เป็นเทคนิคหนึ่งของ Data Mining ที่ใช้ในการแก้ปัญหาแบบ classification ในการผลิต ผลิตภัณฑ์ด้าน Data Mining ในปัจจุบัน - ประยุกต์ขั้นตอนวิธีการเพื่อนบ้านใกล้ที่สุดและการคำนวณอย่างอ่อน (Soft Computing) เพื่อใช้ประมาณค่าสูญหายของข้อมูล โดยจะใช้ขั้นตอนวิธีการเพื่อนบ้านใกล้ที่สุดในการหาสมาชิกที่มีความใกล้ชิดกับข้อมูลที่สูญหายมา k ตัว แล้วนำจำนวน k มาหารเพื่อประมาณค่า และได้ปรับปรุงตัวหารด้วยการนำ หลักการคำนวณอย่างอ่อน (Soft Computing) เข้ามาช่วยในการปรับค่า k เรียกวิธีการนี้ว่า ขั้นตอนวิธีการเพื่อนบ้านใกล้ที่สุดอย่างอ่อน (Soft K-Nearest Neighbour) - ขั้นตอนวิธีการเพื่อนบ้านใกล้ที่สุด ใช้ในการหามัธยฐานของตัวเลข n ตัวที่ต่างกัน โดยมีประสิทธิภาพการทำงานเป็น O (n) สรุปขั้นตอนวิธีการเพื่อนบ้านใกล้ที่สุด เป็นอัลกอลิทึมที่ใช้ในการจัดกลุ่มข้อมูล โดยการจัดข้อมูลที่อยู่ใกล้กันให้เป็นกลุ่มเดียวกันซึ่งเทคนิคนี้จะทำให้ตัดสินใจได้ว่า คลาสไหนที่จะแทนเงื่อนไขหรือกรณีใหม่ๆได้บ้าง โดยการตรวจสอบจำนวน K ซึ่งถ้าหากเงื่อนไขของการตัดสินใจมีความซับซ้อน วิธีนี้สามารถสร้างโมเดลที่มีประสิทธิภาพได้ แต่ขั้นตอนวิธีการเพื่อนบ้านใกล้ที่สุดจะใช้ระยะเวลาในการคำนวณนาน ถ้าตัวแปร (Attribute) มีจำนวนมากจะเกิดปัญหาในการคำนวณค่า และค่อนข้างใช้ปริมาณงานในการคำนวณสูงมากบนคอมพิวเตอร์ เพราะเวลาที่ใช้สำหรับการคำนวณจะ เพิ่มขึ้นแบบแฟคทอเรียลตามจำนวนจุดทั้งหมด ดังนั้นเพื่อจะเพิ่มความรวดเร็วสำหรับเทคนิคขั้นตอนวิธีการเพื่อนบ้านใกล้ที่สุดให้มากขึ้น ข้อมูลทั้งหมดที่ใช้บ่อยจะต้องถูกเก็บไว้ในหน่วยความจำ (Memory) โดยวิธีการเข้าถึงหน่วยความจำพื้นฐานอย่างมีเหตุผล (Memory-Based Reasoning) ซึ่งจะเป็นวิธีที่นำมาอ้างถึงเป็นประจำ ในการจัดเก็บกลุ่มคลาสของขั้นตอนวิธีการเพื่อนบ้านใกล้ที่สุดในหน่วยความจำ และ ถ้าหากข้อมูลที่ต้องการหาคำตอบมีตัวแปรอิสระเพียงไม่กี่ตัวแล้ว จะทำให้เราสามารถเข้าใจ โมเดลขั้นตอนวิธีการเพื่อนบ้านใกล้ที่สุด ได้ง่ายขึ้น ตัวแปรเหล่านี้ยังมีประโยชน์สำหรับนำมาสร้างโมเดลต่างๆ ที่เกี่ยวข้องกับชนิดของข้อมูลที่ไม่เป็นมาตรฐาน เช่น ข้อความ (Text) เพียงแต่อาจต้องมีมาตรฐานการวัดค่าสำหรับชนิดของข้อมูลดังกล่าวที่เหมาะสมด้วย นอกจากนี้ประสิทธิภาพของขั้นตอนวิธีการเพื่อนบ้านใกล้ที่สุดนี้ จะขึ้นอยู่กับจำนวนระยะห่าง การอธิบายระหว่างข้อมูลทั้งคู่ ที่สามารถแบ่งแยกอย่างมีประสิทธิภาพระหว่างข้อมูลปกติ และข้อมูลผิดปกติ การอธิบายจำนวนระยะห่างระหว่างขอมูลเป็นความท้าทายอย่างมากเมื่อข้อมูลมีความซับซ้อน อย่างเช่น ข้อมูลกราฟ และข้อมูลแบบลำดับ เป็นต้น ปัญหาที่เกี่ยวข้องVideo ที่เกี่ยวข้อง
ดูเพิ่ม
อ้างอิง
แหล่งข้อมูล
|
Portal di Ensiklopedia Dunia