5.1
การวัดการกระจายของข้อมูล
การวัดการกระจายของข้อมูล (Measures of
Dispersion) จากความหมายการคำนวณและการใช้ค่ากลางชนิดต่าง ๆ
ถ้าพิจารณาให้ละเอียด จะเห็นว่าการทราบแต่เพียงค่ากลางของข้อมูลไม่เพียงพอที่จะอธิบายการแจกแจงของข้อมูลชุดนั้น
ค่ากลางแต่ละชนิดมิได้บอกให้ทราบว่า
ค่าจากการสังเกตทั้งหลายในข้อมูลชุดนั้นต่างจากค่ากลางมากน้อยเพียงใด
และค่าส่วนใหญ่อยู่ร่วมกลุ่มกันหรือกระจายออกไป สมมติว่า
คะแนนสอบวิชาหนึ่งของนักเรียน 2 ห้อง
ซึ่งใช้ข้อสอบชุดเดียวกันมีค่าเลขเฉลี่ยเลขคณิตเท่ากัน คือ 67 แต่
ห้องแรกมีคะแนนสูงสุด 72 และคะแนนต่ำสุด 62 ส่วนห้องหลังมีคะแนนสูงสุด 97
และคะแนนต่ำสุด 25 จะเห็นว่า คะแนนสูงสุดกับคะแนนต่ำสุดของห้องแรกต่างกันเพียง 10
คะแนน แต่ห้องหลังคะแนนต่างกันถึง 72 คะแนน
แสดงว่าหลังนี้มีการกระจายของคะแนนสูงกว่าห้องแรก ซึ่งอาจกล่าวได้ว่านักเรียนห้องแรกส่วนใหญ่สอบได้คะแนนใกล้เคียงกัน
แต่นักเรียนห้องหลังสอบได้คะแนนต่างกัน
เพื่อให้เห็นลักษณะของข้อมูลที่ชัดเจนขึ้นจึงจำเป็นต้องทราบทั้งค่ากลางและค่าซึ่งแสดงการกระจายของข้อมูลด้วย
5.2
วิธีการวัดการกระจายของข้อมูล
วิธีที่ใช้วัดการกระจายของข้อมูลมีอยู่ด้วยกันหลายวิธี
แต่วิธีที่นิยมใช้กันมีอยู่ 2 วิธี คือ พิสัย(Rage) และส่วนเบี่ยงเบนมาตรฐาน (Standard
Deviation)
5.2.1 พิสัย (Rage)
พิสัย คือ ค่าใช้วัดการกระจายที่ได้จากผลต่างระหว่างข้อมูลที่มีค่าสูงสุด
และข้อมูลที่มีค่าต่ำสุด
ถ้า x1,x2,x3,…,Xn เป็นค่าของข้อมูลชุดหนึ่ง
พิสัยของข้อมูลนี้เท่ากับ
พิสัย = Xmax
- Xmin หรือ พิสัย = ค่าสูงสุด-ค่าต่ำสุด
พิสัย คือ ผลต่างระหว่างขอบบนของอันตรภาคชั้นของข้อมูลที่มีค่าสูงสุดและขอบล่างของอันตรภาคชั้นของข้อมูลที่มีค่าต่ำสุด
ถ้าอันตรภาคชั้นแรกหรืออันตรภาคชั้นสุดท้าย
อันตรภาคชั้นใดชั้นหนึ่งหรือทั้งสองอันตรภาคชั้นเป็นอันตรภาคชั้นเปิด
ย่อมหาพิสัยไม่ได้
การวัดการกระจายโดยใช้พิสัยนี้ เป็นวิธีการกระจายอย่างคร่าวๆ
เพราะค่าที่ได้หามาจากค่าของข้อมูลเพียงสองค่าเท่านั้น ค่าอื่น ๆ ของข้อมูลไม่ได้นำมาใช้ในการคำนวณหาพิสัย
ดังนั้นถ้าค่าของข้อมูลใดข้อมูลหนึ่งมีค่ามากหรือน้อยผิดปกติจากค่าของข้อมูลอื่น ๆ
อาจมีผลทำให้การวัดการกระจายโดยใช้พิสัยมีค่าสูงกว่าที่ควรจะเป็นจริงมาก
ความถูกต้องที่ได้จากการวัดการกระจายโดยนี้จึงอาจมีน้อยเมื่อเปรียบเทียบกับการวัดการกระจายโดยวิธีอื่น
ๆ ที่ใช้ค่าของข้อมูลทั้งหมดที่มีอยู่ แต่การวัดการกระจายโดยใช้พิสัยมีข้อดีที่สามารถวัดได้รวดเร็ว
ส่วนใหญ่จึงมักใช้วัดการกระจายของข้อมูลในกรณีซึ่งไม่ต้องการความถูกต้องมากนัก
5.2.2
ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation)
การวัดการกระจายข้อมูลโดยใช้ส่วนเบี่ยงเบนมาตรฐาน
เป็นวิธีที่นักสถิติยอมรับว่าเป็นวิธีที่ใช้วัดการกระจายได้ดีที่สุด
เมื่อเปรียบเทียบกับวิธีการวัดการกระจายโดยใช้พิสัย
ทั้งนี้เนื่องจากการวัดการกระจายโดยวิธีนี้ใช้ข้อมูลทุก ๆ ค่า
หรือมีตัวแทนของข้อมูลทุกค่ามาคำนวณ
และขจัดปัญหาในการที่ต้องใช้ค่าสัมบูรณ์ให้หมดไป
การวัดการกระจายโดยวิธีนี้นอกจากจะได้ค่ากระจายที่มีความละเอียดถูกต้องและเชื่อถือได้มากที่สุดแล้ว
ยังสามารถนำไปใช้ในการวิเคราะห์ข้อมูลสถิติใชชั้นสูงต่อไป
ซึ่งการวัดการกระจายข้อมูลแบบอื่นนำไปใช้ไม่ได้
1. การหาส่วนเบี่ยงเบนมาตรฐานของข้อมูลที่ไม่ได้แจกแจงความถี่
ถ้า X1,
X2, X3,…,Xn เป็นข้อมูลของประชากร N หน่วย และมีค่าเฉลี่ยเลขคณิตเป็น µแล้ว
ส่วนเบี่ยงเบนมาตรฐานของประชากร หรือ (อ่านว่า Sigma)
โดยที่
µ แทนค่าเฉลี่ยเลขคณิตของประชากร
และ N แทนจำนวนข้อมูลทั้งหมดของประชากร
นอกจากการใช้สัญลักษณ์
แล้ว อาจใช้สัญลักษณ์ S.D. หรือ s ในกรณีที่ไม่สามารถศึกษาข้อมูลทั้งหมดของประชากร
และข้อมูลที่ใช้เป็นข้อมูลจากตัวอย่างซึ่งเป็นตัวแทนของประชากรแล้ว
ส่วนเบี่ยงเบนมาตรฐานของตัวอย่าง
(Sample
Standard Deviation หรือ s ) ซึ่งใช้เป็นตัวประมาณของ
คำนวณได้ดังนี้
รูปสมการ
โดยที่ × แทนค่าเฉลี่ยเลขคณิตของตัวอย่าง
และ n แทนจำนวนข้อมูลทั้งหมดของตัวอย่าง
อนึ่งในทางปฏิบัติ
ข้อมูลที่มักใช้เป็นข้อมูลที่เป็นตัวอย่างของประชากรจึงนิยมใช้สูตร sแทน เพราะโดยทั่วไปไม่ทราบค่า
ดังนั้นในการวิเคราะห์ข้อมูลเชิงสถิติจึงนิยมใช้ s เป็นตัวประมาณของ อยู่เสมอ
อย่างไรก็ตามในเบื้องต้น
อาจทราบเพียงว่าสูตรการคำนวณส่วนเบี่ยงเบนมาตรฐานของตัวอย่างมีตัวหาร 2 แบบ คือ แบบที่หารด้วย n-1 และแบบที่หารด้วย n เช่น ที่เห็นได้จากสูตรบนเครื่องคิดเลขบางเครื่องที่อาจใช้สัญลักษณ์ n-1 และ n ตามลำดับ การหารด้วย n-1 จะให้ค่า S.D. หรือ sข้างต้นสูงกว่าค่าของ s ที่ใช้ตัวหารเป็น n และการหารด้วย n-1 ยังสนับสนุนการอนุมานหรือการอ้างอิงเชิงสถิติ(Statistic
Inference) ในเรื่องสมบัติต่าง ๆ ของตัวประมาณ ถ้าสูตรของ s ที่ใช้ตัวหาร 2 แบบนี้
ให้ผลลัพธ์ต่างกันมาก อาจบอกได้ว่าขนาดตัวอย่างที่ใช้เล็กเกินไป
และถ้าขนาดตัวอย่างมากขึ้น ผลลัพธ์ดังกล่าวจะใกล้เคียงกัน
ดังนั้นเมื่อตัวอย่างมีขนาดใหญ่มากหรือในระดับประชากรค่าที่คำนวณได้จากสูตร 2 สูตรมีค่าไม่ต่างกัน ในทางปฏิบัติจึงนิยมใช้สูตรที่มีตัวหาร n-1 มากกว่าใช้ n
2.
การหาส่วนเบี่ยงเบนมาตรฐานของข้อมูลตัวอย่างที่แจกแจงความถี่แล้ว
การหาส่วนเบี่ยงเบนมาตรฐาน (s) จากข้อมูลตัวอย่างของข้อมูลที่มีจำนวนมากหรือน้อยก็ตาม
ทำได้ทำนองเดียวกันกับกรณีของข้อมูลที่ไม่แจกแจงความถี่
ซึ่งค่าที่จะได้เป็นค่าประมาณและในปัจจุบันถ้ามีข้อมูลดิบทุกหน่วย (ข้อมูลของแต่ละหน่วยที่ยังไม่ได้แจกแจงความถี่) จะสามารถใช้เครื่องคอมพิวเตอร์ช่วยคำนวณได้สะดวก ไม่ว่าข้อมูลจะมีจำนวนมากหรือน้อยเพียงไร
อย่างก็ตามถ้ามีกรณีที่ข้อมูลไม่ใช่ข้อมูลดิบทุกหน่วย
แต่เป็นข้อมูลที่มาจากแหล่งทุติยภูมิอื่น ๆ
ซึ่งข้อมูลมีการแจกแจงความถี่เป็นอันตรภาคชั้นหรือเป็นกลุ่มมาแล้ว สามารถใช้สูตรการหาส่วนเบี่ยงเบนมาตรฐาน
โดยที่ X แทนค่าเฉลี่ยเลขคณิตจากข้อมูลตัวอย่าง
N แทนจำนวนตัวอย่างทั้งหมด
K แทนจำนวนอันตรภาคชั้นหรือจำนวนกลุ่ม
Xi แทนจุดกึ่งกลางของอันตรภาคชั้นที่ i
ความแปรปรวนของตัวอย่าง (Sample Variance)
ความแปรปรวนตัวอย่างทั้งกรณีไม่แจกแจงความถี่และแจกแจงความถี่ คือ
กำลังสองของส่วนเบี่ยงเบนมาตรฐานของข้อมูล
สรุปสัญลักษณ์ที่เกี่ยวข้องกับค่าเฉลี่ยเลขคณิต
ส่วนเบี่ยงเบนมาตรฐาน และจำนวนข้อมูลที่ใช้เป็นดังนี้
ประชากร (พารามิเตอร์)
ตัวอย่าง(ตัวประมาณ)
|
ค่าเฉลี่ยเลขคณิต
µ
X
ส่วนเบี่ยงเบน
s หรือ S.D.
จำนวนข้อมูล N
n
|
5.3 ค่ามาตรฐาน
ค่ามาตรฐาน หมายถึง
การเปรียบเทียบค่าของข้อมูลตั้งแต่สองค่าขึ้นไปที่มาจากข้อมูลคนละชุดมีความแตกต่างกันหรือไม่เพียงไร
อาจมีมาตราวัดที่แตกต่างกันหรือมีหน่วยต่างกัน
บางครั้งไม่สามารถเปรียบเทียบโดยตรงได้
ทั้งนี้เนื่องจากค่าเฉลี่ยเลขคณิตของข้อมูลแต่ละชุดและส่วนเบี่ยงเบนมาตรฐานมักจะไม่เท่ากัน
เช่น ต้องการเปรียบเทียบผลการเรียนวิชาภาษาอังกฤษและวิชาคณิตศาสตร์ของนักเรียนคนใดคนหนึ่งในชั้นว่าเรียนวิชาไหนดีกว่ากัน
แม้ว่าจะทำได้โดยดูจากคะแนนสอบของวิชาทั้งสองโดยปรับให้มีคะแนนเต็มเท่ากัน
ถ้าคะแนนสอบของวิชาใดดีกว่าก็สรุปผลว่านักเรียนคนนั้นเรียนวิชานั้นได้ดีกว่า
ซึ่งจะเห็นได้ว่าเป็นการสรุปผลที่ยังไม่ถูกต้องนักเพราะค่าเฉลี่ยเลขคณิต
หรือส่วนเบี่ยงเบนมาตรฐานของคะแนนสอบวิชาทั้งสองของนักเรียนทั้งหมดในชั้นอาจจะไม่เท่ากัน
ทั้งนี้อาจจะเนื่องมาจากเนื้อหาหรือข้อสอบของทั้งสองวิชามีความยากง่ายต่างกัน
หรือครูผู้สอนแต่ละวิชามีวิธีการสอนที่จะทำให้นักเรียนมีความเข้าใจในวิชานั้นๆ
ต่างกัน เป็นต้น ดั้งนั้นเพื่อที่จะให้การเปรียบเทียบมีความถูกต้องมากขึ้น
จึงมีความจำเป็นต้องแปลงคะแนนของวิชาทั้งสองที่นักเรียนคนนั้นสอบได้ให้เป็นคะแนนมาตรฐานหรือค่ามาตรฐาน(ซึ่งมีค่าเฉลี่ยเลขคณิตแต่ละส่วนเบี่ยงเบนมาตรฐานเท่ากันเสียก่อน) โดยใช้สูตรค่ามาตรฐานแล้วจึงเปรียบเทียบคะแนนวิชาทั้งสอง
การแปลงค่าข้อมูลของตัวแปรแต่ละตัวให้เป็นค่ามาตรฐานนี้โดยทั่วไปคือ
การเปลี่ยนแปลงข้อมูลให้เป็นค่ามาตรฐานที่มีค่าเฉลี่ยเลขคณิตเท่ากับ 0
และส่วนเบี่ยงเบนมาตรฐานเท่ากับ 1