วันอาทิตย์ที่ 17 กุมภาพันธ์ พ.ศ. 2562

5.1 การวัดการกระจายของข้อมูล
       การวัดการกระจายของข้อมูล (Measures of Dispersion) จากความหมายการคำนวณและการใช้ค่ากลางชนิดต่าง ๆ ถ้าพิจารณาให้ละเอียด จะเห็นว่าการทราบแต่เพียงค่ากลางของข้อมูลไม่เพียงพอที่จะอธิบายการแจกแจงของข้อมูลชุดนั้น ค่ากลางแต่ละชนิดมิได้บอกให้ทราบว่า ค่าจากการสังเกตทั้งหลายในข้อมูลชุดนั้นต่างจากค่ากลางมากน้อยเพียงใด และค่าส่วนใหญ่อยู่ร่วมกลุ่มกันหรือกระจายออกไป สมมติว่า คะแนนสอบวิชาหนึ่งของนักเรียน 2 ห้อง ซึ่งใช้ข้อสอบชุดเดียวกันมีค่าเลขเฉลี่ยเลขคณิตเท่ากัน คือ 67 แต่ ห้องแรกมีคะแนนสูงสุด 72 และคะแนนต่ำสุด 62 ส่วนห้องหลังมีคะแนนสูงสุด 97 และคะแนนต่ำสุด 25 จะเห็นว่า คะแนนสูงสุดกับคะแนนต่ำสุดของห้องแรกต่างกันเพียง 10 คะแนน แต่ห้องหลังคะแนนต่างกันถึง 72 คะแนน แสดงว่าหลังนี้มีการกระจายของคะแนนสูงกว่าห้องแรก ซึ่งอาจกล่าวได้ว่านักเรียนห้องแรกส่วนใหญ่สอบได้คะแนนใกล้เคียงกัน แต่นักเรียนห้องหลังสอบได้คะแนนต่างกัน เพื่อให้เห็นลักษณะของข้อมูลที่ชัดเจนขึ้นจึงจำเป็นต้องทราบทั้งค่ากลางและค่าซึ่งแสดงการกระจายของข้อมูลด้วย
5.2 วิธีการวัดการกระจายของข้อมูล
       วิธีที่ใช้วัดการกระจายของข้อมูลมีอยู่ด้วยกันหลายวิธี แต่วิธีที่นิยมใช้กันมีอยู่ 2 วิธี คือ พิสัย(Rage) และส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation)
5.2.1 พิสัย (Rage)
         พิสัย คือ ค่าใช้วัดการกระจายที่ได้จากผลต่างระหว่างข้อมูลที่มีค่าสูงสุด และข้อมูลที่มีค่าต่ำสุด
        ถ้า x1,x2,x3,…,Xn เป็นค่าของข้อมูลชุดหนึ่ง พิสัยของข้อมูลนี้เท่ากับ
        พิสัย   =   Xmax   -   Xmin  หรือ   พิสัย  =  ค่าสูงสุด-ค่าต่ำสุด
        พิสัย คือ ผลต่างระหว่างขอบบนของอันตรภาคชั้นของข้อมูลที่มีค่าสูงสุดและขอบล่างของอันตรภาคชั้นของข้อมูลที่มีค่าต่ำสุด
        ถ้าอันตรภาคชั้นแรกหรืออันตรภาคชั้นสุดท้าย อันตรภาคชั้นใดชั้นหนึ่งหรือทั้งสองอันตรภาคชั้นเป็นอันตรภาคชั้นเปิด ย่อมหาพิสัยไม่ได้
        การวัดการกระจายโดยใช้พิสัยนี้ เป็นวิธีการกระจายอย่างคร่าวๆ เพราะค่าที่ได้หามาจากค่าของข้อมูลเพียงสองค่าเท่านั้น ค่าอื่น ๆ  ของข้อมูลไม่ได้นำมาใช้ในการคำนวณหาพิสัย ดังนั้นถ้าค่าของข้อมูลใดข้อมูลหนึ่งมีค่ามากหรือน้อยผิดปกติจากค่าของข้อมูลอื่น ๆ  อาจมีผลทำให้การวัดการกระจายโดยใช้พิสัยมีค่าสูงกว่าที่ควรจะเป็นจริงมาก ความถูกต้องที่ได้จากการวัดการกระจายโดยนี้จึงอาจมีน้อยเมื่อเปรียบเทียบกับการวัดการกระจายโดยวิธีอื่น ๆ ที่ใช้ค่าของข้อมูลทั้งหมดที่มีอยู่ แต่การวัดการกระจายโดยใช้พิสัยมีข้อดีที่สามารถวัดได้รวดเร็ว ส่วนใหญ่จึงมักใช้วัดการกระจายของข้อมูลในกรณีซึ่งไม่ต้องการความถูกต้องมากนัก
5.2.2 ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation)
        การวัดการกระจายข้อมูลโดยใช้ส่วนเบี่ยงเบนมาตรฐาน เป็นวิธีที่นักสถิติยอมรับว่าเป็นวิธีที่ใช้วัดการกระจายได้ดีที่สุด เมื่อเปรียบเทียบกับวิธีการวัดการกระจายโดยใช้พิสัย ทั้งนี้เนื่องจากการวัดการกระจายโดยวิธีนี้ใช้ข้อมูลทุก ๆ ค่า หรือมีตัวแทนของข้อมูลทุกค่ามาคำนวณ และขจัดปัญหาในการที่ต้องใช้ค่าสัมบูรณ์ให้หมดไป การวัดการกระจายโดยวิธีนี้นอกจากจะได้ค่ากระจายที่มีความละเอียดถูกต้องและเชื่อถือได้มากที่สุดแล้ว ยังสามารถนำไปใช้ในการวิเคราะห์ข้อมูลสถิติใชชั้นสูงต่อไป ซึ่งการวัดการกระจายข้อมูลแบบอื่นนำไปใช้ไม่ได้
1.     การหาส่วนเบี่ยงเบนมาตรฐานของข้อมูลที่ไม่ได้แจกแจงความถี่
ถ้า X1,  X2,  X3,…,Xn  เป็นข้อมูลของประชากร N หน่วย และมีค่าเฉลี่ยเลขคณิตเป็น µแล้ว ส่วนเบี่ยงเบนมาตรฐานของประชากร หรือ (อ่านว่า Sigma) 
โดยที่   µ  แทนค่าเฉลี่ยเลขคณิตของประชากร
และ     N  แทนจำนวนข้อมูลทั้งหมดของประชากร
นอกจากการใช้สัญลักษณ์    แล้ว อาจใช้สัญลักษณ์ S.D. หรือ s ในกรณีที่ไม่สามารถศึกษาข้อมูลทั้งหมดของประชากร และข้อมูลที่ใช้เป็นข้อมูลจากตัวอย่างซึ่งเป็นตัวแทนของประชากรแล้ว ส่วนเบี่ยงเบนมาตรฐานของตัวอย่าง
(Sample Standard Deviation หรือ s ) ซึ่งใช้เป็นตัวประมาณของ   คำนวณได้ดังนี้
รูปสมการ
โดยที่  ×  แทนค่าเฉลี่ยเลขคณิตของตัวอย่าง
และ   n   แทนจำนวนข้อมูลทั้งหมดของตัวอย่าง
อนึ่งในทางปฏิบัติ ข้อมูลที่มักใช้เป็นข้อมูลที่เป็นตัวอย่างของประชากรจึงนิยมใช้สูตร sแทน    เพราะโดยทั่วไปไม่ทราบค่า  ดังนั้นในการวิเคราะห์ข้อมูลเชิงสถิติจึงนิยมใช้ s เป็นตัวประมาณของ     อยู่เสมอ
        อย่างไรก็ตามในเบื้องต้น อาจทราบเพียงว่าสูตรการคำนวณส่วนเบี่ยงเบนมาตรฐานของตัวอย่างมีตัวหาร 2 แบบ คือ แบบที่หารด้วย n-1 และแบบที่หารด้วย n เช่น ที่เห็นได้จากสูตรบนเครื่องคิดเลขบางเครื่องที่อาจใช้สัญลักษณ์ n-1 และ  n ตามลำดับ การหารด้วย n-1 จะให้ค่า S.D. หรือ  sข้างต้นสูงกว่าค่าของ s ที่ใช้ตัวหารเป็น n และการหารด้วย n-1 ยังสนับสนุนการอนุมานหรือการอ้างอิงเชิงสถิติ(Statistic Inference) ในเรื่องสมบัติต่าง ๆ ของตัวประมาณ ถ้าสูตรของ s ที่ใช้ตัวหาร 2 แบบนี้ ให้ผลลัพธ์ต่างกันมาก อาจบอกได้ว่าขนาดตัวอย่างที่ใช้เล็กเกินไป และถ้าขนาดตัวอย่างมากขึ้น ผลลัพธ์ดังกล่าวจะใกล้เคียงกัน ดังนั้นเมื่อตัวอย่างมีขนาดใหญ่มากหรือในระดับประชากรค่าที่คำนวณได้จากสูตร 2 สูตรมีค่าไม่ต่างกัน ในทางปฏิบัติจึงนิยมใช้สูตรที่มีตัวหาร n-1 มากกว่าใช้ n                             
2. การหาส่วนเบี่ยงเบนมาตรฐานของข้อมูลตัวอย่างที่แจกแจงความถี่แล้ว
การหาส่วนเบี่ยงเบนมาตรฐาน (s) จากข้อมูลตัวอย่างของข้อมูลที่มีจำนวนมากหรือน้อยก็ตาม ทำได้ทำนองเดียวกันกับกรณีของข้อมูลที่ไม่แจกแจงความถี่ ซึ่งค่าที่จะได้เป็นค่าประมาณและในปัจจุบันถ้ามีข้อมูลดิบทุกหน่วย (ข้อมูลของแต่ละหน่วยที่ยังไม่ได้แจกแจงความถี่จะสามารถใช้เครื่องคอมพิวเตอร์ช่วยคำนวณได้สะดวก ไม่ว่าข้อมูลจะมีจำนวนมากหรือน้อยเพียงไร อย่างก็ตามถ้ามีกรณีที่ข้อมูลไม่ใช่ข้อมูลดิบทุกหน่วย แต่เป็นข้อมูลที่มาจากแหล่งทุติยภูมิอื่น ๆ ซึ่งข้อมูลมีการแจกแจงความถี่เป็นอันตรภาคชั้นหรือเป็นกลุ่มมาแล้ว สามารถใช้สูตรการหาส่วนเบี่ยงเบนมาตรฐาน
โดยที่ X  แทนค่าเฉลี่ยเลขคณิตจากข้อมูลตัวอย่าง
        N แทนจำนวนตัวอย่างทั้งหมด
        K แทนจำนวนอันตรภาคชั้นหรือจำนวนกลุ่ม
        Xi แทนจุดกึ่งกลางของอันตรภาคชั้นที่ i
        ความแปรปรวนของตัวอย่าง (Sample Variance)
        ความแปรปรวนตัวอย่างทั้งกรณีไม่แจกแจงความถี่และแจกแจงความถี่ คือ กำลังสองของส่วนเบี่ยงเบนมาตรฐานของข้อมูล
สรุปสัญลักษณ์ที่เกี่ยวข้องกับค่าเฉลี่ยเลขคณิต ส่วนเบี่ยงเบนมาตรฐาน และจำนวนข้อมูลที่ใช้เป็นดังนี้
                      ประชากร (พารามิเตอร์)                    ตัวอย่าง(ตัวประมาณ)
ค่าเฉลี่ยเลขคณิต                   µ                                           X
ส่วนเบี่ยงเบน                                                              s  หรือ   S.D.
จำนวนข้อมูล                        N                                           n
5.3 ค่ามาตรฐาน
        ค่ามาตรฐาน หมายถึง การเปรียบเทียบค่าของข้อมูลตั้งแต่สองค่าขึ้นไปที่มาจากข้อมูลคนละชุดมีความแตกต่างกันหรือไม่เพียงไร อาจมีมาตราวัดที่แตกต่างกันหรือมีหน่วยต่างกัน
        บางครั้งไม่สามารถเปรียบเทียบโดยตรงได้ ทั้งนี้เนื่องจากค่าเฉลี่ยเลขคณิตของข้อมูลแต่ละชุดและส่วนเบี่ยงเบนมาตรฐานมักจะไม่เท่ากัน เช่น ต้องการเปรียบเทียบผลการเรียนวิชาภาษาอังกฤษและวิชาคณิตศาสตร์ของนักเรียนคนใดคนหนึ่งในชั้นว่าเรียนวิชาไหนดีกว่ากัน แม้ว่าจะทำได้โดยดูจากคะแนนสอบของวิชาทั้งสองโดยปรับให้มีคะแนนเต็มเท่ากัน ถ้าคะแนนสอบของวิชาใดดีกว่าก็สรุปผลว่านักเรียนคนนั้นเรียนวิชานั้นได้ดีกว่า ซึ่งจะเห็นได้ว่าเป็นการสรุปผลที่ยังไม่ถูกต้องนักเพราะค่าเฉลี่ยเลขคณิต หรือส่วนเบี่ยงเบนมาตรฐานของคะแนนสอบวิชาทั้งสองของนักเรียนทั้งหมดในชั้นอาจจะไม่เท่ากัน ทั้งนี้อาจจะเนื่องมาจากเนื้อหาหรือข้อสอบของทั้งสองวิชามีความยากง่ายต่างกัน หรือครูผู้สอนแต่ละวิชามีวิธีการสอนที่จะทำให้นักเรียนมีความเข้าใจในวิชานั้นๆ ต่างกัน เป็นต้น ดั้งนั้นเพื่อที่จะให้การเปรียบเทียบมีความถูกต้องมากขึ้น จึงมีความจำเป็นต้องแปลงคะแนนของวิชาทั้งสองที่นักเรียนคนนั้นสอบได้ให้เป็นคะแนนมาตรฐานหรือค่ามาตรฐาน(ซึ่งมีค่าเฉลี่ยเลขคณิตแต่ละส่วนเบี่ยงเบนมาตรฐานเท่ากันเสียก่อนโดยใช้สูตรค่ามาตรฐานแล้วจึงเปรียบเทียบคะแนนวิชาทั้งสอง การแปลงค่าข้อมูลของตัวแปรแต่ละตัวให้เป็นค่ามาตรฐานนี้โดยทั่วไปคือ การเปลี่ยนแปลงข้อมูลให้เป็นค่ามาตรฐานที่มีค่าเฉลี่ยเลขคณิตเท่ากับ 0 และส่วนเบี่ยงเบนมาตรฐานเท่ากับ 1