การรวบรวมชุดการเปลี่ยนแปลง แนวคิดของชุดรูปแบบต่างๆ ประเภทของชุดรูปแบบต่างๆ ตัวอย่างชุดรูปแบบต่างๆ
ชุดของวัตถุหรือปรากฏการณ์ที่รวมกันโดยคุณสมบัติหรือคุณสมบัติทั่วไปบางอย่างของธรรมชาติเชิงคุณภาพหรือเชิงปริมาณเรียกว่า วัตถุประสงค์ของการสังเกต .
ทุกวัตถุของการสังเกตทางสถิติประกอบด้วยองค์ประกอบที่แยกจากกัน - หน่วยสังเกตการณ์ .
ผลการสังเกตทางสถิติเป็นข้อมูลตัวเลข - ข้อมูล . ข้อมูลสถิติ - นี่คือข้อมูลเกี่ยวกับคุณค่าของคุณลักษณะที่น่าสนใจของผู้วิจัยในประชากรทางสถิติ
หากค่าของคุณสมบัติแสดงเป็นตัวเลข แสดงว่าคุณสมบัตินั้นเรียกว่า เชิงปริมาณ .
หากจุดสนใจมีลักษณะเฉพาะของคุณสมบัติหรือสถานะขององค์ประกอบของชุด แสดงว่าคุณสมบัตินั้นเรียกว่า คุณภาพ .
หากองค์ประกอบทั้งหมดของประชากรอยู่ภายใต้การวิจัย (การสังเกตอย่างต่อเนื่อง) ประชากรทางสถิติจะเรียกว่า ทั่วไป.
หากส่วนหนึ่งขององค์ประกอบของประชากรทั่วไปอยู่ภายใต้การวิจัย ประชากรทางสถิติจะเรียกว่า ตัวอย่าง (ตัวอย่าง) ... กลุ่มตัวอย่างจากประชากรทั่วไปจะถูกสุ่มขึ้นมาเพื่อให้แต่ละองค์ประกอบตัวอย่างมีโอกาสถูกเลือกเท่ากัน
ค่าของการเปลี่ยนแปลงแอตทริบิวต์ (แตกต่างกันไป) เมื่อย้ายจากองค์ประกอบหนึ่งของประชากรไปยังอีกองค์ประกอบหนึ่งดังนั้นในสถิติจึงเรียกว่าค่าต่าง ๆ ของแอตทริบิวต์ ตัวเลือก ... ตัวแปรต่างๆ มักจะกำหนดด้วยตัวอักษรละตินตัวเล็ก x, y, z
หมายเลขลำดับของตัวแปร (ค่าลักษณะ) เรียกว่า อันดับ ... x 1 - ตัวเลือกที่ 1 (ค่าฟีเจอร์ที่ 1), x 2 - ตัวเลือกที่ 2 (ค่าฟีเจอร์ที่ 2), x i - ตัวเลือกที่ i (ค่าฟีเจอร์ที่ i)
ชุดของค่าแอตทริบิวต์ (ตัวแปร) ที่เรียงลำดับจากน้อยไปมากหรือจากมากไปหาน้อยโดยมีน้ำหนักที่สอดคล้องกันเรียกว่า ชุดรูปแบบต่างๆ (ชุดการกระจาย)
เนื่องจาก ตาชั่ง ความถี่หรือความถี่ออกมา
ความถี่(m i) แสดงจำนวนครั้งที่ตัวเลือกหนึ่งๆ (ค่าคุณลักษณะ) เกิดขึ้นในประชากรทางสถิติ
ความถี่หรือความถี่สัมพัทธ์(w i) แสดงว่าส่วนใดของหน่วยประชากรที่มีตัวแปรนี้หรือตัวแปรนั้น ความถี่คำนวณเป็นอัตราส่วนของความถี่ของตัวเลือกใดตัวเลือกหนึ่งต่อผลรวมของความถี่ทั้งหมดในอนุกรม
. (6.1)
ผลรวมของความถี่ทั้งหมดคือ 1
. (6.2)
ชุดตัวแปรเป็นแบบไม่ต่อเนื่องและเป็นช่วง
ซีรีส์แบบแยกส่วนพวกเขามักจะถูกสร้างขึ้นหากค่าของลักษณะภายใต้การศึกษาสามารถแตกต่างกันอย่างน้อยค่าจำกัดบางอย่าง
ในซีรีย์รูปแบบที่ไม่ต่อเนื่อง ค่าจุดของคุณสมบัติจะถูกตั้งค่า
มุมมองทั่วไปของชุดรูปแบบที่ไม่ต่อเนื่องแสดงในตารางที่ 6.1
ตาราง 6.1
โดยที่ i = 1, 2, ..., ล.
ในอนุกรมความแปรผันของช่วงเวลาในแต่ละช่วงเวลา ขอบเขตบนและล่างของช่วงเวลาจะแตกต่างออกไป
ความแตกต่างระหว่างขอบเขตบนและล่างของช่วงเวลาเรียกว่า ความแตกต่างของช่วงเวลา หรือ ความยาว (ค่า) ของช่วงเวลา .
ค่าของช่วงแรก k 1 ถูกกำหนดโดยสูตร:
k 1 = 2 - 1;
วินาที: k 2 = 3 - 2; ...
สุดท้าย: k l = แอล - แอล -1
โดยทั่วไป ความแตกต่างของช่วงเวลา ki คำนวณโดยสูตร:
ki = x i (สูงสุด) - x i (ต่ำสุด) (6.3)
ถ้าช่วงมีขอบเขตทั้งสอง เรียกว่า ปิด .
ช่วงเวลาแรกและช่วงสุดท้ายสามารถเป็น เปิด , เช่น. มีเส้นขอบเดียวเท่านั้น
ตัวอย่างเช่น ช่วงแรกสามารถระบุเป็น "สูงสุด 100", ช่วงที่สอง - "100-110", ..., ช่วงสุดท้าย - "190-200", ช่วงสุดท้าย - "200 หรือมากกว่า" เห็นได้ชัดว่าช่วงแรกไม่มีขอบล่าง และช่วงสุดท้ายไม่มีช่วงบน ทั้งคู่เปิดอยู่
บ่อยครั้ง ช่วงเวลาเปิดต้องปิดอย่างมีเงื่อนไข สำหรับสิ่งนี้ ค่าของช่วงแรกมักจะเท่ากับค่าของช่วงที่สอง และค่าของช่วงสุดท้าย - ค่าของช่วงสุดท้าย ในตัวอย่างของเรา ค่าของช่วงที่สองคือ 110-100 = 10 ดังนั้น ขีดจำกัดล่างของช่วงแรกจะเป็น 100-10 = 90 ตามเงื่อนไข ค่าของช่วงสุดท้ายคือ 200-190 = 10 ดังนั้น ขีดจำกัดบนของช่วงสุดท้ายจะเป็น 200 + 10 = 210 ตามเงื่อนไข
นอกจากนี้ ช่วงเวลาของความยาวต่างกันสามารถเกิดขึ้นได้ในอนุกรมการแปรผันของช่วงเวลา หากช่วงห่างในอนุกรมความแปรผันมีความยาวเท่ากัน (ความแตกต่างของช่วงเวลา) จะเรียกว่า เท่ากัน , มิฉะนั้น - ไม่เท่ากัน
เมื่อสร้างอนุกรมการแปรผันของช่วงเวลา ปัญหาในการเลือกขนาดของช่วงเวลา (ความแตกต่างของช่วงเวลา) มักเกิดขึ้น
ในการกำหนดขนาดที่เหมาะสมที่สุดของช่วงเวลา (ในกรณีที่ซีรีส์ถูกสร้างขึ้นด้วยช่วงเวลาเท่ากัน) ให้ใช้ สูตรของสเตอร์เกส:
, (6.4)
โดยที่ n คือจำนวนหน่วยในประชากร
x (สูงสุด) และ x (ต่ำสุด) - ค่าที่ใหญ่ที่สุดและน้อยที่สุดของตัวเลือกชุดข้อมูล
ในการอธิบายลักษณะอนุกรมการแปรผันพร้อมกับความถี่และความถี่ ความถี่และความถี่สะสมจะถูกใช้
ความถี่สะสม (ความถี่)แสดงจำนวนหน่วยประชากร (ส่วนใด) ที่ไม่เกินค่าที่กำหนด (ตัวเลือก) x
ความถี่สะสม ( วี) ตามข้อมูลของอนุกรมแบบไม่ต่อเนื่องสามารถคำนวณได้โดยใช้สูตรดังนี้
. (6.5)
สำหรับชุดค่าความผันแปรตามช่วงเวลา เป็นผลรวมของความถี่ (ความถี่) ของช่วงทั้งหมดไม่เกินค่านี้
ชุดรูปแบบที่ไม่ต่อเนื่องสามารถแสดงแบบกราฟิกได้โดยใช้ รูปหลายเหลี่ยมความถี่หรือการกระจายความถี่.
เมื่อสร้างรูปหลายเหลี่ยมการกระจาย ค่าของคุณสมบัติ (ตัวแปร) จะถูกพล็อตตามแกน abscissa และความถี่หรือความถี่จะถูกพล็อตตามแกนพิกัด ที่จุดตัดของค่าของแอตทริบิวต์และความถี่ที่สอดคล้องกัน (ความถี่) จะมีการวางจุดซึ่งในทางกลับกันจะเชื่อมต่อกันด้วยเซ็กเมนต์ เส้นที่เสียที่ได้เรียกว่ารูปหลายเหลี่ยมการกระจายความถี่ (ความถี่)
|
|
|
ข้าว. 6.1.
ชุดรูปแบบช่วงเวลาสามารถแสดงแบบกราฟิกได้โดยใช้ ฮิสโตแกรม, เช่น. แผนภูมิแท่ง.
เมื่อสร้างฮิสโตแกรม ค่าของคุณลักษณะที่ศึกษา (ขอบเขตของช่วงเวลา) จะถูกพล็อตตามแกน abscissa
ในกรณีที่ช่วงห่างมีขนาดเท่ากัน สามารถพล็อตความถี่หรือความถี่ตามแกนพิกัดได้
หากช่วงเวลามีค่าต่างกัน ค่าของความหนาแน่นของการแจกแจงแบบสัมบูรณ์หรือแบบสัมพัทธ์ควรพล็อตตามแกนพิกัด
ความหนาแน่นสัมบูรณ์- อัตราส่วนของความถี่ของช่วงเวลาต่อค่าของช่วงเวลา:
; (6.6)
โดยที่: f (a) i คือความหนาแน่นสัมบูรณ์ของช่วง i-th;
ม. ผม - ความถี่ของช่วงที่ i;
ki - ค่าของช่วงที่ i (ความแตกต่างของช่วงเวลา)
ความหนาแน่นสัมบูรณ์แสดงจำนวนหน่วยของประชากรต่อช่วงหนึ่งหน่วย
ความหนาแน่นสัมพัทธ์- อัตราส่วนของความถี่ของช่วงเวลาต่อค่าของช่วงเวลา:
; (6.7)
โดยที่: f (o) i คือความหนาแน่นสัมพัทธ์ของช่วง i-th;
w ผม - ความถี่ของช่วงที่ i
ความหนาแน่นสัมพัทธ์แสดงจำนวนหน่วยประชากรที่อยู่ในหน่วยช่วงเวลา
|
|
|
อนุกรมความแปรผันทั้งแบบแยกส่วนและแบบตามช่วงเวลาสามารถแสดงแบบกราฟิกเป็นแบบสะสมและแบบแยกส่วนได้
เมื่อสร้าง สะสมตามข้อมูลของอนุกรมที่ไม่ต่อเนื่อง ค่าของคุณสมบัติ (ตัวแปร) จะถูกพล็อตตาม abscissa และความถี่หรือความถี่ที่สะสมจะถูกพล็อตตามพิกัด ที่จุดตัดของค่าของคุณสมบัติ (ตัวเลือก) และความถี่สะสมที่สอดคล้องกัน (ความถี่) จะสร้างจุดซึ่งในทางกลับกันจะเชื่อมต่อกันด้วยส่วนหรือส่วนโค้ง เส้นหักที่เกิดขึ้น (เส้นโค้ง) เรียกว่าเส้นสะสม (เส้นโค้งสะสม)
เมื่อสร้างการสะสมตามข้อมูลของอนุกรมช่วงเวลา ขอบเขตของช่วงเวลาจะถูกพล็อตตามแกน abscissa abscissas ของจุดคือขอบเขตบนของช่วงเวลา พิกัดสร้างความถี่สะสม (ความถี่) ของช่วงที่สอดคล้องกัน มักจะมีการเพิ่มจุดหนึ่งซึ่ง abscissa ซึ่งเป็นขอบเขตล่างของช่วงแรกและการกำหนดเป็นศูนย์ เชื่อมต่อจุดกับส่วนหรือส่วนโค้ง เราจะได้ค่าสะสม
โอกิวาถูกสร้างขึ้นคล้ายกับการสะสมโดยมีความแตกต่างเพียงอย่างเดียวที่จุดที่สอดคล้องกับความถี่สะสม (ชิ้นส่วน) จะถูกพล็อตบนแกน abscissa และค่าแอตทริบิวต์ (ตัวแปร) จะถูกพล็อตตามแกนพิกัด
อันเป็นผลมาจากการเรียนรู้บทนี้ นักเรียนจะต้อง: ทราบ
- ตัวชี้วัดความผันแปรและความสัมพันธ์
- กฎพื้นฐานของการกระจายคุณลักษณะ
- สาระสำคัญของเกณฑ์ความยินยอม สามารถ
- คำนวณตัวชี้วัดความผันแปรและเกณฑ์ความเหมาะสม
- กำหนดลักษณะของการแจกแจง;
- เพื่อประเมินลักษณะเชิงตัวเลขหลักของอนุกรมการแจกแจงทางสถิติ
เป็นเจ้าของ
- วิธีการวิเคราะห์ทางสถิติของอนุกรมการแจกแจง
- พื้นฐานของการวิเคราะห์ความแปรปรวน
- วิธีตรวจสอบอนุกรมการแจกแจงทางสถิติเพื่อให้เป็นไปตามกฎหมายว่าด้วยการจำหน่ายขั้นพื้นฐาน
ตัวบ่งชี้การเปลี่ยนแปลง
ในการศึกษาทางสถิติเกี่ยวกับคุณลักษณะของประชากรทางสถิติต่างๆ เป็นเรื่องที่น่าสนใจอย่างยิ่งที่จะศึกษาความผันแปรของลักษณะของหน่วยสถิติแต่ละหน่วยของประชากร ตลอดจนธรรมชาติของการกระจายหน่วยของคุณลักษณะนี้ รูปแบบ -นี่คือความแตกต่างในค่าส่วนบุคคลของคุณลักษณะในหน่วยของประชากรที่ศึกษา การศึกษาความผันแปรมีความสำคัญมากในทางปฏิบัติ โดยระดับของความผันแปร เราสามารถตัดสินขอบเขตของการแปรผันของคุณลักษณะ ความสม่ำเสมอของประชากรสำหรับลักษณะนี้ ความปกติของค่าเฉลี่ย ความสัมพันธ์ของปัจจัยที่กำหนดความแปรผัน ตัวบ่งชี้การเปลี่ยนแปลงใช้เพื่อกำหนดลักษณะและจัดลำดับประชากรทางสถิติ
ผลลัพธ์ของการสรุปและการจัดกลุ่มของวัสดุสังเกตการณ์ทางสถิติซึ่งวาดขึ้นในรูปแบบของชุดการแจกแจงทางสถิติ แสดงถึงการกระจายตามลำดับของหน่วยต่างๆ ของประชากรที่ศึกษาออกเป็นกลุ่มตามคุณลักษณะการจัดกลุ่ม (แปรผัน) หากใช้คุณลักษณะเชิงคุณภาพเป็นพื้นฐานสำหรับการจัดกลุ่ม ชุดการแจกจ่ายดังกล่าวจะเรียกว่า แอตทริบิวต์(แบ่งตามอาชีพ เพศ สี ฯลฯ) หากอนุกรมการแจกจ่ายถูกสร้างขึ้นบนพื้นฐานเชิงปริมาณ อนุกรมดังกล่าวจะเรียกว่า ผันแปร(แบ่งตามส่วนสูง น้ำหนัก ขนาดค่าจ้าง ฯลฯ) การสร้างชุดการเปลี่ยนแปลงหมายถึงการจัดลำดับการแจกแจงเชิงปริมาณของหน่วยประชากรตามค่าของแอตทริบิวต์ การนับจำนวนหน่วยประชากรด้วยค่าเหล่านี้ (ความถี่) และการวางผลลัพธ์ลงในตาราง
แทนที่จะใช้ความถี่ของตัวแปร คุณสามารถใช้ความสัมพันธ์กับปริมาณการสังเกตทั้งหมด ซึ่งเรียกว่าความถี่ (ความถี่สัมพัทธ์)
ซีรีย์ความแปรผันมีสองประเภท: แบบไม่ต่อเนื่องและแบบช่วงเวลา ซีรีส์ไม่ต่อเนื่อง- เป็นซีรีส์รูปแบบต่างๆ ตามคุณลักษณะที่มีการเปลี่ยนแปลงไม่ต่อเนื่อง (คุณลักษณะที่ไม่ต่อเนื่อง) อย่างหลังรวมถึงจำนวนพนักงานในสถานประกอบการ ระดับค่าจ้าง จำนวนบุตรในครอบครัว เป็นต้น ชุดรูปแบบที่ไม่ต่อเนื่องคือตารางที่ประกอบด้วยกราฟสองกราฟ คอลัมน์แรกระบุค่าเฉพาะของแอตทริบิวต์ และคอลัมน์ที่สอง - จำนวนหน่วยของประชากรที่มีค่าเฉพาะของแอตทริบิวต์ หากแอตทริบิวต์มีการเปลี่ยนแปลงอย่างต่อเนื่อง (จำนวนรายได้, ประสบการณ์การทำงาน, ต้นทุนของสินทรัพย์ถาวรขององค์กร ฯลฯ ซึ่งสามารถใช้ค่าใดก็ได้ภายในขอบเขตที่กำหนด) ดังนั้นสำหรับแอตทริบิวต์นี้จึงสามารถสร้างได้ ชุดการเปลี่ยนแปลงช่วงเวลาเมื่อสร้างชุดค่าความผันแปรตามช่วงเวลา ตารางจะมีสองคอลัมน์ด้วย ครั้งแรกมีค่าของคุณลักษณะในช่วงเวลา "จาก - ถึง" (ตัวเลือก) วินาที - จำนวนหน่วยที่รวมอยู่ในช่วงเวลา (ความถี่) ความถี่ (อัตราการทำซ้ำ) - จำนวนการทำซ้ำของตัวแปรที่แยกจากกันของค่าแอตทริบิวต์ ช่วงเวลาสามารถปิดและเปิดได้ ช่วงเวลาที่ปิดถูกจำกัดทั้งสองด้าน กล่าวคือ มีเส้นขอบทั้งด้านล่าง ("จาก") และด้านบน ("ถึง") ช่วงเวลาที่เปิดมีขอบใดขอบหนึ่ง: บนหรือล่าง หากตัวเลือกเรียงตามลำดับจากน้อยไปมากหรือจากมากไปน้อยจะเรียกว่าแถว อันดับ
สำหรับชุดความแปรผัน มีตัวเลือกการตอบสนองความถี่สองประเภท: ความถี่สะสมและความถี่สะสม ความถี่สะสมแสดงจำนวนการสังเกตที่ค่าของคุณสมบัตินั้นใช้กับค่าที่น้อยกว่าค่าที่ระบุ ความถี่สะสมถูกกำหนดโดยการรวมค่าความถี่ของแอตทริบิวต์สำหรับกลุ่มนี้กับความถี่ทั้งหมดของกลุ่มก่อนหน้า ความถี่สะสมกำหนดลักษณะสัดส่วนของหน่วยสังเกตที่ค่าของลักษณะไม่เกินขีด จำกัด บนของกลุ่มวัน ดังนั้น ความถี่สะสมจะแสดงความถ่วงจำเพาะของตัวแปรในผลรวม โดยมีค่าไม่เกินค่าที่กำหนด ความถี่ ความถี่ ความหนาแน่นสัมบูรณ์และสัมพัทธ์ ความถี่สะสมและความถี่เป็นลักษณะของขนาดของตัวแปร
ศึกษาความแปรปรวนในแอตทริบิวต์ของหน่วยสถิติของประชากรตลอดจนธรรมชาติของการแจกแจงโดยใช้ตัวบ่งชี้และลักษณะของชุดรูปแบบต่าง ๆ ซึ่งรวมถึงระดับเฉลี่ยของชุดข้อมูล ส่วนเบี่ยงเบนเชิงเส้นเฉลี่ย ส่วนเบี่ยงเบนมาตรฐาน ความแปรปรวน , สัมประสิทธิ์การแกว่ง, การแปรผัน, ความไม่สมมาตร, ความโด่ง ฯลฯ
ค่าเฉลี่ยใช้เพื่อกำหนดลักษณะศูนย์กลางของการกระจาย ค่าเฉลี่ยเป็นลักษณะทั่วไปทางสถิติซึ่งระดับทั่วไปของลักษณะที่สมาชิกของประชากรที่ศึกษามีจะถูกหาปริมาณ อย่างไรก็ตาม กรณีของความบังเอิญของค่าเฉลี่ยทางคณิตศาสตร์นั้นเป็นไปได้ด้วยธรรมชาติที่แตกต่างกันของการแจกแจง ดังนั้น เนื่องจากลักษณะทางสถิติของอนุกรมความแปรปรวน จึงคำนวณค่าเฉลี่ยโครงสร้างที่เรียกว่า - โหมด ค่ามัธยฐาน และปริมาณที่แบ่งการแจกแจง เรียงเป็นส่วนเท่าๆ กัน (ควอร์ไทล์ เดซิลี เปอร์เซ็นไทล์ ฯลฯ) )
แฟชั่น -นี่คือค่าของคุณลักษณะที่เกิดขึ้นในชุดการแจกจ่ายบ่อยกว่าค่าอื่นๆ สำหรับซีรีย์ที่ไม่ต่อเนื่อง นี่คือตัวเลือกที่มีความถี่สูงสุด ในชุดความแปรผันของช่วงเวลา เพื่อกำหนดโหมด จำเป็นต้องกำหนดก่อนอื่น ช่วงเวลาซึ่งอยู่ ซึ่งเรียกว่าช่วงโมดอล ในอนุกรมการแปรผันที่มีช่วงเวลาเท่ากัน ช่วงเวลาโมดอลจะถูกกำหนดโดยความถี่สูงสุด ในอนุกรมที่มีช่วงเวลาไม่เท่ากัน - แต่ความหนาแน่นของการแจกแจงสูงสุด จากนั้น เพื่อกำหนดโหมดในแถวที่มีช่วงเวลาเท่ากัน ให้ใช้สูตร
โดยที่ Mo คือค่าของโหมด x Mo คือขอบเขตล่างของช่วงโมดอล ชม -ความกว้างของช่วงโมดอล / Mo คือความถี่ของช่วงโมดอล / Mo j คือความถี่ของช่วงพรีโมดอล / Mo + 1 คือความถี่ของช่วงหลังโมดอล และสำหรับซีรีส์ที่มีช่วงเวลาไม่เท่ากันในสูตรการคำนวณนี้แทนความถี่ / Mo, / Mo, / Mo ควรใช้ความหนาแน่นของการกระจาย จิตใจ 0 _| , จิตใจ 0> ยูโม + "
หากมีโหมดเดียว การแจกแจงความน่าจะเป็นของตัวแปรสุ่มจะเรียกว่า unimodal หากมีมากกว่าหนึ่งโหมดจะเรียกว่า multimodal (polymodal, multimodal) ในกรณีของสองโหมด - bimodal ตามกฎแล้ว multimodality ระบุว่าการกระจายที่ศึกษาไม่เป็นไปตามกฎของการแจกแจงแบบปกติ สำหรับประชากรที่เป็นเนื้อเดียวกัน ตามกฎแล้ว การแจกแจงแบบยูนิโมดัลนั้นเป็นลักษณะเฉพาะ จุดยอดหลายจุดยังบ่งบอกถึงความแตกต่างของประชากรที่ศึกษา การปรากฏตัวของจุดยอดตั้งแต่สองจุดขึ้นไปทำให้จำเป็นต้องจัดกลุ่มข้อมูลใหม่เพื่อเลือกกลุ่มที่เป็นเนื้อเดียวกันมากขึ้น
ในอนุกรมความแปรผันตามช่วงเวลา โหมดสามารถกำหนดแบบกราฟิกได้โดยใช้ฮิสโตแกรม สำหรับสิ่งนี้ เส้นตัดกันสองเส้นจะถูกลากจากจุดสูงสุดของคอลัมน์สูงสุดของฮิสโตแกรมไปยังจุดสูงสุดของสองคอลัมน์ที่อยู่ติดกัน จากนั้นจากจุดตัดของพวกมัน จะวางแนวตั้งฉากลงบนแกน abscissa ค่าของจุดสนใจบนแกน abscissa ที่สอดคล้องกับแนวตั้งฉากคือโหมด ในหลายกรณี เมื่อกำหนดลักษณะประชากร แฟชั่นเป็นที่นิยมมากกว่าค่าเฉลี่ยเลขคณิตเป็นตัวบ่งชี้ทั่วไป
ค่ามัธยฐาน -นี่คือความหมายสำคัญของคุณลักษณะนี้ซึ่งอยู่ในสมาชิกส่วนกลางของชุดการแจกจ่ายอันดับ ในอนุกรมแบบแยกส่วน เพื่อที่จะหาค่ามัธยฐาน จะต้องกำหนดเลขลำดับก่อน เมื่อต้องการทำเช่นนี้ ด้วยจำนวนหน่วยคี่ หนึ่งจะถูกรวมเข้ากับผลรวมของความถี่ทั้งหมด จำนวนนั้นหารด้วยสอง ถ้าจำนวนหน่วยเป็นเลขคู่ จะมีหน่วยมัธยฐานสองหน่วยในอนุกรม ดังนั้น ในกรณีนี้ ค่ามัธยฐานจะถูกกำหนดเป็นค่าเฉลี่ยของค่าของหน่วยมัธยฐานทั้งสอง ดังนั้น ค่ามัธยฐานในชุดรูปแบบที่ไม่ต่อเนื่องคือค่าที่แบ่งชุดข้อมูลออกเป็นสองส่วนโดยมีจำนวนตัวเลือกเท่ากัน
ในชุดช่วงเวลา หลังจากกำหนดจำนวนลำดับของค่ามัธยฐานแล้ว ช่วงตรงกลางจะพบโดยความถี่สะสม (ส่วนต่างๆ) จากนั้นโดยใช้สูตรคำนวณค่ามัธยฐาน ค่าของมัธยฐานจะถูกกำหนด:
โดยที่ Me คือค่ามัธยฐาน x ฉัน -ขอบล่างของช่วงมัธยฐาน ชม -ความกว้างของช่วงมัธยฐาน - ผลรวมของความถี่ของอนุกรมการแจกแจง; / D - ความถี่สะสมของช่วงก่อนค่ามัธยฐาน; / Me คือความถี่ของช่วงมัธยฐาน
ค่ามัธยฐานสามารถพบได้แบบกราฟิกโดยใช้ค่าสะสม สำหรับสิ่งนี้ ในระดับของความถี่สะสม (ความถี่) ของสะสมจากจุดที่ตรงกับเลขลำดับของค่ามัธยฐาน เส้นตรงจะถูกลากขนานกับแกน abscissa จนกว่าจะตัดกับค่าสะสม นอกจากนี้ จากจุดตัดของเส้นตรงที่ระบุกับค่าสะสม จะวางแนวตั้งฉากลงบนแกน abscissa ค่าของจุดสนใจบนแกน abscissa ที่สอดคล้องกับพิกัดที่วาด (ตั้งฉาก) คือค่ามัธยฐาน
ค่ามัธยฐานมีลักษณะดังต่อไปนี้
- 1. ไม่ได้ขึ้นอยู่กับค่าของคุณลักษณะที่อยู่ด้านใดด้านหนึ่งของมัน
- 2. มีคุณสมบัติของความน้อยที่สุดซึ่งประกอบด้วยความจริงที่ว่าผลรวมของการเบี่ยงเบนสัมบูรณ์ของค่าของแอตทริบิวต์จากค่ามัธยฐานคือค่าต่ำสุดเมื่อเปรียบเทียบกับค่าเบี่ยงเบนของค่าแอตทริบิวต์จาก ค่าอื่นใด
- 3. เมื่อรวมการแจกแจงสองครั้งกับค่ามัธยฐานที่ทราบ เป็นไปไม่ได้ที่จะคาดการณ์ล่วงหน้าถึงค่ามัธยฐานของการแจกแจงใหม่
คุณสมบัติเหล่านี้ของค่ามัธยฐานใช้กันอย่างแพร่หลายในการออกแบบที่ตั้งของจุดบริการสาธารณะ - โรงเรียน, คลินิก, สถานีบริการน้ำมัน, ท่อส่งน้ำ ฯลฯ ตัวอย่างเช่น หากมีการวางแผนที่จะสร้างโพลีคลินิกในบางส่วนของเมือง ก็ควรที่จะตั้งไว้ที่จุดในไตรมาสที่แบ่งครึ่งไม่ใช่ความยาวของไตรมาส แต่จำนวนผู้อยู่อาศัย
อัตราส่วนของโหมด ค่ามัธยฐาน และค่าเฉลี่ยเลขคณิตระบุถึงลักษณะของการกระจายของแอตทริบิวต์ในผลรวม ช่วยให้คุณประเมินความสมมาตรของการกระจายได้ ถ้า x Me จึงไม่สมมาตรด้านขวาของแถว ด้วยการแจกแจงแบบปกติ เอ็กซ์ -ฉัน - โม
เค. เพียร์สัน บนพื้นฐานของการปรับเส้นโค้งประเภทต่างๆ ให้เท่ากัน กำหนดว่าสำหรับการแจกแจงแบบอสมมาตรปานกลาง ความสัมพันธ์โดยประมาณต่อไปนี้ระหว่างค่าเฉลี่ยเลขคณิต ค่ามัธยฐาน และโหมดจะถูกต้อง:
โดยที่ Me คือค่ามัธยฐาน โมคือความหมายของแฟชั่น x arithm - ค่าของค่าเฉลี่ยเลขคณิต
หากจำเป็นต้องศึกษาโครงสร้างของชุดรูปแบบรายละเอียดเพิ่มเติม ค่าของคุณลักษณะจะถูกคำนวณซึ่งคล้ายกับค่ามัธยฐาน ค่าของคุณลักษณะดังกล่าวแบ่งหน่วยการกระจายทั้งหมดออกเป็นจำนวนเท่ากันเรียกว่าควอนไทล์หรือการไล่ระดับสี ควอนไทล์แบ่งออกเป็นควอร์ไทล์ เดซิลี เปอร์เซ็นไทล์ ฯลฯ
ควอร์ไทล์แบ่งประชากรออกเป็นสี่ส่วนเท่า ๆ กัน ควอไทล์แรกคำนวณคล้ายกับค่ามัธยฐานโดยใช้สูตรสำหรับคำนวณควอร์ไทล์แรก โดยก่อนหน้านี้ได้กำหนดช่วงไตรมาสแรก:
โดยที่ Qi คือค่าของควอร์ไทล์แรก x คิว ^ -ขอบล่างของช่วงควอร์ไทล์แรก ชม- ความกว้างของช่วงไตรมาสแรก /, - ความถี่ของอนุกรมช่วงเวลา;
ความถี่สะสมในช่วงก่อนช่วงควอร์ไทล์แรก Jq (คือความถี่ของช่วงควอร์ไทล์แรก
ควอร์ไทล์แรกแสดงให้เห็นว่า 25% ของหน่วยประชากรมีค่าน้อยกว่าค่าของมัน และ 75% หรือมากกว่านั้น ควอร์ไทล์ที่สองเท่ากับค่ามัธยฐานนั่นคือ คำถามที่ 2 =ฉัน.
โดยการเปรียบเทียบ ควอร์ไทล์ที่สามถูกคำนวณ โดยก่อนหน้านี้พบช่วงไตรมาสที่สาม:
ขอบล่างของช่วงควอร์ไทล์ที่สามอยู่ที่ไหน ชม- ความกว้างของช่วงควอร์ไทล์ที่สาม /, - ความถี่ของอนุกรมช่วงเวลา; / X "-ความถี่สะสมในช่วงเวลาก่อนหน้า
จี
ช่วงควอร์ไทล์ที่สาม Jq คือความถี่ของช่วงควอร์ไทล์ที่สาม
ควอร์ไทล์ที่สามแสดงให้เห็นว่า 75% ของหน่วยประชากรมีค่าน้อยกว่าค่าของมัน และอีก 25% - มากกว่า
ความแตกต่างระหว่างควอร์ไทล์ที่สามและควอไทล์แรกคือพิสัยระหว่างควอไทล์:
โดยที่ Aq คือค่าของพิสัยระหว่างควอไทล์ คำถามที่ 3 -มูลค่าของควอร์ไทล์ที่สาม Q คือค่าของควอร์ไทล์แรก
Deciles แบ่งผลรวมเป็น 10 ส่วนเท่า ๆ กัน เดไซล์เป็นค่าของคุณลักษณะในอนุกรมการแจกแจง ซึ่งสอดคล้องกับหนึ่งในสิบของขนาดประชากร โดยการเปรียบเทียบกับควอร์ไทล์ เดไซล์แรกแสดงให้เห็นว่า 10% ของหน่วยประชากรน้อยกว่าค่าของมัน และ 90% - มากกว่า และเดซิเบลที่เก้าแสดงให้เห็นว่า 90% ของหน่วยประชากรน้อยกว่ามูลค่าของมัน และ 10% - มากกว่า. อัตราส่วนของเดซิเบลที่เก้าและแรกคือ ค่าสัมประสิทธิ์เดซิลใช้กันอย่างแพร่หลายในการศึกษาความแตกต่างของรายได้เพื่อวัดอัตราส่วนของระดับรายได้ของคนที่รวยที่สุด 10% และ 10% ของประชากรที่ยากจนที่สุด เปอร์เซ็นไทล์แบ่งประชากรที่ได้รับการจัดอันดับออกเป็น 100 ส่วนเท่าๆ กัน การคำนวณ ความหมาย และการใช้เปอร์เซ็นไทล์คล้ายกับเดซิลี
ควอร์ไทล์ เดซิลี และลักษณะเชิงโครงสร้างอื่นๆ สามารถกำหนดได้แบบกราฟิกโดยการเปรียบเทียบกับค่ามัธยฐานโดยใช้ค่าสะสม
ตัวชี้วัดต่อไปนี้ใช้เพื่อวัดขนาดของรูปแบบ: ช่วงของการแปรผัน, ส่วนเบี่ยงเบนเชิงเส้นเฉลี่ย, ส่วนเบี่ยงเบนมาตรฐาน, ความแปรปรวน ขนาดของช่วงการแปรผันทั้งหมดขึ้นอยู่กับความสุ่มของการกระจายเงื่อนไขสุดโต่งของชุดข้อมูล ตัวบ่งชี้นี้เป็นที่สนใจในกรณีที่จำเป็นต้องรู้ว่าความกว้างของความผันผวนในค่าของแอตทริบิวต์คืออะไร:
ที่ไหน อาร์ -ค่าของช่วงของการแปรผัน x max คือค่าสูงสุดของคุณสมบัติ x tt -ค่าต่ำสุดของคุณสมบัติ
เมื่อคำนวณช่วงของความผันแปร ค่าของสมาชิกส่วนใหญ่ในซีรีส์จะไม่นำมาพิจารณา ในขณะที่รูปแบบนั้นจะสัมพันธ์กับแต่ละค่าของสมาชิกของชุดข้อมูล ข้อเสียเปรียบนี้ไม่มีตัวบ่งชี้ซึ่งเป็นค่าเฉลี่ยที่ได้จากการเบี่ยงเบนของค่าแต่ละค่าของคุณลักษณะจากค่าเฉลี่ย: ค่าเบี่ยงเบนเชิงเส้นเฉลี่ยและค่าเบี่ยงเบนมาตรฐาน มีความสัมพันธ์โดยตรงระหว่างการเบี่ยงเบนส่วนบุคคลจากค่าเฉลี่ยและความแปรปรวนของลักษณะเฉพาะ ยิ่งความผันผวนมากเท่าใด ขนาดสัมบูรณ์ของการเบี่ยงเบนจากค่าเฉลี่ยก็จะยิ่งมากขึ้น
ค่าเบี่ยงเบนเชิงเส้นเฉลี่ยคือค่าเฉลี่ยเลขคณิตของค่าสัมบูรณ์ของการเบี่ยงเบนของตัวเลือกแต่ละรายการจากค่าเฉลี่ย
ส่วนเบี่ยงเบนเชิงเส้นเฉลี่ยสำหรับข้อมูลที่ไม่ได้จัดกลุ่ม
โดยที่ / pr คือค่าของส่วนเบี่ยงเบนเชิงเส้นเฉลี่ย x, - คือค่าของคุณสมบัติ; เอ็กซ์ - พี -จำนวนหน่วยในประชากร
ส่วนเบี่ยงเบนเชิงเส้นเฉลี่ยของอนุกรมที่จัดกลุ่ม
โดยที่ / vz - ค่าของส่วนเบี่ยงเบนเชิงเส้นเฉลี่ย x คือค่าของคุณสมบัติ เอ็กซ์ -ค่าเฉลี่ยของลักษณะสำหรับประชากรที่ศึกษา / คือจำนวนหน่วยประชากรในกลุ่มที่แยกจากกัน
ในกรณีนี้ สัญญาณของการเบี่ยงเบนจะถูกละเว้น มิฉะนั้น ผลรวมของการเบี่ยงเบนทั้งหมดจะเท่ากับศูนย์ ค่าเบี่ยงเบนเชิงเส้นเฉลี่ย ขึ้นอยู่กับการจัดกลุ่มของข้อมูลที่วิเคราะห์ คำนวณโดยใช้สูตรต่างๆ: สำหรับข้อมูลที่จัดกลุ่มและไม่รวม ค่าเบี่ยงเบนเชิงเส้นเฉลี่ยเนื่องจากธรรมเนียมปฏิบัติ ซึ่งแยกจากตัวบ่งชี้อื่น ๆ ของการแปรผัน ในทางปฏิบัติมักไม่ค่อยนำมาใช้ (โดยเฉพาะอย่างยิ่ง เพื่อกำหนดลักษณะการปฏิบัติตามภาระผูกพันตามสัญญาในแง่ของความสม่ำเสมอของการส่งมอบ ในการวิเคราะห์มูลค่าการค้าต่างประเทศ องค์ประกอบของพนักงาน จังหวะการผลิต คุณภาพของผลิตภัณฑ์ โดยคำนึงถึงคุณสมบัติทางเทคโนโลยีของการผลิต และอื่นๆ)
ค่าเบี่ยงเบนมาตรฐานกำหนดลักษณะโดยเฉลี่ยว่าค่าแต่ละค่าของคุณลักษณะภายใต้การศึกษาเบี่ยงเบนไปจากค่าเฉลี่ยของประชากรมากน้อยเพียงใด และแสดงเป็นหน่วยวัดของลักษณะที่ศึกษา ค่าเบี่ยงเบนมาตรฐานซึ่งเป็นหนึ่งในการวัดหลักของการแปรผันมีการใช้กันอย่างแพร่หลายในการประเมินขอบเขตของการแปรผันของลักษณะในประชากรที่เป็นเนื้อเดียวกันในการกำหนดค่าของพิกัดของเส้นโค้งการกระจายปกติตลอดจนในการคำนวณ ที่เกี่ยวข้องกับการจัดระเบียบการสังเกตตัวอย่างและการกำหนดความถูกต้องของลักษณะตัวอย่าง ค่าเบี่ยงเบนฐานราก-ค่าเฉลี่ย-กำลังสองของข้อมูลที่ไม่หยาบคำนวณโดยใช้อัลกอริธึมต่อไปนี้: แต่ละส่วนเบี่ยงเบนจากค่าเฉลี่ยจะถูกยกกำลังสอง, กำลังสองทั้งหมดจะถูกรวมเข้าด้วยกัน หลังจากนั้นผลรวมของกำลังสองหารด้วยจำนวนสมาชิกของ อนุกรมและรากที่สองแยกจากผลหาร:
โดยที่ Iip คือค่าของส่วนเบี่ยงเบนมาตรฐาน เอ็กซ์เจ -ค่าของคุณสมบัติ; X- ค่าเฉลี่ยของลักษณะสำหรับประชากรที่ศึกษา พี -จำนวนหน่วยในประชากร
สำหรับข้อมูลที่วิเคราะห์แบบจัดกลุ่ม ค่าเบี่ยงเบนมาตรฐานของข้อมูลคำนวณโดยใช้สูตรถ่วงน้ำหนัก
ที่ไหน - ค่าของส่วนเบี่ยงเบนมาตรฐาน เอ็กซ์เจ -ค่าของคุณสมบัติ; เอ็กซ์ -ค่าเฉลี่ยของลักษณะสำหรับประชากรที่ศึกษา ฉ x -จำนวนหน่วยประชากรในแต่ละกลุ่ม
นิพจน์ภายใต้รูทในทั้งสองกรณีเรียกว่าความแปรปรวน ดังนั้นความแปรปรวนจะถูกคำนวณเป็นกำลังสองเฉลี่ยของการเบี่ยงเบนของค่าคุณลักษณะจากค่าเฉลี่ย สำหรับค่าที่ไม่ถ่วงน้ำหนัก (แบบง่าย) ของคุณลักษณะ ความแปรปรวนจะถูกกำหนดดังนี้:
สำหรับค่าคุณลักษณะถ่วงน้ำหนัก
นอกจากนี้ยังมีวิธีการคำนวณความแปรปรวนอย่างง่ายพิเศษ: ในรูปแบบทั่วไป
สำหรับค่าคุณลักษณะที่ไม่ถ่วงน้ำหนัก (อย่างง่าย) สำหรับค่าคุณลักษณะถ่วงน้ำหนัก
โดยใช้วิธีนับศูนย์ตามเงื่อนไข
โดยที่ 2 คือค่าของความแปรปรวน x, - คือค่าของคุณสมบัติ; เอ็กซ์ -ค่าเฉลี่ยของคุณสมบัติ ชม -ค่าช่วงกลุ่ม เสื้อ 1 -น้ำหนัก (A =
การกระจายตัวมีการแสดงออกที่เป็นอิสระในสถิติและเป็นหนึ่งในตัวบ่งชี้ที่สำคัญที่สุดของการเปลี่ยนแปลง มีหน่วยวัดเป็นหน่วยที่สอดคล้องกับกำลังสองของหน่วยการวัดลักษณะที่ศึกษา
การกระจายมีคุณสมบัติดังต่อไปนี้
- 1. ความแปรปรวนของค่าคงที่เป็นศูนย์
- 2. การลดลงของค่าทั้งหมดของคุณลักษณะด้วยค่าเดียวกัน A จะไม่เปลี่ยนขนาดของความแปรปรวน ซึ่งหมายความว่าค่าเฉลี่ยกำลังสองของการเบี่ยงเบนไม่สามารถคำนวณได้โดยค่าที่กำหนดของแอตทริบิวต์ แต่โดยการเบี่ยงเบนจากจำนวนคงที่บางส่วน
- 3. ลดค่าทั้งหมดของแอตทริบิวต์ใน kครั้งจะลดความแปรปรวนลง k 2 ครั้งและค่าเบี่ยงเบนมาตรฐาน - in kครั้ง กล่าวคือ ค่าทั้งหมดของแอตทริบิวต์สามารถหารด้วยจำนวนคงที่บางส่วน (เช่นโดยค่าช่วงเวลาของซีรีส์) คำนวณค่าเบี่ยงเบนมาตรฐานแล้วคูณด้วยจำนวนคงที่
- 4. หากคุณคำนวณค่าเฉลี่ยกำลังสองของค่าเบี่ยงเบนจากค่าใด ๆ และที่ซึ่งแตกต่างจากค่าเฉลี่ยเลขคณิตในระดับหนึ่ง จากนั้นจะมากกว่าค่าเฉลี่ยกำลังสองของการเบี่ยงเบนที่คำนวณจากค่าเฉลี่ยเลขคณิตเสมอ ในกรณีนี้ ค่าเฉลี่ยกำลังสองของส่วนเบี่ยงเบนจะมากกว่าด้วยจำนวนที่แน่นอน - โดยกำลังสองของผลต่างระหว่างค่าเฉลี่ยกับค่าที่คิดตามอัตภาพ
ความผันแปรของคุณลักษณะทางเลือกประกอบด้วยการมีอยู่หรือไม่มีทรัพย์สินที่ศึกษาในหน่วยของประชากร ในเชิงปริมาณ ความแปรผันของจุดสนใจทางเลือกจะแสดงเป็นสองค่า: การมีอยู่ของคุณสมบัติที่ศึกษาในหน่วยหนึ่งถูกระบุด้วยหน่วย (1) และการไม่มีมันด้วยศูนย์ (0) เศษส่วนของหน่วยที่มีทรัพย์สินอยู่ระหว่างการศึกษาแสดงโดย P และเศษของหน่วยที่ไม่มีคุณสมบัตินี้จะแสดงด้วย ก.ดังนั้น ความแปรปรวนของคุณลักษณะทางเลือกจะเท่ากับผลคูณของเศษส่วนของหน่วยที่มีคุณสมบัตินี้ (P) โดยเศษของหน่วยที่ไม่มีคุณสมบัตินี้ (ช).การแปรผันที่ยิ่งใหญ่ที่สุดในประชากรจะเกิดขึ้นได้ในกรณีที่ประชากรส่วนหนึ่งซึ่งเท่ากับ 50% ของปริมาณประชากรทั้งหมดมีลักษณะเฉพาะ และอีกส่วนหนึ่งของประชากร เท่ากับ 50% ไม่มี คุณลักษณะนี้ ในขณะที่ความแปรปรวนถึงค่าสูงสุด 0.25 เช่น .e พี = 0.5, ก = 1 - P = 1 - 0.5 = 0.5 และ o 2 = 0.5 0.5 = 0.25 ขอบเขตล่างของตัวบ่งชี้นี้คือศูนย์ ซึ่งสอดคล้องกับสถานการณ์ที่ไม่มีการแปรผันโดยรวม การประยุกต์ใช้ความแปรปรวนของคุณลักษณะทางเลือกในทางปฏิบัติคือการสร้างช่วงความเชื่อมั่นเมื่อทำการสังเกตตัวอย่าง
ยิ่งความแปรปรวนและค่าเบี่ยงเบนมาตรฐานน้อยเท่าใด ประชากรก็จะยิ่งมีความเหมือนกันมากขึ้นเท่านั้น และค่าเฉลี่ยก็จะยิ่งเป็นแบบทั่วไปมากขึ้น ในทางปฏิบัติของสถิติ มักจะจำเป็นต้องเปรียบเทียบความผันแปรของคุณลักษณะต่างๆ ตัวอย่างเช่น เป็นเรื่องที่น่าสนใจที่จะเปรียบเทียบความผันแปรของอายุแรงงานและคุณสมบัติ ระยะเวลาในการให้บริการและค่าจ้าง ต้นทุนและผลกำไร ระยะเวลาในการให้บริการและผลิตภาพแรงงาน เป็นต้น สำหรับการเปรียบเทียบดังกล่าว ตัวชี้วัดของความแปรปรวนสัมบูรณ์ของลักษณะเฉพาะไม่เหมาะสม: เป็นไปไม่ได้ที่จะเปรียบเทียบความแปรปรวนของระยะเวลาในการให้บริการซึ่งแสดงเป็นปีโดยมีการเปลี่ยนแปลงของค่าจ้างที่แสดงเป็นรูเบิล เพื่อทำการเปรียบเทียบดังกล่าว เช่นเดียวกับการเปรียบเทียบความผันผวนของคุณลักษณะเดียวกันในกลุ่มประชากรหลายกลุ่มที่มีวิธีการทางคณิตศาสตร์ต่างกัน ตัวชี้วัดของการเปลี่ยนแปลงจะถูกใช้ - ค่าสัมประสิทธิ์การสั่น สัมประสิทธิ์เชิงเส้นของการแปรผัน และค่าสัมประสิทธิ์การแปรผัน ซึ่งแสดง การวัดความผันผวนของค่าสุดขีดรอบค่าเฉลี่ย
ค่าสัมประสิทธิ์การสั่น:
ที่ไหน วี อาร์ -ค่าสัมประสิทธิ์การสั่น R- ค่าของช่วงของการเปลี่ยนแปลง; เอ็กซ์ -
ค่าสัมประสิทธิ์การแปรผันเชิงเส้น ".
ที่ไหน วีเจ -ค่าสัมประสิทธิ์เชิงเส้นของการแปรผัน ผม -ค่าเบี่ยงเบนเชิงเส้นเฉลี่ย เอ็กซ์ -ค่าเฉลี่ยของลักษณะสำหรับประชากรที่ศึกษา
ค่าสัมประสิทธิ์การแปรผัน:
ที่ไหน วี เอ -ค่าสัมประสิทธิ์การแปรผัน a - ค่าของส่วนเบี่ยงเบนมาตรฐาน; เอ็กซ์ -ค่าเฉลี่ยของลักษณะสำหรับประชากรที่ศึกษา
ค่าสัมประสิทธิ์การสั่นคือเปอร์เซ็นต์ของช่วงการแปรผันต่อค่าเฉลี่ยของลักษณะที่ศึกษา และสัมประสิทธิ์การแปรผันเชิงเส้นคืออัตราส่วนของค่าเบี่ยงเบนเชิงเส้นเฉลี่ยต่อค่าเฉลี่ยของลักษณะที่ศึกษา โดยแสดงเป็นเปอร์เซ็นต์ ค่าสัมประสิทธิ์การแปรผันคือเปอร์เซ็นต์ของค่าเบี่ยงเบนมาตรฐานกับค่าเฉลี่ยของลักษณะที่ศึกษา เป็นค่าสัมพัทธ์ ซึ่งแสดงเป็นเปอร์เซ็นต์ ค่าสัมประสิทธิ์การแปรผันจะใช้เพื่อเปรียบเทียบระดับความแปรผันของคุณลักษณะต่างๆ ค่าสัมประสิทธิ์การแปรผันใช้เพื่อประเมินความเป็นเนื้อเดียวกันของประชากรทางสถิติ หากค่าสัมประสิทธิ์การแปรผันน้อยกว่า 33% แสดงว่าประชากรที่ศึกษาจะเป็นเนื้อเดียวกันและการแปรผันนั้นอ่อน หากค่าสัมประสิทธิ์การแปรผันมากกว่า 33% แสดงว่าประชากรที่ศึกษามีความแตกต่างกัน การแปรผันจะรุนแรง และค่าเฉลี่ยไม่ปกติและไม่สามารถใช้เป็นตัวบ่งชี้ทั่วไปของประชากรกลุ่มนี้ได้ นอกจากนี้ ค่าสัมประสิทธิ์การแปรผันยังใช้เพื่อเปรียบเทียบความแปรปรวนของลักษณะหนึ่งในกลุ่มประชากรต่างๆ ตัวอย่างเช่น เพื่อประเมินความผันแปรในระยะเวลาการให้บริการของพนักงานในองค์กรสองแห่ง ยิ่งค่าสัมประสิทธิ์สูง ความแปรผันของคุณลักษณะยิ่งมีความสำคัญมากขึ้นเท่านั้น
ตามควอร์ไทล์ที่คำนวณ ยังสามารถคำนวณตัวบ่งชี้สัมพัทธ์ของการเปลี่ยนแปลงรายไตรมาสโดยใช้สูตร
ที่ไหน Q 2 และ
ช่วงระหว่างควอไทล์ถูกกำหนดโดยสูตร
อคติแบบควอร์ไทล์ใช้แทนช่วงเพื่อหลีกเลี่ยงข้อเสียของการใช้ค่าสุดขั้ว:
สำหรับอนุกรมความแปรผันของช่วงเวลาที่ไม่เท่ากัน ความหนาแน่นของการกระจายจะถูกคำนวณด้วย มันถูกกำหนดให้เป็นเชาวน์ของการหารความถี่ที่สอดคล้องกันหรือความถี่ด้วยค่าของช่วงเวลา ในอนุกรมที่เว้นระยะไม่เท่ากัน ความหนาแน่นของการกระจายแบบสัมบูรณ์และแบบสัมพัทธ์ถูกนำมาใช้ ความหนาแน่นสัมบูรณ์ของการแจกแจงคือความถี่ต่อหน่วยความยาวของช่วงเวลา ความหนาแน่นสัมพัทธ์ของการแจกแจงคือความถี่ต่อหน่วยความยาวของช่วงเวลา
ทั้งหมดข้างต้นเป็นจริงสำหรับอนุกรมการแจกจ่าย ซึ่งกฎการจำหน่ายซึ่งอธิบายไว้อย่างดีโดยกฎหมายการจำหน่ายแบบปกติหรือใกล้เคียงกัน
สถานที่พิเศษในการวิเคราะห์ทางสถิติเป็นของคำจำกัดความของระดับเฉลี่ยของคุณลักษณะหรือปรากฏการณ์ที่ศึกษา ระดับเฉลี่ยของจุดสนใจวัดโดยค่าเฉลี่ย
ค่าเฉลี่ยแสดงถึงระดับเชิงปริมาณทั่วไปของลักษณะที่ศึกษาและเป็นคุณสมบัติกลุ่มของประชากรทางสถิติ มันทำให้เป็นกลาง ลดค่าเบี่ยงเบนแบบสุ่มของการสังเกตของแต่ละบุคคลไปในทิศทางเดียวหรืออีกทางหนึ่ง และนำคุณสมบัติหลักทั่วไปของลักษณะภายใต้การศึกษามาสู่ส่วนหน้า
ค่าเฉลี่ยใช้กันอย่างแพร่หลาย:
1. เพื่อประเมินภาวะสุขภาพของประชากร: ลักษณะของการพัฒนาทางกายภาพ (ส่วนสูง น้ำหนัก รอบหน้าอก ฯลฯ) การระบุความชุกและระยะเวลาของโรคต่าง ๆ การวิเคราะห์ตัวชี้วัดทางประชากร (การเคลื่อนไหวตามธรรมชาติของประชากร อายุขัยเฉลี่ย , การสืบพันธุ์ของประชากร ประชากรโดยเฉลี่ย และอื่นๆ)
2. เพื่อศึกษากิจกรรมของสถาบันการแพทย์ บุคลากรทางการแพทย์ และประเมินคุณภาพงาน วางแผน และกำหนดความต้องการของประชากรในการดูแลทางการแพทย์ประเภทต่างๆ (จำนวนเฉลี่ยของการเข้าชมหรือการเยี่ยมชมต่อประชากรต่อปี ความยาวเฉลี่ย ระยะเวลาการรักษาตัวในโรงพยาบาล ระยะเวลาเฉลี่ยของผู้ป่วยที่เข้ารับการตรวจ การจัดหาแพทย์ เตียงผู้ป่วยโดยเฉลี่ย เป็นต้น)
3. เพื่ออธิบายลักษณะสุขาภิบาลและระบาดวิทยา (ปริมาณฝุ่นเฉลี่ยในโรงงาน พื้นที่เฉลี่ยต่อคน การบริโภคโปรตีน ไขมัน และคาร์โบไฮเดรตโดยเฉลี่ย เป็นต้น)
4. เพื่อกำหนดพารามิเตอร์ทางการแพทย์และสรีรวิทยาด้านสุขภาพและโรค เมื่อประมวลผลข้อมูลในห้องปฏิบัติการ เพื่อสร้างความน่าเชื่อถือของผลการศึกษาตัวอย่างในการศึกษาทางสังคมและสุขอนามัย ทางคลินิก และการทดลอง
ค่าเฉลี่ยคำนวณจากชุดรูปแบบต่างๆ ซีรีส์หลากหลายเป็นประชากรเชิงสถิติเชิงคุณภาพที่เป็นเนื้อเดียวกัน โดยแต่ละหน่วยแสดงลักษณะความแตกต่างเชิงปริมาณของลักษณะหรือปรากฏการณ์ที่ศึกษา
ความผันแปรเชิงปริมาณสามารถเป็นได้สองประเภท: ไม่ต่อเนื่อง (ไม่ต่อเนื่อง) และต่อเนื่อง
สัญญาณที่ไม่ต่อเนื่อง (ไม่ต่อเนื่อง) แสดงเป็นจำนวนเต็มเท่านั้นและไม่สามารถมีค่ากลางใด ๆ (เช่น จำนวนการเข้าชม ประชากรของไซต์ จำนวนเด็กในครอบครัว ความรุนแรงของโรคเป็นจุด เป็นต้น)
เครื่องหมายต่อเนื่องสามารถรับค่าใดก็ได้ภายในขอบเขตที่แน่นอน รวมถึงค่าที่เป็นเศษส่วน และแสดงเพียงค่าประมาณเท่านั้น (เช่น น้ำหนัก - สำหรับผู้ใหญ่ คุณสามารถจำกัดตัวเองเป็นกิโลกรัม และสำหรับทารกแรกเกิด - กรัม ส่วนสูง ความดันโลหิต เวลาที่ใช้ไป ในการพบผู้ป่วย เป็นต้น)
ค่าตัวเลขของคุณลักษณะหรือปรากฏการณ์แต่ละรายการที่รวมอยู่ในอนุกรมรูปแบบต่างๆ เรียกว่า ตัวแปร และเขียนแทนด้วยตัวอักษร วี ... มีการกำหนดอื่น ๆ ในวรรณคดีคณิตศาสตร์เช่น x หรือ ย.
อนุกรมรูปแบบต่าง ๆ ซึ่งแต่ละตัวเลือกถูกระบุครั้งเดียว เรียกว่า แบบง่ายชุดดังกล่าวใช้ในปัญหาทางสถิติส่วนใหญ่ในกรณีของการประมวลผลข้อมูลคอมพิวเตอร์
ด้วยจำนวนการสังเกตที่เพิ่มขึ้นตามกฎแล้วจะมีค่าตัวแปรซ้ำ ในกรณีนี้ a ชุดรูปแบบที่จัดกลุ่มโดยระบุจำนวนการทำซ้ำ (ความถี่แสดงด้วยตัวอักษร " R »).
จัดอันดับชุดรูปแบบต่างๆประกอบด้วยตัวแปรที่จัดเรียงจากน้อยไปมากหรือมากไปหาน้อย สามารถจัดอันดับทั้งซีรีย์ที่เรียบง่ายและจัดกลุ่มได้
ซีรี่ส์รูปแบบช่วงเวลาถูกรวบรวมเพื่อทำให้การคำนวณในภายหลังง่ายขึ้นโดยไม่ต้องใช้คอมพิวเตอร์ โดยมีหน่วยสังเกตการณ์จำนวนมาก (มากกว่า 1,000 หน่วย)
ซีรีส์รูปแบบต่อเนื่องรวมค่าตัวแปรซึ่งสามารถแสดงด้วยค่าใดก็ได้
หากในชุดการเปลี่ยนแปลงค่าของคุณสมบัติ (ตัวเลือก) ได้รับในรูปแบบของตัวเลขเฉพาะแยกจากกันชุดดังกล่าวจะเรียกว่า ไม่ต่อเนื่อง.
ลักษณะทั่วไปของค่าของแอตทริบิวต์ที่สะท้อนในชุดรูปแบบคือค่าเฉลี่ย ในหมู่พวกเขา ใช้มากที่สุดคือ: ค่าเฉลี่ยเลขคณิต เอ็ม,แฟชั่น โมและค่ามัธยฐาน ฉัน.แต่ละลักษณะเหล่านี้มีเอกลักษณ์เฉพาะตัว พวกเขาไม่สามารถแทนที่กันและกันได้ และเฉพาะโดยรวม ค่อนข้างสมบูรณ์และอยู่ในรูปแบบที่บีบอัด เท่านั้นที่แสดงคุณลักษณะของชุดรูปแบบต่างๆ
แฟชั่น (โม) ตั้งชื่อความหมายของตัวเลือกที่พบบ่อยที่สุด
ค่ามัธยฐาน (ฉัน) คือค่าของรูปแบบ โดยหารชุดรูปแบบที่จัดอันดับไว้ครึ่งหนึ่ง (ในแต่ละด้านของค่ามัธยฐาน จะมีค่ารูปแบบครึ่งหนึ่ง) ในบางกรณีที่พบไม่บ่อย เมื่อมีอนุกรมความแปรผันที่สมมาตร โหมดและค่ามัธยฐานจะเท่ากันและตรงกับค่าของค่าเฉลี่ยเลขคณิต
ลักษณะทั่วไปที่สุดของค่าตัวแปรคือ เลขคณิตปริมาณ ( เอ็ม ). ในวรรณคดีคณิตศาสตร์แสดงว่า .
ค่าเฉลี่ยเลขคณิต (เอ็ม, ) เป็นลักษณะเชิงปริมาณทั่วไปของคุณลักษณะบางอย่างของปรากฏการณ์ที่ศึกษาซึ่งประกอบขึ้นเป็นประชากรเชิงสถิติเชิงคุณภาพที่เป็นเนื้อเดียวกัน แยกแยะระหว่างค่าเฉลี่ยเลขคณิตแบบง่ายและถ่วงน้ำหนัก ค่าเฉลี่ยเลขคณิตอย่างง่ายคำนวณสำหรับชุดรูปแบบอย่างง่ายโดยการรวมตัวเลือกทั้งหมดและหารผลรวมนี้ด้วยจำนวนตัวเลือกทั้งหมดที่รวมอยู่ในชุดรูปแบบที่กำหนด การคำนวณจะดำเนินการตามสูตร:
ที่ไหน: เอ็ม - ค่าเฉลี่ยเลขคณิตอย่างง่าย
Σ วี - จำนวนของตัวเลือก;
น- จำนวนการสังเกต
ในชุดความแปรผันที่จัดกลุ่ม ค่าเฉลี่ยเลขคณิตแบบถ่วงน้ำหนักจะถูกกำหนด สูตรสำหรับการคำนวณ:
ที่ไหน: เอ็ม - ค่าเฉลี่ยเลขคณิตถ่วงน้ำหนัก
Σ Vp - ผลรวมของผลงานของตัวแปรตามความถี่
น- จำนวนการสังเกต
ด้วยการสังเกตจำนวนมากในกรณีของการคำนวณด้วยตนเอง คุณสามารถใช้วิธีการของโมเมนต์
ค่าเฉลี่ยเลขคณิตมีคุณสมบัติดังต่อไปนี้:
ผลรวมของการเบี่ยงเบนของตัวแปรจากค่าเฉลี่ย ( Σ d ) เท่ากับศูนย์ (ดูตารางที่ 15)
· เมื่อคูณ (หาร) ตัวเลือกทั้งหมดด้วยตัวประกอบ (ตัวหาร) เดียวกัน ค่าเฉลี่ยเลขคณิตจะถูกคูณ (หาร) ด้วยตัวประกอบเดียวกัน (ตัวหาร)
· หากคุณบวก (ลบ) ตัวเลขเดียวกันในตัวเลือกทั้งหมด ค่าเฉลี่ยเลขคณิตจะเพิ่มขึ้น (ลดลง) ด้วยจำนวนเดียวกัน
ค่าเฉลี่ยเลขคณิตที่นำมาเองโดยไม่คำนึงถึงความแปรปรวนของอนุกรมนั้นอาจไม่ได้สะท้อนถึงคุณสมบัติของอนุกรมการแปรผันโดยสมบูรณ์ โดยเฉพาะอย่างยิ่งเมื่อจำเป็นต้องเปรียบเทียบกับค่าเฉลี่ยอื่นๆ ค่าเฉลี่ยที่มีค่าใกล้เคียงกันสามารถหาได้จากอนุกรมที่มีระดับการกระเจิงที่แตกต่างกัน ยิ่งตัวเลือกแต่ละอย่างใกล้กันมากขึ้นในแง่ของลักษณะเชิงปริมาณ ก็ยิ่งน้อยลง การกระจายตัว (การแกว่ง, ความแปรปรวน)แถวยิ่งมีค่าเฉลี่ยมากขึ้นเท่านั้น
พารามิเตอร์หลักที่ช่วยให้เราประเมินความแปรปรวนของลักษณะนี้คือ:
·ปัด;
· แอมพลิจูด;
· ส่วนเบี่ยงเบนมาตรฐาน;
· ค่าสัมประสิทธิ์การแปรผัน
ความแปรปรวนโดยประมาณของลักษณะนี้สามารถตัดสินได้จากช่วงและแอมพลิจูดของอนุกรมการแปรผัน วงสวิงระบุตัวเลือกสูงสุด (V สูงสุด) และต่ำสุด (V นาที) ในแถว แอมพลิจูด (A m) คือความแตกต่างระหว่างตัวเลือกเหล่านี้: A m = V สูงสุด - V นาที
การวัดความแปรปรวนของอนุกรมความแปรผันที่เป็นที่ยอมรับโดยทั่วไปคือ การกระจายตัว (ดี ). แต่ที่ใช้บ่อยที่สุดคือพารามิเตอร์ที่สะดวกกว่าซึ่งคำนวณจากความแปรปรวน - ส่วนเบี่ยงเบนมาตรฐาน ( σ ). โดยคำนึงถึงปริมาณการเบี่ยงเบน ( d ) ตัวแปรแต่ละชุดของชุดรูปแบบผันแปรจากค่าเฉลี่ยเลขคณิต ( d = V - M ).
เนื่องจากการเบี่ยงเบนของตัวแปรจากค่าเฉลี่ยอาจเป็นค่าบวกและค่าลบ เมื่อรวมกันแล้วจึงให้ค่า "0" (S d = 0). เพื่อหลีกเลี่ยงสิ่งนี้ ค่าเบี่ยงเบน ( d) ยกกำลังสองและหาค่าเฉลี่ย ดังนั้น ความแปรปรวนของอนุกรมรูปแบบแปรผันจึงเป็นกำลังสองเฉลี่ยของการเบี่ยงเบนของตัวแปรจากค่าเฉลี่ยเลขคณิตและคำนวณโดยสูตร:
เป็นลักษณะเฉพาะที่สำคัญที่สุดของความแปรปรวนและใช้ในการคำนวณเกณฑ์ทางสถิติต่างๆ
เนื่องจากความแปรปรวนแสดงอยู่ในกำลังสองของส่วนเบี่ยงเบน จึงไม่สามารถใช้ค่านี้เปรียบเทียบกับค่าเฉลี่ยเลขคณิตได้ เพื่อวัตถุประสงค์เหล่านี้ มันถูกนำไปใช้ ส่วนเบี่ยงเบนมาตรฐานซึ่งเขียนแทนด้วยเครื่องหมาย "ซิกม่า" ( σ ). มันแสดงลักษณะเบี่ยงเบนเฉลี่ยของตัวแปรทั้งหมดของชุดรูปแบบผันแปรจากค่าเฉลี่ยเลขคณิตในหน่วยเดียวกับตัวค่าเฉลี่ย ดังนั้นจึงสามารถใช้ร่วมกันได้
ค่าเบี่ยงเบนมาตรฐานถูกกำหนดโดยสูตร:
ใช้สูตรที่ระบุเมื่อจำนวนการสังเกต ( น ) มากกว่า 30 สำหรับจำนวนที่น้อยกว่า น ค่าเบี่ยงเบนมาตรฐานจะมีข้อผิดพลาดที่เกี่ยวข้องกับอคติทางคณิตศาสตร์ ( น - หนึ่ง). ในเรื่องนี้สามารถรับผลลัพธ์ที่แม่นยำยิ่งขึ้นโดยคำนึงถึงอคติดังกล่าวในสูตรการคำนวณค่าเบี่ยงเบนมาตรฐาน:
ส่วนเบี่ยงเบนมาตรฐาน (ส ) เป็นค่าประมาณค่าเบี่ยงเบนมาตรฐานของตัวแปรสุ่ม Xสัมพันธ์กับการคาดหมายทางคณิตศาสตร์โดยพิจารณาจากค่าความแปรปรวนของค่าประมาณที่ไม่เอนเอียง
ด้วยค่านิยม น > 30 ส่วนเบี่ยงเบนมาตรฐาน ( σ ) และส่วนเบี่ยงเบนมาตรฐาน ( ส ) ก็จะเหมือนเดิม ( σ = ส ). ดังนั้นในคู่มือที่ใช้งานได้จริงส่วนใหญ่ เกณฑ์เหล่านี้จึงถือว่าคลุมเครือใน Excel การคำนวณค่าเบี่ยงเบนมาตรฐานสามารถทำได้โดยใช้ฟังก์ชัน = STDEV (ช่วง) และในการคำนวณค่าเบี่ยงเบนมาตรฐาน คุณต้องสร้างสูตรที่เหมาะสม
ค่าเฉลี่ยรูตกำลังสองหรือค่าเบี่ยงเบนมาตรฐานช่วยให้คุณกำหนดว่าค่าของคุณลักษณะสามารถแตกต่างจากค่าเฉลี่ยได้มากน้อยเพียงใด สมมติว่ามีสองเมืองที่มีอุณหภูมิกลางวันเฉลี่ยเท่ากันในช่วงฤดูร้อน หนึ่งในเมืองเหล่านี้ตั้งอยู่บนชายฝั่งและอีกเมืองหนึ่งในทวีป เป็นที่ทราบกันดีอยู่แล้วว่าในเมืองต่างๆ ที่ตั้งอยู่บริเวณชายฝั่งนั้น อุณหภูมิในเวลากลางวันจะแตกต่างกันน้อยกว่าเมืองที่อยู่ภายในทวีป ดังนั้นค่าเบี่ยงเบนมาตรฐานของอุณหภูมิกลางวันสำหรับเมืองชายฝั่งจะน้อยกว่าเมืองที่สอง ในทางปฏิบัติ นี่หมายความว่าอุณหภูมิอากาศเฉลี่ยในแต่ละวันในเมืองที่ตั้งอยู่ในทวีปจะแตกต่างจากค่าเฉลี่ยมากกว่าในเมืองบนชายฝั่ง นอกจากนี้ ค่าเบี่ยงเบนมาตรฐานยังทำให้สามารถประมาณค่าความเบี่ยงเบนที่เป็นไปได้ของอุณหภูมิจากค่าเฉลี่ยด้วยระดับความน่าจะเป็นที่ต้องการ
ตามทฤษฎีความน่าจะเป็นในปรากฏการณ์ที่ปฏิบัติตามกฎการแจกแจงแบบปกติมีความสัมพันธ์ที่เข้มงวดระหว่างค่าของค่าเฉลี่ยเลขคณิตส่วนเบี่ยงเบนมาตรฐานและตัวเลือก ( กฎสามซิกมา). ตัวอย่างเช่น 68.3% ของค่าของแอตทริบิวต์ตัวแปรอยู่ในช่วง M ± 1 σ , 95.5% - ภายใน M ± 2 σ และ 99.7% - ภายใน M ± 3 σ .
ค่าเบี่ยงเบนมาตรฐานทำให้เราสามารถตัดสินธรรมชาติของความเป็นเนื้อเดียวกันของอนุกรมความแปรผันและกลุ่มที่ศึกษาได้ หากค่าเบี่ยงเบนมาตรฐานมีค่าน้อย แสดงว่าปรากฏการณ์ที่ศึกษามีความสม่ำเสมอสูงเพียงพอ ในกรณีนี้ ค่าเฉลี่ยเลขคณิตควรได้รับการยอมรับว่าเป็นคุณลักษณะเฉพาะของอนุกรมการแปรผันที่กำหนด อย่างไรก็ตาม ค่าซิกมาที่ต่ำเกินไปทำให้นึกถึงการเลือกข้อสังเกตที่ประดิษฐ์ขึ้นเอง ด้วยซิกมาขนาดใหญ่มาก ค่าเฉลี่ยเลขคณิตจะกำหนดลักษณะอนุกรมการแปรผันในระดับที่น้อยกว่า ซึ่งบ่งชี้ถึงความแปรปรวนที่มีนัยสำคัญของลักษณะหรือปรากฏการณ์ที่ศึกษาหรือความแตกต่างของกลุ่มที่ศึกษา อย่างไรก็ตาม การเปรียบเทียบค่าของค่าเบี่ยงเบนมาตรฐานทำได้เฉพาะกับคุณลักษณะที่มีมิติเท่ากันเท่านั้น ที่จริงแล้ว หากเราเปรียบเทียบความหลากหลายของน้ำหนักระหว่างทารกแรกเกิดกับผู้ใหญ่ เราก็จะได้รับค่าซิกมาที่สูงขึ้นในผู้ใหญ่เสมอ
การเปรียบเทียบความแปรปรวนของคุณสมบัติของมิติต่างๆ สามารถทำได้โดยใช้ ค่าสัมประสิทธิ์การแปรผัน... เป็นการแสดงความหลากหลายเป็นเปอร์เซ็นต์ของค่าเฉลี่ย ซึ่งช่วยให้เปรียบเทียบลักษณะต่างๆ ได้ ค่าสัมประสิทธิ์การแปรผันในวรรณคดีทางการแพทย์ระบุด้วยเครื่องหมาย " กับ ", และในทางคณิตศาสตร์" วี“และคำนวณโดยสูตร:
ค่าของสัมประสิทธิ์การแปรผันที่น้อยกว่า 10% บ่งชี้ถึงการกระเจิงเล็กน้อย จาก 10 ถึง 20% - โดยเฉลี่ย มากกว่า 20% - เกี่ยวกับค่าความแปรปรวนแบบกระเจิงที่แข็งแกร่งรอบค่าเฉลี่ยเลขคณิต
ค่าเฉลี่ยเลขคณิตคำนวณจากข้อมูลของกลุ่มตัวอย่าง ด้วยการศึกษาซ้ำๆ ภายใต้อิทธิพลของปรากฏการณ์สุ่ม ค่าเฉลี่ยเลขคณิตอาจเปลี่ยนแปลงได้ นี่เป็นเพราะความจริงที่ว่าตามกฎแล้วจะมีการตรวจสอบเพียงส่วนหนึ่งของหน่วยสังเกตที่เป็นไปได้นั่นคือประชากรตัวอย่างเท่านั้น ข้อมูลเกี่ยวกับหน่วยที่เป็นไปได้ทั้งหมดที่แสดงถึงปรากฏการณ์ภายใต้การศึกษาสามารถรับได้โดยการศึกษาประชากรทั่วไปทั้งหมด ซึ่งไม่สามารถทำได้เสมอไป ในเวลาเดียวกัน ในการสรุปข้อมูลการทดลอง มูลค่าของค่าเฉลี่ยในกลุ่มประชากรทั่วไปเป็นที่สนใจ ดังนั้น เพื่อกำหนดข้อสรุปทั่วไปเกี่ยวกับปรากฏการณ์ที่กำลังศึกษา ผลลัพธ์ที่ได้จากประชากรกลุ่มตัวอย่างจะต้องถูกถ่ายโอนไปยังประชากรทั่วไปด้วยวิธีการทางสถิติ
ในการกำหนดระดับความบังเอิญระหว่างการศึกษาตัวอย่างกับประชากรทั่วไป จำเป็นต้องประเมินขนาดของข้อผิดพลาดที่จะเกิดขึ้นอย่างหลีกเลี่ยงไม่ได้ในการสังเกตตัวอย่าง ข้อผิดพลาดนี้เรียกว่า “ ความผิดพลาดของการเป็นตัวแทน"หรือ" ความคลาดเคลื่อนเฉลี่ยของค่าเฉลี่ยเลขคณิต " อันที่จริง มันคือความแตกต่างระหว่างค่าเฉลี่ยที่ได้รับระหว่างการสังเกตทางสถิติแบบคัดเลือกและค่าที่คล้ายคลึงกันซึ่งจะได้รับระหว่างการศึกษาอย่างต่อเนื่องของวัตถุเดียวกัน กล่าวคือ เมื่อศึกษาประชากรทั่วไป เนื่องจากค่าเฉลี่ยของกลุ่มตัวอย่างเป็นตัวแปรสุ่ม การคาดการณ์ดังกล่าวจึงดำเนินการด้วยระดับความน่าจะเป็นที่ยอมรับได้สำหรับผู้วิจัย ในการวิจัยทางการแพทย์ อย่างน้อย 95%
ข้อผิดพลาดในการเป็นตัวแทนไม่ควรสับสนกับข้อผิดพลาดของการลงทะเบียนหรือข้อผิดพลาดในการให้ความสนใจ (ข้อผิดพลาดของธุรการ การคำนวณผิด การสะกดผิด ฯลฯ) ซึ่งควรลดให้เหลือน้อยที่สุดด้วยวิธีการและเครื่องมือที่เหมาะสมที่ใช้ในการทดสอบ
ขนาดของข้อผิดพลาดในการเป็นตัวแทนขึ้นอยู่กับทั้งขนาดกลุ่มตัวอย่างและความแปรปรวนของลักษณะ ยิ่งจำนวนการสังเกตมากเท่าใด กลุ่มตัวอย่างก็จะยิ่งใกล้กับประชากรทั่วไปมากขึ้นเท่านั้น และข้อผิดพลาดก็จะยิ่งน้อยลงเท่านั้น ยิ่งแอตทริบิวต์มีความผันผวนมากเท่าใด ขนาดของข้อผิดพลาดทางสถิติก็จะยิ่งมากขึ้นเท่านั้น
ในทางปฏิบัติ สูตรต่อไปนี้ใช้เพื่อกำหนดข้อผิดพลาดของการเป็นตัวแทนในชุดการเปลี่ยนแปลง:
ที่ไหน: ม - ข้อผิดพลาดในการเป็นตัวแทน;
σ - ส่วนเบี่ยงเบนมาตรฐาน;
น- จำนวนการสังเกตในกลุ่มตัวอย่าง
จากสูตรจะเห็นได้ว่าขนาดของความคลาดเคลื่อนเฉลี่ยเป็นสัดส่วนโดยตรงกับส่วนเบี่ยงเบนมาตรฐาน กล่าวคือ ความแปรปรวนของลักษณะที่ศึกษา และสัดส่วนผกผันกับรากที่สองของจำนวนการสังเกต
เมื่อทำการวิเคราะห์ทางสถิติโดยพิจารณาจากการคำนวณค่าสัมพัทธ์ การสร้างชุดรูปแบบจะเป็นทางเลือก ในกรณีนี้ การหาค่าความคลาดเคลื่อนเฉลี่ยสำหรับตัวบ่งชี้สัมพัทธ์สามารถทำได้โดยใช้สูตรแบบง่าย:
ที่ไหน: R- ค่าของตัวบ่งชี้สัมพัทธ์ซึ่งแสดงเป็นเปอร์เซ็นต์ ppm ฯลฯ ;
q- ค่าผกผันของ P และแสดงเป็น (1-P), (100-P), (1000-P) ฯลฯ ขึ้นอยู่กับพื้นฐานที่คำนวณตัวบ่งชี้
น- จำนวนการสังเกตในกลุ่มตัวอย่าง
อย่างไรก็ตาม สูตรที่ระบุสำหรับการคำนวณข้อผิดพลาดในการเป็นตัวแทนสำหรับค่าสัมพัทธ์สามารถใช้ได้เฉพาะเมื่อค่าตัวบ่งชี้น้อยกว่าฐาน ในบางกรณีของการคำนวณตัวบ่งชี้แบบเข้มข้น เงื่อนไขดังกล่าวไม่เป็นไปตามที่กำหนด และตัวบ่งชี้สามารถแสดงเป็นตัวเลขมากกว่า 100% หรือ 1,000% ในสถานการณ์เช่นนี้ ชุดรูปแบบจะถูกสร้างขึ้นและข้อผิดพลาดในการเป็นตัวแทนคำนวณโดยใช้สูตรสำหรับค่าเฉลี่ยตามค่าเบี่ยงเบนมาตรฐาน
การพยากรณ์ค่าของค่าเฉลี่ยเลขคณิตในประชากรทั่วไปนั้นดำเนินการด้วยค่าสองค่า - ค่าต่ำสุดและค่าสูงสุด ค่าสุดโต่งของการเบี่ยงเบนที่เป็นไปได้เหล่านี้ซึ่งเรียกว่าค่าเฉลี่ยที่ต้องการของประชากรทั่วไปสามารถผันผวนได้ " ขีดจำกัดความมั่นใจ».
สมมติฐานของทฤษฎีความน่าจะเป็นพิสูจน์ว่าด้วยการแจกแจงแบบปกติของลักษณะที่มีความน่าจะเป็น 99.7% ค่าเบี่ยงเบนสูงสุดของค่ากลางจะไม่เกินค่าความผิดพลาดของการเป็นตัวแทนสามครั้ง ( เอ็ม ± 3 ม ); ใน 95.5% - ไม่เกินค่าคลาดเคลื่อนเฉลี่ยสองเท่าของค่าเฉลี่ย ( เอ็ม ±2 ม ); ใน 68.3% - ไม่เกินหนึ่งข้อผิดพลาดเฉลี่ย ( เอ็ม ± 1 ม ) (รูปที่ 9)
ป.% |
ข้าว. 9. ความหนาแน่นของความน่าจะเป็นของการแจกแจงแบบปกติ
โปรดทราบว่าข้อความข้างต้นใช้ได้เฉพาะกับคุณลักษณะที่เป็นไปตามการแจกแจงแบบเกาส์เซียนปกติเท่านั้น
การวิจัยเชิงทดลองส่วนใหญ่ รวมถึงในสาขาการแพทย์ เกี่ยวข้องกับการวัดผล ซึ่งผลลัพธ์สามารถเก็บค่าได้เกือบทุกค่าในช่วงเวลาที่กำหนด ดังนั้น ตามกฎแล้ว สิ่งเหล่านี้จะถูกอธิบายโดยแบบจำลองของตัวแปรสุ่มแบบต่อเนื่อง ด้วยเหตุนี้ วิธีทางสถิติส่วนใหญ่จึงพิจารณาการแจกแจงแบบต่อเนื่อง หนึ่งในการแจกแจงเหล่านี้ ซึ่งมีบทบาทพื้นฐานในสถิติทางคณิตศาสตร์ คือ ปกติหรือเกาส์เซียนแจกแจง.
มีเหตุผลหลายประการสำหรับเรื่องนี้
1. ก่อนอื่น สามารถอธิบายการสังเกตจากการทดลองจำนวนมากได้สำเร็จโดยใช้การแจกแจงแบบปกติ ควรสังเกตทันทีว่าไม่มีการแจกแจงข้อมูลเชิงประจักษ์ที่ปกติทุกประการ เนื่องจากตัวแปรสุ่มแบบกระจายตามปกติมีช่วงตั้งแต่ ถึง ซึ่งไม่เคยเกิดขึ้นในทางปฏิบัติ อย่างไรก็ตาม การแจกแจงแบบปกติมักจะเป็นการประมาณที่ดี
ไม่ว่าการวัดน้ำหนัก ส่วนสูง และพารามิเตอร์ทางสรีรวิทยาอื่นๆ ของร่างกายมนุษย์จะดำเนินการหรือไม่ก็ตาม ผลลัพธ์จะได้รับอิทธิพลจากปัจจัยสุ่มจำนวนมากในทุกที่ (สาเหตุตามธรรมชาติและข้อผิดพลาดในการวัด) ยิ่งไปกว่านั้น ตามกฎแล้ว ผลกระทบของแต่ละปัจจัยเหล่านี้ไม่มีนัยสำคัญ ประสบการณ์แสดงให้เห็นว่าผลลัพธ์ในกรณีดังกล่าวจะมีการกระจายแบบปกติโดยประมาณ
2. การแจกแจงจำนวนมากที่เกี่ยวข้องกับกลุ่มตัวอย่างแบบสุ่ม โดยการเพิ่มขนาดของหลังจะกลายเป็นปกติ
3. การแจกแจงแบบปกติเหมาะสมอย่างยิ่งกับคำอธิบายโดยประมาณของการแจกแจงแบบต่อเนื่องอื่นๆ (เช่น อสมมาตร)
4. การแจกแจงแบบปกติมีคุณสมบัติทางคณิตศาสตร์ที่น่าพอใจหลายประการ ซึ่งส่วนใหญ่รับรองการใช้อย่างแพร่หลายในสถิติ
ในเวลาเดียวกัน ควรสังเกตว่ามีการแจกแจงแบบทดลองจำนวนมากในข้อมูลทางการแพทย์ที่ไม่สามารถอธิบายได้ด้วยแบบจำลองการแจกแจงแบบปกติ สำหรับสิ่งนี้ สถิติได้พัฒนาวิธีการที่เรียกว่า "Nonparametric"
การเลือกวิธีการทางสถิติที่เหมาะสมสำหรับการประมวลผลข้อมูลของการทดสอบเฉพาะนั้น ควรทำขึ้นโดยขึ้นอยู่กับว่าข้อมูลที่ได้รับนั้นเป็นของกฎหมายการแจกแจงแบบปกติหรือไม่ การทดสอบสมมติฐานสำหรับการอยู่ใต้บังคับบัญชาของคุณลักษณะตามกฎการแจกแจงแบบปกตินั้นดำเนินการโดยใช้ฮิสโตแกรมของการกระจายความถี่ (กราฟ) รวมถึงเกณฑ์ทางสถิติจำนวนหนึ่ง ในหมู่พวกเขา:
เกณฑ์ความไม่สมดุล ( ข );
เกณฑ์การตรวจสอบความโด่ง ( g );
เกณฑ์ชาปิโร - วิลค์ส ( W ) .
การวิเคราะห์ธรรมชาติของการกระจายข้อมูล (เรียกอีกอย่างว่าการตรวจสอบการแจกแจงแบบปกติ) จะดำเนินการสำหรับแต่ละพารามิเตอร์ ในการตัดสินความสอดคล้องของการแจกแจงพารามิเตอร์กับกฎปกติอย่างมั่นใจ จำเป็นต้องมีหน่วยสังเกตจำนวนมากเพียงพอ (อย่างน้อย 30 ค่า)
สำหรับการแจกแจงแบบปกติ เกณฑ์สำหรับความเบ้และความโด่งจะใช้ค่า 0 หากการแจกแจงเลื่อนไปทางขวา ข > 0 (ความไม่สมมาตรบวก) สำหรับ ข < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона g = 0. ที่ g > 0 เส้นการกระจายจะคมชัดกว่าถ้า g < 0 пик более сглаженный, чем функция нормального распределения.
ในการตรวจสอบความปกติตามการทดสอบ Shapiro-Wilks จะต้องค้นหาค่าของเกณฑ์นี้โดยใช้ตารางสถิติที่ระดับนัยสำคัญที่ต้องการและขึ้นอยู่กับจำนวนของหน่วยสังเกต (องศาอิสระ) ภาคผนวก 1 สมมติฐานของภาวะปกติถูกปฏิเสธที่ค่าเล็ก ๆ ของเกณฑ์นี้ตามกฎที่ w <0,8.
สภาพ:
มีข้อมูลองค์ประกอบอายุคนงาน (ปี) : 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28 , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.
- สร้างชุดการกระจายตามช่วงเวลา
- สร้างการแสดงภาพกราฟิกของซีรีส์
- กำหนดแฟชั่นและค่ามัธยฐานแบบกราฟิก
สารละลาย:
1) ตามสูตร Sturgess ประชากรควรแบ่งออกเป็น 1 + 3.322 lg 30 = 6 กลุ่ม
อายุสูงสุดคือ 38 ขั้นต่ำคือ 18
ความกว้างของถัง เนื่องจากปลายถังขยะต้องเป็นจำนวนเต็ม เราจึงแบ่งประชากรออกเป็น 5 กลุ่ม ความกว้างของช่วงคือ 4
เพื่อความสะดวกในการคำนวณ เราจะจัดเรียงข้อมูลตามลำดับจากน้อยไปมาก: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29 , 29, 30 , 30, 31, 32, 32, 33, 34, 35, 38, 38.
การแบ่งอายุแรงงาน
ในเชิงกราฟิก ซีรีส์สามารถแสดงเป็นฮิสโตแกรมหรือรูปหลายเหลี่ยมได้ ฮิสโตแกรมเป็นแผนภูมิแท่ง ฐานของคอลัมน์คือความกว้างของช่วง ความสูงของแท่งเท่ากับความถี่
รูปหลายเหลี่ยม (หรือรูปหลายเหลี่ยมการกระจาย) คือกราฟของความถี่ หากต้องการสร้างบนฮิสโตแกรม ให้เชื่อมต่อจุดกึ่งกลางของด้านบนของรูปสี่เหลี่ยมผืนผ้า เราปิดรูปหลายเหลี่ยมบนแกน Ox ในระยะทางเท่ากับครึ่งช่วงจากค่าสุดขีดของ x
โหมด (Mo) คือค่าของคุณลักษณะที่กำลังศึกษา ซึ่งเกิดขึ้นบ่อยที่สุดในชุดที่กำหนด
ในการกำหนดโหมดจากฮิสโตแกรม ให้เลือกสี่เหลี่ยมผืนผ้าสูงสุด ลากเส้นจากจุดยอดด้านขวาของสี่เหลี่ยมนี้ไปยังมุมบนขวาของสี่เหลี่ยมก่อนหน้า และจากจุดยอดด้านซ้ายของสี่เหลี่ยมโมดอล ให้ลากเส้นไปยังจุดยอดด้านซ้ายของ สี่เหลี่ยมถัดไป จากจุดตัดของเส้นเหล่านี้ ให้ลากเส้นตั้งฉากกับแกน x abscissa จะเป็นแฟชั่น โม ≈ 27.5. ซึ่งหมายความว่าอายุที่พบมากที่สุดในประชากรกลุ่มนี้คือ 27-28 ปี
ค่ามัธยฐาน (Me) คือค่าของลักษณะที่อยู่ระหว่างการศึกษา ซึ่งอยู่ตรงกลางของอนุกรมความแปรผันที่มีลำดับ
เราหาค่ามัธยฐานโดยสะสม Cumulata - กราฟของความถี่สะสม Abscissas เป็นตัวแปรแถว พิกัดคือความถี่สะสม
เพื่อหาค่ามัธยฐานจากค่าสะสม เราพบบนพิกัดที่สอดคล้องกับ 50% ของความถี่สะสม (ในกรณีของเราคือ 15) ลากเส้นตรงผ่านมัน ขนานกับแกน Ox และจากจุดของมัน จุดตัดกับค่าสะสม เราวาดเส้นตั้งฉากกับแกน x abscissa เป็นค่ามัธยฐาน ฉัน ≈ 25.9. ซึ่งหมายความว่าครึ่งหนึ่งของคนงานในประชากรกลุ่มนี้มีอายุน้อยกว่า 26 ปี
Variationalเรียกว่า อนุกรมการแจกจ่าย ซึ่งสร้างขึ้นบนพื้นฐานเชิงปริมาณ ค่าของลักษณะเชิงปริมาณในแต่ละหน่วยของประชากรไม่คงที่ แตกต่างกันมากหรือน้อย
Variation- ความแปรปรวนความแปรปรวนของมูลค่าของลักษณะในหน่วยของประชากร ค่าตัวเลขส่วนบุคคลของลักษณะที่เกิดขึ้นในประชากรที่ศึกษาเรียกว่า ตัวเลือกค่านิยม ความไม่เพียงพอของค่าเฉลี่ยสำหรับคุณลักษณะที่สมบูรณ์ของประชากรทำให้จำเป็นต้องเสริมค่าเฉลี่ยด้วยตัวบ่งชี้ที่ทำให้สามารถประเมินความธรรมดาของค่าเฉลี่ยเหล่านี้ได้โดยการวัดความแปรปรวน (ความแปรปรวน) ของลักษณะที่กำลังศึกษา
การปรากฏตัวของการเปลี่ยนแปลงนั้นเกิดจากอิทธิพลของปัจจัยจำนวนมากต่อการก่อตัวของระดับของลักษณะ ปัจจัยเหล่านี้กระทำการด้วยความแรงไม่เท่ากันและไปในทิศทางที่ต่างกัน ในการอธิบายการวัดความแปรปรวนของคุณลักษณะ จะใช้ตัวบ่งชี้ความแปรผัน
งานของการศึกษาทางสถิติของการแปรผัน:
- 1) การศึกษาธรรมชาติและระดับความแปรปรวนของลักษณะเฉพาะในแต่ละหน่วยของประชากร
- 2) การกำหนดบทบาทของปัจจัยส่วนบุคคลหรือกลุ่มของปัจจัยในการแปรผันของลักษณะเฉพาะของมวลรวม
ในสถิติจะใช้วิธีการพิเศษเพื่อศึกษาความผันแปรตามการใช้ระบบตัวบ่งชี้ กับโดยที่ความแปรผันจะถูกวัด
การศึกษาความผันแปรเป็นสิ่งสำคัญ การวัดความแปรปรวนเป็นสิ่งจำเป็นเมื่อทำการสังเกตแบบคัดเลือก สหสัมพันธ์ และการวิเคราะห์ความแปรปรวน ฯลฯ Ermolaev O.Yu. สถิติทางคณิตศาสตร์สำหรับนักจิตวิทยา: ตำรา [ข้อความ] / O.Yu. เออร์โมเลฟ - M.: สำนักพิมพ์ Flint ของสถาบันจิตวิทยาและสังคมมอสโก, 2012. - 335s
ด้วยระดับของการเปลี่ยนแปลง เราสามารถตัดสินความเป็นเนื้อเดียวกันของประชากร ความเสถียรของค่านิยมส่วนบุคคลของลักษณะเฉพาะ และลักษณะทั่วไปของค่าเฉลี่ย บนพื้นฐานของพวกเขา ตัวชี้วัดความหนาแน่นของความสัมพันธ์ระหว่างสัญญาณ ตัวบ่งชี้สำหรับการประเมินความถูกต้องของการสังเกตตัวอย่างได้รับการพัฒนา
แยกแยะความแตกต่างระหว่างความผันแปรในอวกาศและการเปลี่ยนแปลงของเวลา
ความแปรปรวนในอวกาศเป็นที่เข้าใจกันว่าความแปรปรวนของค่าคุณลักษณะในหน่วยของประชากรซึ่งเป็นตัวแทนของอาณาเขตที่แยกจากกัน การเปลี่ยนแปลงของเวลาเป็นที่เข้าใจกันว่าเป็นการเปลี่ยนแปลงในค่าของลักษณะเฉพาะในช่วงเวลาต่างๆ
เพื่อศึกษาความแปรผันในอนุกรมการแจกจ่าย ตัวแปรทั้งหมดของค่าแอตทริบิวต์จะจัดเรียงตามลำดับจากน้อยไปมากหรือจากมากไปน้อย กระบวนการนี้เรียกว่าการจัดอันดับแถว
สัญญาณการเปลี่ยนแปลงที่ง่ายที่สุดคือ ต่ำสุดและสูงสุด- มูลค่าที่น้อยที่สุดและใหญ่ที่สุดของคุณลักษณะโดยรวม จำนวนการทำซ้ำของค่าคุณลักษณะแต่ละตัวแปรเรียกว่าอัตราการทำซ้ำ (fi) สะดวกในการเปลี่ยนความถี่ด้วยความถี่ - wi ความถี่เป็นตัวบ่งชี้ความถี่สัมพัทธ์ ซึ่งสามารถแสดงเป็นเศษส่วนของหน่วยหรือเป็นเปอร์เซ็นต์ และช่วยให้คุณสามารถเปรียบเทียบชุดรูปแบบต่างๆ กับจำนวนการสังเกตต่างๆ ได้ แสดงโดยสูตร:
โดยที่ Xmax, Xmin เป็นค่าสูงสุดและต่ำสุดของแอตทริบิวต์โดยรวม n คือจำนวนกลุ่ม
ตัวบ่งชี้แบบสัมบูรณ์และแบบสัมพัทธ์ต่างๆ ใช้เพื่อวัดความแปรผันของจุดสนใจ ตัวชี้วัดความผันแปรแบบสัมบูรณ์รวมถึงช่วงของการแปรผัน ค่าเฉลี่ยส่วนเบี่ยงเบนเชิงเส้น ความแปรปรวน ส่วนเบี่ยงเบนมาตรฐาน ตัวบ่งชี้สัมพัทธ์ของการแกว่ง ได้แก่ ค่าสัมประสิทธิ์การสั่น ส่วนเบี่ยงเบนเชิงเส้นสัมพัทธ์ ค่าสัมประสิทธิ์การแปรผัน
ตัวอย่างการหาชุดตัวแปร
ออกกำลังกาย.สำหรับตัวอย่างนี้:
- ก) ค้นหาชุดการเปลี่ยนแปลง
- b) สร้างฟังก์ชันการกระจาย
เลขที่ = 42. รายการตัวอย่าง:
1 5 1 8 1 3 9 4 7 3 7 8 7 3 2 3 5 3 8 3 5 2 8 3 7 9 5 8 8 1 2 2 5 1 6 1 7 6 7 7 6 2
สารละลาย.
- ก) การสร้างชุดรูปแบบที่หลากหลาย:
- 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 5 5 5 5 5 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9
- b) การสร้างชุดตัวแปรแบบแยกส่วน
ให้เราคำนวณจำนวนกลุ่มในอนุกรมผันแปรโดยใช้สูตรสเตอร์เกส:
ลองหาจำนวนกลุ่มที่เท่ากับ 7
เมื่อทราบจำนวนกลุ่มเราคำนวณขนาดของช่วงเวลา:
เพื่อความสะดวกในการสร้างตารางเราจะเอาจำนวนกลุ่มเท่ากับ 8 ช่วงเวลาจะเป็น 1
ข้าว. หนึ่ง ปริมาณการขายโดยร้านค้าสินค้าในช่วงระยะเวลาหนึ่ง