การรวบรวมชุดการเปลี่ยนแปลง แนวคิดของชุดรูปแบบต่างๆ ประเภทของชุดรูปแบบต่างๆ ตัวอย่างชุดรูปแบบต่างๆ

ชุดของวัตถุหรือปรากฏการณ์ที่รวมกันโดยคุณสมบัติหรือคุณสมบัติทั่วไปบางอย่างของธรรมชาติเชิงคุณภาพหรือเชิงปริมาณเรียกว่า วัตถุประสงค์ของการสังเกต .

ทุกวัตถุของการสังเกตทางสถิติประกอบด้วยองค์ประกอบที่แยกจากกัน - หน่วยสังเกตการณ์ .

ผลการสังเกตทางสถิติเป็นข้อมูลตัวเลข - ข้อมูล . ข้อมูลสถิติ - นี่คือข้อมูลเกี่ยวกับคุณค่าของคุณลักษณะที่น่าสนใจของผู้วิจัยในประชากรทางสถิติ

หากค่าของคุณสมบัติแสดงเป็นตัวเลข แสดงว่าคุณสมบัตินั้นเรียกว่า เชิงปริมาณ .

หากจุดสนใจมีลักษณะเฉพาะของคุณสมบัติหรือสถานะขององค์ประกอบของชุด แสดงว่าคุณสมบัตินั้นเรียกว่า คุณภาพ .

หากองค์ประกอบทั้งหมดของประชากรอยู่ภายใต้การวิจัย (การสังเกตอย่างต่อเนื่อง) ประชากรทางสถิติจะเรียกว่า ทั่วไป.

หากส่วนหนึ่งขององค์ประกอบของประชากรทั่วไปอยู่ภายใต้การวิจัย ประชากรทางสถิติจะเรียกว่า ตัวอย่าง (ตัวอย่าง) ... กลุ่มตัวอย่างจากประชากรทั่วไปจะถูกสุ่มขึ้นมาเพื่อให้แต่ละองค์ประกอบตัวอย่างมีโอกาสถูกเลือกเท่ากัน

ค่าของการเปลี่ยนแปลงแอตทริบิวต์ (แตกต่างกันไป) เมื่อย้ายจากองค์ประกอบหนึ่งของประชากรไปยังอีกองค์ประกอบหนึ่งดังนั้นในสถิติจึงเรียกว่าค่าต่าง ๆ ของแอตทริบิวต์ ตัวเลือก ... ตัวแปรต่างๆ มักจะกำหนดด้วยตัวอักษรละตินตัวเล็ก x, y, z

หมายเลขลำดับของตัวแปร (ค่าลักษณะ) เรียกว่า อันดับ ... x 1 - ตัวเลือกที่ 1 (ค่าฟีเจอร์ที่ 1), x 2 - ตัวเลือกที่ 2 (ค่าฟีเจอร์ที่ 2), x i - ตัวเลือกที่ i (ค่าฟีเจอร์ที่ i)

ชุดของค่าแอตทริบิวต์ (ตัวแปร) ที่เรียงลำดับจากน้อยไปมากหรือจากมากไปหาน้อยโดยมีน้ำหนักที่สอดคล้องกันเรียกว่า ชุดรูปแบบต่างๆ (ชุดการกระจาย)

เนื่องจาก ตาชั่ง ความถี่หรือความถี่ออกมา

ความถี่(m i) แสดงจำนวนครั้งที่ตัวเลือกหนึ่งๆ (ค่าคุณลักษณะ) เกิดขึ้นในประชากรทางสถิติ

ความถี่หรือความถี่สัมพัทธ์(w i) แสดงว่าส่วนใดของหน่วยประชากรที่มีตัวแปรนี้หรือตัวแปรนั้น ความถี่คำนวณเป็นอัตราส่วนของความถี่ของตัวเลือกใดตัวเลือกหนึ่งต่อผลรวมของความถี่ทั้งหมดในอนุกรม

. (6.1)

ผลรวมของความถี่ทั้งหมดคือ 1

. (6.2)

ชุดตัวแปรเป็นแบบไม่ต่อเนื่องและเป็นช่วง

ซีรีส์แบบแยกส่วนพวกเขามักจะถูกสร้างขึ้นหากค่าของลักษณะภายใต้การศึกษาสามารถแตกต่างกันอย่างน้อยค่าจำกัดบางอย่าง

ในซีรีย์รูปแบบที่ไม่ต่อเนื่อง ค่าจุดของคุณสมบัติจะถูกตั้งค่า

มุมมองทั่วไปของชุดรูปแบบที่ไม่ต่อเนื่องแสดงในตารางที่ 6.1

ตาราง 6.1

โดยที่ i = 1, 2, ..., ล.

ในอนุกรมความแปรผันของช่วงเวลาในแต่ละช่วงเวลา ขอบเขตบนและล่างของช่วงเวลาจะแตกต่างออกไป

ความแตกต่างระหว่างขอบเขตบนและล่างของช่วงเวลาเรียกว่า ความแตกต่างของช่วงเวลา หรือ ความยาว (ค่า) ของช่วงเวลา .

ค่าของช่วงแรก k 1 ถูกกำหนดโดยสูตร:

k 1 = 2 - 1;

วินาที: k 2 = 3 - 2; ...

สุดท้าย: k l = แอล - แอล -1

โดยทั่วไป ความแตกต่างของช่วงเวลา ki คำนวณโดยสูตร:

ki = x i (สูงสุด) - x i (ต่ำสุด) (6.3)

ถ้าช่วงมีขอบเขตทั้งสอง เรียกว่า ปิด .

ช่วงเวลาแรกและช่วงสุดท้ายสามารถเป็น เปิด , เช่น. มีเส้นขอบเดียวเท่านั้น

ตัวอย่างเช่น ช่วงแรกสามารถระบุเป็น "สูงสุด 100", ช่วงที่สอง - "100-110", ..., ช่วงสุดท้าย - "190-200", ช่วงสุดท้าย - "200 หรือมากกว่า" เห็นได้ชัดว่าช่วงแรกไม่มีขอบล่าง และช่วงสุดท้ายไม่มีช่วงบน ทั้งคู่เปิดอยู่

บ่อยครั้ง ช่วงเวลาเปิดต้องปิดอย่างมีเงื่อนไข สำหรับสิ่งนี้ ค่าของช่วงแรกมักจะเท่ากับค่าของช่วงที่สอง และค่าของช่วงสุดท้าย - ค่าของช่วงสุดท้าย ในตัวอย่างของเรา ค่าของช่วงที่สองคือ 110-100 = 10 ดังนั้น ขีดจำกัดล่างของช่วงแรกจะเป็น 100-10 = 90 ตามเงื่อนไข ค่าของช่วงสุดท้ายคือ 200-190 = 10 ดังนั้น ขีดจำกัดบนของช่วงสุดท้ายจะเป็น 200 + 10 = 210 ตามเงื่อนไข

นอกจากนี้ ช่วงเวลาของความยาวต่างกันสามารถเกิดขึ้นได้ในอนุกรมการแปรผันของช่วงเวลา หากช่วงห่างในอนุกรมความแปรผันมีความยาวเท่ากัน (ความแตกต่างของช่วงเวลา) จะเรียกว่า เท่ากัน , มิฉะนั้น - ไม่เท่ากัน

เมื่อสร้างอนุกรมการแปรผันของช่วงเวลา ปัญหาในการเลือกขนาดของช่วงเวลา (ความแตกต่างของช่วงเวลา) มักเกิดขึ้น

ในการกำหนดขนาดที่เหมาะสมที่สุดของช่วงเวลา (ในกรณีที่ซีรีส์ถูกสร้างขึ้นด้วยช่วงเวลาเท่ากัน) ให้ใช้ สูตรของสเตอร์เกส:

, (6.4)

โดยที่ n คือจำนวนหน่วยในประชากร

x (สูงสุด) และ x (ต่ำสุด) - ค่าที่ใหญ่ที่สุดและน้อยที่สุดของตัวเลือกชุดข้อมูล

ในการอธิบายลักษณะอนุกรมการแปรผันพร้อมกับความถี่และความถี่ ความถี่และความถี่สะสมจะถูกใช้

ความถี่สะสม (ความถี่)แสดงจำนวนหน่วยประชากร (ส่วนใด) ที่ไม่เกินค่าที่กำหนด (ตัวเลือก) x

ความถี่สะสม ( วี) ตามข้อมูลของอนุกรมแบบไม่ต่อเนื่องสามารถคำนวณได้โดยใช้สูตรดังนี้

. (6.5)

สำหรับชุดค่าความผันแปรตามช่วงเวลา เป็นผลรวมของความถี่ (ความถี่) ของช่วงทั้งหมดไม่เกินค่านี้

ชุดรูปแบบที่ไม่ต่อเนื่องสามารถแสดงแบบกราฟิกได้โดยใช้ รูปหลายเหลี่ยมความถี่หรือการกระจายความถี่.

เมื่อสร้างรูปหลายเหลี่ยมการกระจาย ค่าของคุณสมบัติ (ตัวแปร) จะถูกพล็อตตามแกน abscissa และความถี่หรือความถี่จะถูกพล็อตตามแกนพิกัด ที่จุดตัดของค่าของแอตทริบิวต์และความถี่ที่สอดคล้องกัน (ความถี่) จะมีการวางจุดซึ่งในทางกลับกันจะเชื่อมต่อกันด้วยเซ็กเมนต์ เส้นที่เสียที่ได้เรียกว่ารูปหลายเหลี่ยมการกระจายความถี่ (ความถี่)

x k
x2
x 1 x ฉัน


ข้าว. 6.1.

ชุดรูปแบบช่วงเวลาสามารถแสดงแบบกราฟิกได้โดยใช้ ฮิสโตแกรม, เช่น. แผนภูมิแท่ง.

เมื่อสร้างฮิสโตแกรม ค่าของคุณลักษณะที่ศึกษา (ขอบเขตของช่วงเวลา) จะถูกพล็อตตามแกน abscissa

ในกรณีที่ช่วงห่างมีขนาดเท่ากัน สามารถพล็อตความถี่หรือความถี่ตามแกนพิกัดได้

หากช่วงเวลามีค่าต่างกัน ค่าของความหนาแน่นของการแจกแจงแบบสัมบูรณ์หรือแบบสัมพัทธ์ควรพล็อตตามแกนพิกัด

ความหนาแน่นสัมบูรณ์- อัตราส่วนของความถี่ของช่วงเวลาต่อค่าของช่วงเวลา:

; (6.6)

โดยที่: f (a) i คือความหนาแน่นสัมบูรณ์ของช่วง i-th;

ม. ผม - ความถี่ของช่วงที่ i;

ki - ค่าของช่วงที่ i (ความแตกต่างของช่วงเวลา)

ความหนาแน่นสัมบูรณ์แสดงจำนวนหน่วยของประชากรต่อช่วงหนึ่งหน่วย

ความหนาแน่นสัมพัทธ์- อัตราส่วนของความถี่ของช่วงเวลาต่อค่าของช่วงเวลา:

; (6.7)

โดยที่: f (o) i คือความหนาแน่นสัมพัทธ์ของช่วง i-th;

w ผม - ความถี่ของช่วงที่ i

ความหนาแน่นสัมพัทธ์แสดงจำนวนหน่วยประชากรที่อยู่ในหน่วยช่วงเวลา

ฉัน
1 x ฉัน
2

อนุกรมความแปรผันทั้งแบบแยกส่วนและแบบตามช่วงเวลาสามารถแสดงแบบกราฟิกเป็นแบบสะสมและแบบแยกส่วนได้

เมื่อสร้าง สะสมตามข้อมูลของอนุกรมที่ไม่ต่อเนื่อง ค่าของคุณสมบัติ (ตัวแปร) จะถูกพล็อตตาม abscissa และความถี่หรือความถี่ที่สะสมจะถูกพล็อตตามพิกัด ที่จุดตัดของค่าของคุณสมบัติ (ตัวเลือก) และความถี่สะสมที่สอดคล้องกัน (ความถี่) จะสร้างจุดซึ่งในทางกลับกันจะเชื่อมต่อกันด้วยส่วนหรือส่วนโค้ง เส้นหักที่เกิดขึ้น (เส้นโค้ง) เรียกว่าเส้นสะสม (เส้นโค้งสะสม)

เมื่อสร้างการสะสมตามข้อมูลของอนุกรมช่วงเวลา ขอบเขตของช่วงเวลาจะถูกพล็อตตามแกน abscissa abscissas ของจุดคือขอบเขตบนของช่วงเวลา พิกัดสร้างความถี่สะสม (ความถี่) ของช่วงที่สอดคล้องกัน มักจะมีการเพิ่มจุดหนึ่งซึ่ง abscissa ซึ่งเป็นขอบเขตล่างของช่วงแรกและการกำหนดเป็นศูนย์ เชื่อมต่อจุดกับส่วนหรือส่วนโค้ง เราจะได้ค่าสะสม

โอกิวาถูกสร้างขึ้นคล้ายกับการสะสมโดยมีความแตกต่างเพียงอย่างเดียวที่จุดที่สอดคล้องกับความถี่สะสม (ชิ้นส่วน) จะถูกพล็อตบนแกน abscissa และค่าแอตทริบิวต์ (ตัวแปร) จะถูกพล็อตตามแกนพิกัด

อันเป็นผลมาจากการเรียนรู้บทนี้ นักเรียนจะต้อง: ทราบ

  • ตัวชี้วัดความผันแปรและความสัมพันธ์
  • กฎพื้นฐานของการกระจายคุณลักษณะ
  • สาระสำคัญของเกณฑ์ความยินยอม สามารถ
  • คำนวณตัวชี้วัดความผันแปรและเกณฑ์ความเหมาะสม
  • กำหนดลักษณะของการแจกแจง;
  • เพื่อประเมินลักษณะเชิงตัวเลขหลักของอนุกรมการแจกแจงทางสถิติ

เป็นเจ้าของ

  • วิธีการวิเคราะห์ทางสถิติของอนุกรมการแจกแจง
  • พื้นฐานของการวิเคราะห์ความแปรปรวน
  • วิธีตรวจสอบอนุกรมการแจกแจงทางสถิติเพื่อให้เป็นไปตามกฎหมายว่าด้วยการจำหน่ายขั้นพื้นฐาน

ตัวบ่งชี้การเปลี่ยนแปลง

ในการศึกษาทางสถิติเกี่ยวกับคุณลักษณะของประชากรทางสถิติต่างๆ เป็นเรื่องที่น่าสนใจอย่างยิ่งที่จะศึกษาความผันแปรของลักษณะของหน่วยสถิติแต่ละหน่วยของประชากร ตลอดจนธรรมชาติของการกระจายหน่วยของคุณลักษณะนี้ รูปแบบ -นี่คือความแตกต่างในค่าส่วนบุคคลของคุณลักษณะในหน่วยของประชากรที่ศึกษา การศึกษาความผันแปรมีความสำคัญมากในทางปฏิบัติ โดยระดับของความผันแปร เราสามารถตัดสินขอบเขตของการแปรผันของคุณลักษณะ ความสม่ำเสมอของประชากรสำหรับลักษณะนี้ ความปกติของค่าเฉลี่ย ความสัมพันธ์ของปัจจัยที่กำหนดความแปรผัน ตัวบ่งชี้การเปลี่ยนแปลงใช้เพื่อกำหนดลักษณะและจัดลำดับประชากรทางสถิติ

ผลลัพธ์ของการสรุปและการจัดกลุ่มของวัสดุสังเกตการณ์ทางสถิติซึ่งวาดขึ้นในรูปแบบของชุดการแจกแจงทางสถิติ แสดงถึงการกระจายตามลำดับของหน่วยต่างๆ ของประชากรที่ศึกษาออกเป็นกลุ่มตามคุณลักษณะการจัดกลุ่ม (แปรผัน) หากใช้คุณลักษณะเชิงคุณภาพเป็นพื้นฐานสำหรับการจัดกลุ่ม ชุดการแจกจ่ายดังกล่าวจะเรียกว่า แอตทริบิวต์(แบ่งตามอาชีพ เพศ สี ฯลฯ) หากอนุกรมการแจกจ่ายถูกสร้างขึ้นบนพื้นฐานเชิงปริมาณ อนุกรมดังกล่าวจะเรียกว่า ผันแปร(แบ่งตามส่วนสูง น้ำหนัก ขนาดค่าจ้าง ฯลฯ) การสร้างชุดการเปลี่ยนแปลงหมายถึงการจัดลำดับการแจกแจงเชิงปริมาณของหน่วยประชากรตามค่าของแอตทริบิวต์ การนับจำนวนหน่วยประชากรด้วยค่าเหล่านี้ (ความถี่) และการวางผลลัพธ์ลงในตาราง

แทนที่จะใช้ความถี่ของตัวแปร คุณสามารถใช้ความสัมพันธ์กับปริมาณการสังเกตทั้งหมด ซึ่งเรียกว่าความถี่ (ความถี่สัมพัทธ์)

ซีรีย์ความแปรผันมีสองประเภท: แบบไม่ต่อเนื่องและแบบช่วงเวลา ซีรีส์ไม่ต่อเนื่อง- เป็นซีรีส์รูปแบบต่างๆ ตามคุณลักษณะที่มีการเปลี่ยนแปลงไม่ต่อเนื่อง (คุณลักษณะที่ไม่ต่อเนื่อง) อย่างหลังรวมถึงจำนวนพนักงานในสถานประกอบการ ระดับค่าจ้าง จำนวนบุตรในครอบครัว เป็นต้น ชุดรูปแบบที่ไม่ต่อเนื่องคือตารางที่ประกอบด้วยกราฟสองกราฟ คอลัมน์แรกระบุค่าเฉพาะของแอตทริบิวต์ และคอลัมน์ที่สอง - จำนวนหน่วยของประชากรที่มีค่าเฉพาะของแอตทริบิวต์ หากแอตทริบิวต์มีการเปลี่ยนแปลงอย่างต่อเนื่อง (จำนวนรายได้, ประสบการณ์การทำงาน, ต้นทุนของสินทรัพย์ถาวรขององค์กร ฯลฯ ซึ่งสามารถใช้ค่าใดก็ได้ภายในขอบเขตที่กำหนด) ดังนั้นสำหรับแอตทริบิวต์นี้จึงสามารถสร้างได้ ชุดการเปลี่ยนแปลงช่วงเวลาเมื่อสร้างชุดค่าความผันแปรตามช่วงเวลา ตารางจะมีสองคอลัมน์ด้วย ครั้งแรกมีค่าของคุณลักษณะในช่วงเวลา "จาก - ถึง" (ตัวเลือก) วินาที - จำนวนหน่วยที่รวมอยู่ในช่วงเวลา (ความถี่) ความถี่ (อัตราการทำซ้ำ) - จำนวนการทำซ้ำของตัวแปรที่แยกจากกันของค่าแอตทริบิวต์ ช่วงเวลาสามารถปิดและเปิดได้ ช่วงเวลาที่ปิดถูกจำกัดทั้งสองด้าน กล่าวคือ มีเส้นขอบทั้งด้านล่าง ("จาก") และด้านบน ("ถึง") ช่วงเวลาที่เปิดมีขอบใดขอบหนึ่ง: บนหรือล่าง หากตัวเลือกเรียงตามลำดับจากน้อยไปมากหรือจากมากไปน้อยจะเรียกว่าแถว อันดับ

สำหรับชุดความแปรผัน มีตัวเลือกการตอบสนองความถี่สองประเภท: ความถี่สะสมและความถี่สะสม ความถี่สะสมแสดงจำนวนการสังเกตที่ค่าของคุณสมบัตินั้นใช้กับค่าที่น้อยกว่าค่าที่ระบุ ความถี่สะสมถูกกำหนดโดยการรวมค่าความถี่ของแอตทริบิวต์สำหรับกลุ่มนี้กับความถี่ทั้งหมดของกลุ่มก่อนหน้า ความถี่สะสมกำหนดลักษณะสัดส่วนของหน่วยสังเกตที่ค่าของลักษณะไม่เกินขีด จำกัด บนของกลุ่มวัน ดังนั้น ความถี่สะสมจะแสดงความถ่วงจำเพาะของตัวแปรในผลรวม โดยมีค่าไม่เกินค่าที่กำหนด ความถี่ ความถี่ ความหนาแน่นสัมบูรณ์และสัมพัทธ์ ความถี่สะสมและความถี่เป็นลักษณะของขนาดของตัวแปร

ศึกษาความแปรปรวนในแอตทริบิวต์ของหน่วยสถิติของประชากรตลอดจนธรรมชาติของการแจกแจงโดยใช้ตัวบ่งชี้และลักษณะของชุดรูปแบบต่าง ๆ ซึ่งรวมถึงระดับเฉลี่ยของชุดข้อมูล ส่วนเบี่ยงเบนเชิงเส้นเฉลี่ย ส่วนเบี่ยงเบนมาตรฐาน ความแปรปรวน , สัมประสิทธิ์การแกว่ง, การแปรผัน, ความไม่สมมาตร, ความโด่ง ฯลฯ

ค่าเฉลี่ยใช้เพื่อกำหนดลักษณะศูนย์กลางของการกระจาย ค่าเฉลี่ยเป็นลักษณะทั่วไปทางสถิติซึ่งระดับทั่วไปของลักษณะที่สมาชิกของประชากรที่ศึกษามีจะถูกหาปริมาณ อย่างไรก็ตาม กรณีของความบังเอิญของค่าเฉลี่ยทางคณิตศาสตร์นั้นเป็นไปได้ด้วยธรรมชาติที่แตกต่างกันของการแจกแจง ดังนั้น เนื่องจากลักษณะทางสถิติของอนุกรมความแปรปรวน จึงคำนวณค่าเฉลี่ยโครงสร้างที่เรียกว่า - โหมด ค่ามัธยฐาน และปริมาณที่แบ่งการแจกแจง เรียงเป็นส่วนเท่าๆ กัน (ควอร์ไทล์ เดซิลี เปอร์เซ็นไทล์ ฯลฯ) )

แฟชั่น -นี่คือค่าของคุณลักษณะที่เกิดขึ้นในชุดการแจกจ่ายบ่อยกว่าค่าอื่นๆ สำหรับซีรีย์ที่ไม่ต่อเนื่อง นี่คือตัวเลือกที่มีความถี่สูงสุด ในชุดความแปรผันของช่วงเวลา เพื่อกำหนดโหมด จำเป็นต้องกำหนดก่อนอื่น ช่วงเวลาซึ่งอยู่ ซึ่งเรียกว่าช่วงโมดอล ในอนุกรมการแปรผันที่มีช่วงเวลาเท่ากัน ช่วงเวลาโมดอลจะถูกกำหนดโดยความถี่สูงสุด ในอนุกรมที่มีช่วงเวลาไม่เท่ากัน - แต่ความหนาแน่นของการแจกแจงสูงสุด จากนั้น เพื่อกำหนดโหมดในแถวที่มีช่วงเวลาเท่ากัน ให้ใช้สูตร

โดยที่ Mo คือค่าของโหมด x Mo คือขอบเขตล่างของช่วงโมดอล ชม -ความกว้างของช่วงโมดอล / Mo คือความถี่ของช่วงโมดอล / Mo j คือความถี่ของช่วงพรีโมดอล / Mo + 1 คือความถี่ของช่วงหลังโมดอล และสำหรับซีรีส์ที่มีช่วงเวลาไม่เท่ากันในสูตรการคำนวณนี้แทนความถี่ / Mo, / Mo, / Mo ควรใช้ความหนาแน่นของการกระจาย จิตใจ 0 _| , จิตใจ 0> ยูโม + "

หากมีโหมดเดียว การแจกแจงความน่าจะเป็นของตัวแปรสุ่มจะเรียกว่า unimodal หากมีมากกว่าหนึ่งโหมดจะเรียกว่า multimodal (polymodal, multimodal) ในกรณีของสองโหมด - bimodal ตามกฎแล้ว multimodality ระบุว่าการกระจายที่ศึกษาไม่เป็นไปตามกฎของการแจกแจงแบบปกติ สำหรับประชากรที่เป็นเนื้อเดียวกัน ตามกฎแล้ว การแจกแจงแบบยูนิโมดัลนั้นเป็นลักษณะเฉพาะ จุดยอดหลายจุดยังบ่งบอกถึงความแตกต่างของประชากรที่ศึกษา การปรากฏตัวของจุดยอดตั้งแต่สองจุดขึ้นไปทำให้จำเป็นต้องจัดกลุ่มข้อมูลใหม่เพื่อเลือกกลุ่มที่เป็นเนื้อเดียวกันมากขึ้น

ในอนุกรมความแปรผันตามช่วงเวลา โหมดสามารถกำหนดแบบกราฟิกได้โดยใช้ฮิสโตแกรม สำหรับสิ่งนี้ เส้นตัดกันสองเส้นจะถูกลากจากจุดสูงสุดของคอลัมน์สูงสุดของฮิสโตแกรมไปยังจุดสูงสุดของสองคอลัมน์ที่อยู่ติดกัน จากนั้นจากจุดตัดของพวกมัน จะวางแนวตั้งฉากลงบนแกน abscissa ค่าของจุดสนใจบนแกน abscissa ที่สอดคล้องกับแนวตั้งฉากคือโหมด ในหลายกรณี เมื่อกำหนดลักษณะประชากร แฟชั่นเป็นที่นิยมมากกว่าค่าเฉลี่ยเลขคณิตเป็นตัวบ่งชี้ทั่วไป

ค่ามัธยฐาน -นี่คือความหมายสำคัญของคุณลักษณะนี้ซึ่งอยู่ในสมาชิกส่วนกลางของชุดการแจกจ่ายอันดับ ในอนุกรมแบบแยกส่วน เพื่อที่จะหาค่ามัธยฐาน จะต้องกำหนดเลขลำดับก่อน เมื่อต้องการทำเช่นนี้ ด้วยจำนวนหน่วยคี่ หนึ่งจะถูกรวมเข้ากับผลรวมของความถี่ทั้งหมด จำนวนนั้นหารด้วยสอง ถ้าจำนวนหน่วยเป็นเลขคู่ จะมีหน่วยมัธยฐานสองหน่วยในอนุกรม ดังนั้น ในกรณีนี้ ค่ามัธยฐานจะถูกกำหนดเป็นค่าเฉลี่ยของค่าของหน่วยมัธยฐานทั้งสอง ดังนั้น ค่ามัธยฐานในชุดรูปแบบที่ไม่ต่อเนื่องคือค่าที่แบ่งชุดข้อมูลออกเป็นสองส่วนโดยมีจำนวนตัวเลือกเท่ากัน

ในชุดช่วงเวลา หลังจากกำหนดจำนวนลำดับของค่ามัธยฐานแล้ว ช่วงตรงกลางจะพบโดยความถี่สะสม (ส่วนต่างๆ) จากนั้นโดยใช้สูตรคำนวณค่ามัธยฐาน ค่าของมัธยฐานจะถูกกำหนด:

โดยที่ Me คือค่ามัธยฐาน x ฉัน -ขอบล่างของช่วงมัธยฐาน ชม -ความกว้างของช่วงมัธยฐาน - ผลรวมของความถี่ของอนุกรมการแจกแจง; / D - ความถี่สะสมของช่วงก่อนค่ามัธยฐาน; / Me คือความถี่ของช่วงมัธยฐาน

ค่ามัธยฐานสามารถพบได้แบบกราฟิกโดยใช้ค่าสะสม สำหรับสิ่งนี้ ในระดับของความถี่สะสม (ความถี่) ของสะสมจากจุดที่ตรงกับเลขลำดับของค่ามัธยฐาน เส้นตรงจะถูกลากขนานกับแกน abscissa จนกว่าจะตัดกับค่าสะสม นอกจากนี้ จากจุดตัดของเส้นตรงที่ระบุกับค่าสะสม จะวางแนวตั้งฉากลงบนแกน abscissa ค่าของจุดสนใจบนแกน abscissa ที่สอดคล้องกับพิกัดที่วาด (ตั้งฉาก) คือค่ามัธยฐาน

ค่ามัธยฐานมีลักษณะดังต่อไปนี้

  • 1. ไม่ได้ขึ้นอยู่กับค่าของคุณลักษณะที่อยู่ด้านใดด้านหนึ่งของมัน
  • 2. มีคุณสมบัติของความน้อยที่สุดซึ่งประกอบด้วยความจริงที่ว่าผลรวมของการเบี่ยงเบนสัมบูรณ์ของค่าของแอตทริบิวต์จากค่ามัธยฐานคือค่าต่ำสุดเมื่อเปรียบเทียบกับค่าเบี่ยงเบนของค่าแอตทริบิวต์จาก ค่าอื่นใด
  • 3. เมื่อรวมการแจกแจงสองครั้งกับค่ามัธยฐานที่ทราบ เป็นไปไม่ได้ที่จะคาดการณ์ล่วงหน้าถึงค่ามัธยฐานของการแจกแจงใหม่

คุณสมบัติเหล่านี้ของค่ามัธยฐานใช้กันอย่างแพร่หลายในการออกแบบที่ตั้งของจุดบริการสาธารณะ - โรงเรียน, คลินิก, สถานีบริการน้ำมัน, ท่อส่งน้ำ ฯลฯ ตัวอย่างเช่น หากมีการวางแผนที่จะสร้างโพลีคลินิกในบางส่วนของเมือง ก็ควรที่จะตั้งไว้ที่จุดในไตรมาสที่แบ่งครึ่งไม่ใช่ความยาวของไตรมาส แต่จำนวนผู้อยู่อาศัย

อัตราส่วนของโหมด ค่ามัธยฐาน และค่าเฉลี่ยเลขคณิตระบุถึงลักษณะของการกระจายของแอตทริบิวต์ในผลรวม ช่วยให้คุณประเมินความสมมาตรของการกระจายได้ ถ้า x Me จึงไม่สมมาตรด้านขวาของแถว ด้วยการแจกแจงแบบปกติ เอ็กซ์ -ฉัน - โม

เค. เพียร์สัน บนพื้นฐานของการปรับเส้นโค้งประเภทต่างๆ ให้เท่ากัน กำหนดว่าสำหรับการแจกแจงแบบอสมมาตรปานกลาง ความสัมพันธ์โดยประมาณต่อไปนี้ระหว่างค่าเฉลี่ยเลขคณิต ค่ามัธยฐาน และโหมดจะถูกต้อง:

โดยที่ Me คือค่ามัธยฐาน โมคือความหมายของแฟชั่น x arithm - ค่าของค่าเฉลี่ยเลขคณิต

หากจำเป็นต้องศึกษาโครงสร้างของชุดรูปแบบรายละเอียดเพิ่มเติม ค่าของคุณลักษณะจะถูกคำนวณซึ่งคล้ายกับค่ามัธยฐาน ค่าของคุณลักษณะดังกล่าวแบ่งหน่วยการกระจายทั้งหมดออกเป็นจำนวนเท่ากันเรียกว่าควอนไทล์หรือการไล่ระดับสี ควอนไทล์แบ่งออกเป็นควอร์ไทล์ เดซิลี เปอร์เซ็นไทล์ ฯลฯ

ควอร์ไทล์แบ่งประชากรออกเป็นสี่ส่วนเท่า ๆ กัน ควอไทล์แรกคำนวณคล้ายกับค่ามัธยฐานโดยใช้สูตรสำหรับคำนวณควอร์ไทล์แรก โดยก่อนหน้านี้ได้กำหนดช่วงไตรมาสแรก:

โดยที่ Qi คือค่าของควอร์ไทล์แรก x คิว ^ -ขอบล่างของช่วงควอร์ไทล์แรก ชม- ความกว้างของช่วงไตรมาสแรก /, - ความถี่ของอนุกรมช่วงเวลา;

ความถี่สะสมในช่วงก่อนช่วงควอร์ไทล์แรก Jq (คือความถี่ของช่วงควอร์ไทล์แรก

ควอร์ไทล์แรกแสดงให้เห็นว่า 25% ของหน่วยประชากรมีค่าน้อยกว่าค่าของมัน และ 75% หรือมากกว่านั้น ควอร์ไทล์ที่สองเท่ากับค่ามัธยฐานนั่นคือ คำถามที่ 2 =ฉัน.

โดยการเปรียบเทียบ ควอร์ไทล์ที่สามถูกคำนวณ โดยก่อนหน้านี้พบช่วงไตรมาสที่สาม:

ขอบล่างของช่วงควอร์ไทล์ที่สามอยู่ที่ไหน ชม- ความกว้างของช่วงควอร์ไทล์ที่สาม /, - ความถี่ของอนุกรมช่วงเวลา; / X "-ความถี่สะสมในช่วงเวลาก่อนหน้า

จี

ช่วงควอร์ไทล์ที่สาม Jq คือความถี่ของช่วงควอร์ไทล์ที่สาม

ควอร์ไทล์ที่สามแสดงให้เห็นว่า 75% ของหน่วยประชากรมีค่าน้อยกว่าค่าของมัน และอีก 25% - มากกว่า

ความแตกต่างระหว่างควอร์ไทล์ที่สามและควอไทล์แรกคือพิสัยระหว่างควอไทล์:

โดยที่ Aq คือค่าของพิสัยระหว่างควอไทล์ คำถามที่ 3 -มูลค่าของควอร์ไทล์ที่สาม Q คือค่าของควอร์ไทล์แรก

Deciles แบ่งผลรวมเป็น 10 ส่วนเท่า ๆ กัน เดไซล์เป็นค่าของคุณลักษณะในอนุกรมการแจกแจง ซึ่งสอดคล้องกับหนึ่งในสิบของขนาดประชากร โดยการเปรียบเทียบกับควอร์ไทล์ เดไซล์แรกแสดงให้เห็นว่า 10% ของหน่วยประชากรน้อยกว่าค่าของมัน และ 90% - มากกว่า และเดซิเบลที่เก้าแสดงให้เห็นว่า 90% ของหน่วยประชากรน้อยกว่ามูลค่าของมัน และ 10% - มากกว่า. อัตราส่วนของเดซิเบลที่เก้าและแรกคือ ค่าสัมประสิทธิ์เดซิลใช้กันอย่างแพร่หลายในการศึกษาความแตกต่างของรายได้เพื่อวัดอัตราส่วนของระดับรายได้ของคนที่รวยที่สุด 10% และ 10% ของประชากรที่ยากจนที่สุด เปอร์เซ็นไทล์แบ่งประชากรที่ได้รับการจัดอันดับออกเป็น 100 ส่วนเท่าๆ กัน การคำนวณ ความหมาย และการใช้เปอร์เซ็นไทล์คล้ายกับเดซิลี

ควอร์ไทล์ เดซิลี และลักษณะเชิงโครงสร้างอื่นๆ สามารถกำหนดได้แบบกราฟิกโดยการเปรียบเทียบกับค่ามัธยฐานโดยใช้ค่าสะสม

ตัวชี้วัดต่อไปนี้ใช้เพื่อวัดขนาดของรูปแบบ: ช่วงของการแปรผัน, ส่วนเบี่ยงเบนเชิงเส้นเฉลี่ย, ส่วนเบี่ยงเบนมาตรฐาน, ความแปรปรวน ขนาดของช่วงการแปรผันทั้งหมดขึ้นอยู่กับความสุ่มของการกระจายเงื่อนไขสุดโต่งของชุดข้อมูล ตัวบ่งชี้นี้เป็นที่สนใจในกรณีที่จำเป็นต้องรู้ว่าความกว้างของความผันผวนในค่าของแอตทริบิวต์คืออะไร:

ที่ไหน อาร์ -ค่าของช่วงของการแปรผัน x max คือค่าสูงสุดของคุณสมบัติ x tt -ค่าต่ำสุดของคุณสมบัติ

เมื่อคำนวณช่วงของความผันแปร ค่าของสมาชิกส่วนใหญ่ในซีรีส์จะไม่นำมาพิจารณา ในขณะที่รูปแบบนั้นจะสัมพันธ์กับแต่ละค่าของสมาชิกของชุดข้อมูล ข้อเสียเปรียบนี้ไม่มีตัวบ่งชี้ซึ่งเป็นค่าเฉลี่ยที่ได้จากการเบี่ยงเบนของค่าแต่ละค่าของคุณลักษณะจากค่าเฉลี่ย: ค่าเบี่ยงเบนเชิงเส้นเฉลี่ยและค่าเบี่ยงเบนมาตรฐาน มีความสัมพันธ์โดยตรงระหว่างการเบี่ยงเบนส่วนบุคคลจากค่าเฉลี่ยและความแปรปรวนของลักษณะเฉพาะ ยิ่งความผันผวนมากเท่าใด ขนาดสัมบูรณ์ของการเบี่ยงเบนจากค่าเฉลี่ยก็จะยิ่งมากขึ้น

ค่าเบี่ยงเบนเชิงเส้นเฉลี่ยคือค่าเฉลี่ยเลขคณิตของค่าสัมบูรณ์ของการเบี่ยงเบนของตัวเลือกแต่ละรายการจากค่าเฉลี่ย

ส่วนเบี่ยงเบนเชิงเส้นเฉลี่ยสำหรับข้อมูลที่ไม่ได้จัดกลุ่ม

โดยที่ / pr คือค่าของส่วนเบี่ยงเบนเชิงเส้นเฉลี่ย x, - คือค่าของคุณสมบัติ; เอ็กซ์ - พี -จำนวนหน่วยในประชากร

ส่วนเบี่ยงเบนเชิงเส้นเฉลี่ยของอนุกรมที่จัดกลุ่ม

โดยที่ / vz - ค่าของส่วนเบี่ยงเบนเชิงเส้นเฉลี่ย x คือค่าของคุณสมบัติ เอ็กซ์ -ค่าเฉลี่ยของลักษณะสำหรับประชากรที่ศึกษา / คือจำนวนหน่วยประชากรในกลุ่มที่แยกจากกัน

ในกรณีนี้ สัญญาณของการเบี่ยงเบนจะถูกละเว้น มิฉะนั้น ผลรวมของการเบี่ยงเบนทั้งหมดจะเท่ากับศูนย์ ค่าเบี่ยงเบนเชิงเส้นเฉลี่ย ขึ้นอยู่กับการจัดกลุ่มของข้อมูลที่วิเคราะห์ คำนวณโดยใช้สูตรต่างๆ: สำหรับข้อมูลที่จัดกลุ่มและไม่รวม ค่าเบี่ยงเบนเชิงเส้นเฉลี่ยเนื่องจากธรรมเนียมปฏิบัติ ซึ่งแยกจากตัวบ่งชี้อื่น ๆ ของการแปรผัน ในทางปฏิบัติมักไม่ค่อยนำมาใช้ (โดยเฉพาะอย่างยิ่ง เพื่อกำหนดลักษณะการปฏิบัติตามภาระผูกพันตามสัญญาในแง่ของความสม่ำเสมอของการส่งมอบ ในการวิเคราะห์มูลค่าการค้าต่างประเทศ องค์ประกอบของพนักงาน จังหวะการผลิต คุณภาพของผลิตภัณฑ์ โดยคำนึงถึงคุณสมบัติทางเทคโนโลยีของการผลิต และอื่นๆ)

ค่าเบี่ยงเบนมาตรฐานกำหนดลักษณะโดยเฉลี่ยว่าค่าแต่ละค่าของคุณลักษณะภายใต้การศึกษาเบี่ยงเบนไปจากค่าเฉลี่ยของประชากรมากน้อยเพียงใด และแสดงเป็นหน่วยวัดของลักษณะที่ศึกษา ค่าเบี่ยงเบนมาตรฐานซึ่งเป็นหนึ่งในการวัดหลักของการแปรผันมีการใช้กันอย่างแพร่หลายในการประเมินขอบเขตของการแปรผันของลักษณะในประชากรที่เป็นเนื้อเดียวกันในการกำหนดค่าของพิกัดของเส้นโค้งการกระจายปกติตลอดจนในการคำนวณ ที่เกี่ยวข้องกับการจัดระเบียบการสังเกตตัวอย่างและการกำหนดความถูกต้องของลักษณะตัวอย่าง ค่าเบี่ยงเบนฐานราก-ค่าเฉลี่ย-กำลังสองของข้อมูลที่ไม่หยาบคำนวณโดยใช้อัลกอริธึมต่อไปนี้: แต่ละส่วนเบี่ยงเบนจากค่าเฉลี่ยจะถูกยกกำลังสอง, กำลังสองทั้งหมดจะถูกรวมเข้าด้วยกัน หลังจากนั้นผลรวมของกำลังสองหารด้วยจำนวนสมาชิกของ อนุกรมและรากที่สองแยกจากผลหาร:

โดยที่ Iip คือค่าของส่วนเบี่ยงเบนมาตรฐาน เอ็กซ์เจ -ค่าของคุณสมบัติ; X- ค่าเฉลี่ยของลักษณะสำหรับประชากรที่ศึกษา พี -จำนวนหน่วยในประชากร

สำหรับข้อมูลที่วิเคราะห์แบบจัดกลุ่ม ค่าเบี่ยงเบนมาตรฐานของข้อมูลคำนวณโดยใช้สูตรถ่วงน้ำหนัก

ที่ไหน - ค่าของส่วนเบี่ยงเบนมาตรฐาน เอ็กซ์เจ -ค่าของคุณสมบัติ; เอ็กซ์ -ค่าเฉลี่ยของลักษณะสำหรับประชากรที่ศึกษา ฉ x -จำนวนหน่วยประชากรในแต่ละกลุ่ม

นิพจน์ภายใต้รูทในทั้งสองกรณีเรียกว่าความแปรปรวน ดังนั้นความแปรปรวนจะถูกคำนวณเป็นกำลังสองเฉลี่ยของการเบี่ยงเบนของค่าคุณลักษณะจากค่าเฉลี่ย สำหรับค่าที่ไม่ถ่วงน้ำหนัก (แบบง่าย) ของคุณลักษณะ ความแปรปรวนจะถูกกำหนดดังนี้:

สำหรับค่าคุณลักษณะถ่วงน้ำหนัก

นอกจากนี้ยังมีวิธีการคำนวณความแปรปรวนอย่างง่ายพิเศษ: ในรูปแบบทั่วไป

สำหรับค่าคุณลักษณะที่ไม่ถ่วงน้ำหนัก (อย่างง่าย) สำหรับค่าคุณลักษณะถ่วงน้ำหนัก
โดยใช้วิธีนับศูนย์ตามเงื่อนไข

โดยที่ 2 คือค่าของความแปรปรวน x, - คือค่าของคุณสมบัติ; เอ็กซ์ -ค่าเฉลี่ยของคุณสมบัติ ชม -ค่าช่วงกลุ่ม เสื้อ 1 -น้ำหนัก (A =

การกระจายตัวมีการแสดงออกที่เป็นอิสระในสถิติและเป็นหนึ่งในตัวบ่งชี้ที่สำคัญที่สุดของการเปลี่ยนแปลง มีหน่วยวัดเป็นหน่วยที่สอดคล้องกับกำลังสองของหน่วยการวัดลักษณะที่ศึกษา

การกระจายมีคุณสมบัติดังต่อไปนี้

  • 1. ความแปรปรวนของค่าคงที่เป็นศูนย์
  • 2. การลดลงของค่าทั้งหมดของคุณลักษณะด้วยค่าเดียวกัน A จะไม่เปลี่ยนขนาดของความแปรปรวน ซึ่งหมายความว่าค่าเฉลี่ยกำลังสองของการเบี่ยงเบนไม่สามารถคำนวณได้โดยค่าที่กำหนดของแอตทริบิวต์ แต่โดยการเบี่ยงเบนจากจำนวนคงที่บางส่วน
  • 3. ลดค่าทั้งหมดของแอตทริบิวต์ใน kครั้งจะลดความแปรปรวนลง k 2 ครั้งและค่าเบี่ยงเบนมาตรฐาน - in kครั้ง กล่าวคือ ค่าทั้งหมดของแอตทริบิวต์สามารถหารด้วยจำนวนคงที่บางส่วน (เช่นโดยค่าช่วงเวลาของซีรีส์) คำนวณค่าเบี่ยงเบนมาตรฐานแล้วคูณด้วยจำนวนคงที่
  • 4. หากคุณคำนวณค่าเฉลี่ยกำลังสองของค่าเบี่ยงเบนจากค่าใด ๆ และที่ซึ่งแตกต่างจากค่าเฉลี่ยเลขคณิตในระดับหนึ่ง จากนั้นจะมากกว่าค่าเฉลี่ยกำลังสองของการเบี่ยงเบนที่คำนวณจากค่าเฉลี่ยเลขคณิตเสมอ ในกรณีนี้ ค่าเฉลี่ยกำลังสองของส่วนเบี่ยงเบนจะมากกว่าด้วยจำนวนที่แน่นอน - โดยกำลังสองของผลต่างระหว่างค่าเฉลี่ยกับค่าที่คิดตามอัตภาพ

ความผันแปรของคุณลักษณะทางเลือกประกอบด้วยการมีอยู่หรือไม่มีทรัพย์สินที่ศึกษาในหน่วยของประชากร ในเชิงปริมาณ ความแปรผันของจุดสนใจทางเลือกจะแสดงเป็นสองค่า: การมีอยู่ของคุณสมบัติที่ศึกษาในหน่วยหนึ่งถูกระบุด้วยหน่วย (1) และการไม่มีมันด้วยศูนย์ (0) เศษส่วนของหน่วยที่มีทรัพย์สินอยู่ระหว่างการศึกษาแสดงโดย P และเศษของหน่วยที่ไม่มีคุณสมบัตินี้จะแสดงด้วย ก.ดังนั้น ความแปรปรวนของคุณลักษณะทางเลือกจะเท่ากับผลคูณของเศษส่วนของหน่วยที่มีคุณสมบัตินี้ (P) โดยเศษของหน่วยที่ไม่มีคุณสมบัตินี้ (ช).การแปรผันที่ยิ่งใหญ่ที่สุดในประชากรจะเกิดขึ้นได้ในกรณีที่ประชากรส่วนหนึ่งซึ่งเท่ากับ 50% ของปริมาณประชากรทั้งหมดมีลักษณะเฉพาะ และอีกส่วนหนึ่งของประชากร เท่ากับ 50% ไม่มี คุณลักษณะนี้ ในขณะที่ความแปรปรวนถึงค่าสูงสุด 0.25 เช่น .e พี = 0.5, ก = 1 - P = 1 - 0.5 = 0.5 และ o 2 = 0.5 0.5 = 0.25 ขอบเขตล่างของตัวบ่งชี้นี้คือศูนย์ ซึ่งสอดคล้องกับสถานการณ์ที่ไม่มีการแปรผันโดยรวม การประยุกต์ใช้ความแปรปรวนของคุณลักษณะทางเลือกในทางปฏิบัติคือการสร้างช่วงความเชื่อมั่นเมื่อทำการสังเกตตัวอย่าง

ยิ่งความแปรปรวนและค่าเบี่ยงเบนมาตรฐานน้อยเท่าใด ประชากรก็จะยิ่งมีความเหมือนกันมากขึ้นเท่านั้น และค่าเฉลี่ยก็จะยิ่งเป็นแบบทั่วไปมากขึ้น ในทางปฏิบัติของสถิติ มักจะจำเป็นต้องเปรียบเทียบความผันแปรของคุณลักษณะต่างๆ ตัวอย่างเช่น เป็นเรื่องที่น่าสนใจที่จะเปรียบเทียบความผันแปรของอายุแรงงานและคุณสมบัติ ระยะเวลาในการให้บริการและค่าจ้าง ต้นทุนและผลกำไร ระยะเวลาในการให้บริการและผลิตภาพแรงงาน เป็นต้น สำหรับการเปรียบเทียบดังกล่าว ตัวชี้วัดของความแปรปรวนสัมบูรณ์ของลักษณะเฉพาะไม่เหมาะสม: เป็นไปไม่ได้ที่จะเปรียบเทียบความแปรปรวนของระยะเวลาในการให้บริการซึ่งแสดงเป็นปีโดยมีการเปลี่ยนแปลงของค่าจ้างที่แสดงเป็นรูเบิล เพื่อทำการเปรียบเทียบดังกล่าว เช่นเดียวกับการเปรียบเทียบความผันผวนของคุณลักษณะเดียวกันในกลุ่มประชากรหลายกลุ่มที่มีวิธีการทางคณิตศาสตร์ต่างกัน ตัวชี้วัดของการเปลี่ยนแปลงจะถูกใช้ - ค่าสัมประสิทธิ์การสั่น สัมประสิทธิ์เชิงเส้นของการแปรผัน และค่าสัมประสิทธิ์การแปรผัน ซึ่งแสดง การวัดความผันผวนของค่าสุดขีดรอบค่าเฉลี่ย

ค่าสัมประสิทธิ์การสั่น:

ที่ไหน วี อาร์ -ค่าสัมประสิทธิ์การสั่น R- ค่าของช่วงของการเปลี่ยนแปลง; เอ็กซ์ -

ค่าสัมประสิทธิ์การแปรผันเชิงเส้น ".

ที่ไหน วีเจ -ค่าสัมประสิทธิ์เชิงเส้นของการแปรผัน ผม -ค่าเบี่ยงเบนเชิงเส้นเฉลี่ย เอ็กซ์ -ค่าเฉลี่ยของลักษณะสำหรับประชากรที่ศึกษา

ค่าสัมประสิทธิ์การแปรผัน:

ที่ไหน วี เอ -ค่าสัมประสิทธิ์การแปรผัน a - ค่าของส่วนเบี่ยงเบนมาตรฐาน; เอ็กซ์ -ค่าเฉลี่ยของลักษณะสำหรับประชากรที่ศึกษา

ค่าสัมประสิทธิ์การสั่นคือเปอร์เซ็นต์ของช่วงการแปรผันต่อค่าเฉลี่ยของลักษณะที่ศึกษา และสัมประสิทธิ์การแปรผันเชิงเส้นคืออัตราส่วนของค่าเบี่ยงเบนเชิงเส้นเฉลี่ยต่อค่าเฉลี่ยของลักษณะที่ศึกษา โดยแสดงเป็นเปอร์เซ็นต์ ค่าสัมประสิทธิ์การแปรผันคือเปอร์เซ็นต์ของค่าเบี่ยงเบนมาตรฐานกับค่าเฉลี่ยของลักษณะที่ศึกษา เป็นค่าสัมพัทธ์ ซึ่งแสดงเป็นเปอร์เซ็นต์ ค่าสัมประสิทธิ์การแปรผันจะใช้เพื่อเปรียบเทียบระดับความแปรผันของคุณลักษณะต่างๆ ค่าสัมประสิทธิ์การแปรผันใช้เพื่อประเมินความเป็นเนื้อเดียวกันของประชากรทางสถิติ หากค่าสัมประสิทธิ์การแปรผันน้อยกว่า 33% แสดงว่าประชากรที่ศึกษาจะเป็นเนื้อเดียวกันและการแปรผันนั้นอ่อน หากค่าสัมประสิทธิ์การแปรผันมากกว่า 33% แสดงว่าประชากรที่ศึกษามีความแตกต่างกัน การแปรผันจะรุนแรง และค่าเฉลี่ยไม่ปกติและไม่สามารถใช้เป็นตัวบ่งชี้ทั่วไปของประชากรกลุ่มนี้ได้ นอกจากนี้ ค่าสัมประสิทธิ์การแปรผันยังใช้เพื่อเปรียบเทียบความแปรปรวนของลักษณะหนึ่งในกลุ่มประชากรต่างๆ ตัวอย่างเช่น เพื่อประเมินความผันแปรในระยะเวลาการให้บริการของพนักงานในองค์กรสองแห่ง ยิ่งค่าสัมประสิทธิ์สูง ความแปรผันของคุณลักษณะยิ่งมีความสำคัญมากขึ้นเท่านั้น

ตามควอร์ไทล์ที่คำนวณ ยังสามารถคำนวณตัวบ่งชี้สัมพัทธ์ของการเปลี่ยนแปลงรายไตรมาสโดยใช้สูตร

ที่ไหน Q 2 และ

ช่วงระหว่างควอไทล์ถูกกำหนดโดยสูตร

อคติแบบควอร์ไทล์ใช้แทนช่วงเพื่อหลีกเลี่ยงข้อเสียของการใช้ค่าสุดขั้ว:

สำหรับอนุกรมความแปรผันของช่วงเวลาที่ไม่เท่ากัน ความหนาแน่นของการกระจายจะถูกคำนวณด้วย มันถูกกำหนดให้เป็นเชาวน์ของการหารความถี่ที่สอดคล้องกันหรือความถี่ด้วยค่าของช่วงเวลา ในอนุกรมที่เว้นระยะไม่เท่ากัน ความหนาแน่นของการกระจายแบบสัมบูรณ์และแบบสัมพัทธ์ถูกนำมาใช้ ความหนาแน่นสัมบูรณ์ของการแจกแจงคือความถี่ต่อหน่วยความยาวของช่วงเวลา ความหนาแน่นสัมพัทธ์ของการแจกแจงคือความถี่ต่อหน่วยความยาวของช่วงเวลา

ทั้งหมดข้างต้นเป็นจริงสำหรับอนุกรมการแจกจ่าย ซึ่งกฎการจำหน่ายซึ่งอธิบายไว้อย่างดีโดยกฎหมายการจำหน่ายแบบปกติหรือใกล้เคียงกัน

สถานที่พิเศษในการวิเคราะห์ทางสถิติเป็นของคำจำกัดความของระดับเฉลี่ยของคุณลักษณะหรือปรากฏการณ์ที่ศึกษา ระดับเฉลี่ยของจุดสนใจวัดโดยค่าเฉลี่ย

ค่าเฉลี่ยแสดงถึงระดับเชิงปริมาณทั่วไปของลักษณะที่ศึกษาและเป็นคุณสมบัติกลุ่มของประชากรทางสถิติ มันทำให้เป็นกลาง ลดค่าเบี่ยงเบนแบบสุ่มของการสังเกตของแต่ละบุคคลไปในทิศทางเดียวหรืออีกทางหนึ่ง และนำคุณสมบัติหลักทั่วไปของลักษณะภายใต้การศึกษามาสู่ส่วนหน้า

ค่าเฉลี่ยใช้กันอย่างแพร่หลาย:

1. เพื่อประเมินภาวะสุขภาพของประชากร: ลักษณะของการพัฒนาทางกายภาพ (ส่วนสูง น้ำหนัก รอบหน้าอก ฯลฯ) การระบุความชุกและระยะเวลาของโรคต่าง ๆ การวิเคราะห์ตัวชี้วัดทางประชากร (การเคลื่อนไหวตามธรรมชาติของประชากร อายุขัยเฉลี่ย , การสืบพันธุ์ของประชากร ประชากรโดยเฉลี่ย และอื่นๆ)

2. เพื่อศึกษากิจกรรมของสถาบันการแพทย์ บุคลากรทางการแพทย์ และประเมินคุณภาพงาน วางแผน และกำหนดความต้องการของประชากรในการดูแลทางการแพทย์ประเภทต่างๆ (จำนวนเฉลี่ยของการเข้าชมหรือการเยี่ยมชมต่อประชากรต่อปี ความยาวเฉลี่ย ระยะเวลาการรักษาตัวในโรงพยาบาล ระยะเวลาเฉลี่ยของผู้ป่วยที่เข้ารับการตรวจ การจัดหาแพทย์ เตียงผู้ป่วยโดยเฉลี่ย เป็นต้น)

3. เพื่ออธิบายลักษณะสุขาภิบาลและระบาดวิทยา (ปริมาณฝุ่นเฉลี่ยในโรงงาน พื้นที่เฉลี่ยต่อคน การบริโภคโปรตีน ไขมัน และคาร์โบไฮเดรตโดยเฉลี่ย เป็นต้น)

4. เพื่อกำหนดพารามิเตอร์ทางการแพทย์และสรีรวิทยาด้านสุขภาพและโรค เมื่อประมวลผลข้อมูลในห้องปฏิบัติการ เพื่อสร้างความน่าเชื่อถือของผลการศึกษาตัวอย่างในการศึกษาทางสังคมและสุขอนามัย ทางคลินิก และการทดลอง

ค่าเฉลี่ยคำนวณจากชุดรูปแบบต่างๆ ซีรีส์หลากหลายเป็นประชากรเชิงสถิติเชิงคุณภาพที่เป็นเนื้อเดียวกัน โดยแต่ละหน่วยแสดงลักษณะความแตกต่างเชิงปริมาณของลักษณะหรือปรากฏการณ์ที่ศึกษา

ความผันแปรเชิงปริมาณสามารถเป็นได้สองประเภท: ไม่ต่อเนื่อง (ไม่ต่อเนื่อง) และต่อเนื่อง

สัญญาณที่ไม่ต่อเนื่อง (ไม่ต่อเนื่อง) แสดงเป็นจำนวนเต็มเท่านั้นและไม่สามารถมีค่ากลางใด ๆ (เช่น จำนวนการเข้าชม ประชากรของไซต์ จำนวนเด็กในครอบครัว ความรุนแรงของโรคเป็นจุด เป็นต้น)

เครื่องหมายต่อเนื่องสามารถรับค่าใดก็ได้ภายในขอบเขตที่แน่นอน รวมถึงค่าที่เป็นเศษส่วน และแสดงเพียงค่าประมาณเท่านั้น (เช่น น้ำหนัก - สำหรับผู้ใหญ่ คุณสามารถจำกัดตัวเองเป็นกิโลกรัม และสำหรับทารกแรกเกิด - กรัม ส่วนสูง ความดันโลหิต เวลาที่ใช้ไป ในการพบผู้ป่วย เป็นต้น)



ค่าตัวเลขของคุณลักษณะหรือปรากฏการณ์แต่ละรายการที่รวมอยู่ในอนุกรมรูปแบบต่างๆ เรียกว่า ตัวแปร และเขียนแทนด้วยตัวอักษร วี ... มีการกำหนดอื่น ๆ ในวรรณคดีคณิตศาสตร์เช่น x หรือ ย.

อนุกรมรูปแบบต่าง ๆ ซึ่งแต่ละตัวเลือกถูกระบุครั้งเดียว เรียกว่า แบบง่ายชุดดังกล่าวใช้ในปัญหาทางสถิติส่วนใหญ่ในกรณีของการประมวลผลข้อมูลคอมพิวเตอร์

ด้วยจำนวนการสังเกตที่เพิ่มขึ้นตามกฎแล้วจะมีค่าตัวแปรซ้ำ ในกรณีนี้ a ชุดรูปแบบที่จัดกลุ่มโดยระบุจำนวนการทำซ้ำ (ความถี่แสดงด้วยตัวอักษร " R »).

จัดอันดับชุดรูปแบบต่างๆประกอบด้วยตัวแปรที่จัดเรียงจากน้อยไปมากหรือมากไปหาน้อย สามารถจัดอันดับทั้งซีรีย์ที่เรียบง่ายและจัดกลุ่มได้

ซีรี่ส์รูปแบบช่วงเวลาถูกรวบรวมเพื่อทำให้การคำนวณในภายหลังง่ายขึ้นโดยไม่ต้องใช้คอมพิวเตอร์ โดยมีหน่วยสังเกตการณ์จำนวนมาก (มากกว่า 1,000 หน่วย)

ซีรีส์รูปแบบต่อเนื่องรวมค่าตัวแปรซึ่งสามารถแสดงด้วยค่าใดก็ได้

หากในชุดการเปลี่ยนแปลงค่าของคุณสมบัติ (ตัวเลือก) ได้รับในรูปแบบของตัวเลขเฉพาะแยกจากกันชุดดังกล่าวจะเรียกว่า ไม่ต่อเนื่อง.

ลักษณะทั่วไปของค่าของแอตทริบิวต์ที่สะท้อนในชุดรูปแบบคือค่าเฉลี่ย ในหมู่พวกเขา ใช้มากที่สุดคือ: ค่าเฉลี่ยเลขคณิต เอ็ม,แฟชั่น โมและค่ามัธยฐาน ฉัน.แต่ละลักษณะเหล่านี้มีเอกลักษณ์เฉพาะตัว พวกเขาไม่สามารถแทนที่กันและกันได้ และเฉพาะโดยรวม ค่อนข้างสมบูรณ์และอยู่ในรูปแบบที่บีบอัด เท่านั้นที่แสดงคุณลักษณะของชุดรูปแบบต่างๆ

แฟชั่น (โม) ตั้งชื่อความหมายของตัวเลือกที่พบบ่อยที่สุด

ค่ามัธยฐาน (ฉัน) คือค่าของรูปแบบ โดยหารชุดรูปแบบที่จัดอันดับไว้ครึ่งหนึ่ง (ในแต่ละด้านของค่ามัธยฐาน จะมีค่ารูปแบบครึ่งหนึ่ง) ในบางกรณีที่พบไม่บ่อย เมื่อมีอนุกรมความแปรผันที่สมมาตร โหมดและค่ามัธยฐานจะเท่ากันและตรงกับค่าของค่าเฉลี่ยเลขคณิต

ลักษณะทั่วไปที่สุดของค่าตัวแปรคือ เลขคณิตปริมาณ ( เอ็ม ). ในวรรณคดีคณิตศาสตร์แสดงว่า .

ค่าเฉลี่ยเลขคณิต (เอ็ม, ) เป็นลักษณะเชิงปริมาณทั่วไปของคุณลักษณะบางอย่างของปรากฏการณ์ที่ศึกษาซึ่งประกอบขึ้นเป็นประชากรเชิงสถิติเชิงคุณภาพที่เป็นเนื้อเดียวกัน แยกแยะระหว่างค่าเฉลี่ยเลขคณิตแบบง่ายและถ่วงน้ำหนัก ค่าเฉลี่ยเลขคณิตอย่างง่ายคำนวณสำหรับชุดรูปแบบอย่างง่ายโดยการรวมตัวเลือกทั้งหมดและหารผลรวมนี้ด้วยจำนวนตัวเลือกทั้งหมดที่รวมอยู่ในชุดรูปแบบที่กำหนด การคำนวณจะดำเนินการตามสูตร:

ที่ไหน: เอ็ม - ค่าเฉลี่ยเลขคณิตอย่างง่าย

Σ วี - จำนวนของตัวเลือก;

- จำนวนการสังเกต

ในชุดความแปรผันที่จัดกลุ่ม ค่าเฉลี่ยเลขคณิตแบบถ่วงน้ำหนักจะถูกกำหนด สูตรสำหรับการคำนวณ:

ที่ไหน: เอ็ม - ค่าเฉลี่ยเลขคณิตถ่วงน้ำหนัก

Σ Vp - ผลรวมของผลงานของตัวแปรตามความถี่

- จำนวนการสังเกต

ด้วยการสังเกตจำนวนมากในกรณีของการคำนวณด้วยตนเอง คุณสามารถใช้วิธีการของโมเมนต์

ค่าเฉลี่ยเลขคณิตมีคุณสมบัติดังต่อไปนี้:

ผลรวมของการเบี่ยงเบนของตัวแปรจากค่าเฉลี่ย ( Σ d ) เท่ากับศูนย์ (ดูตารางที่ 15)

· เมื่อคูณ (หาร) ตัวเลือกทั้งหมดด้วยตัวประกอบ (ตัวหาร) เดียวกัน ค่าเฉลี่ยเลขคณิตจะถูกคูณ (หาร) ด้วยตัวประกอบเดียวกัน (ตัวหาร)

· หากคุณบวก (ลบ) ตัวเลขเดียวกันในตัวเลือกทั้งหมด ค่าเฉลี่ยเลขคณิตจะเพิ่มขึ้น (ลดลง) ด้วยจำนวนเดียวกัน

ค่าเฉลี่ยเลขคณิตที่นำมาเองโดยไม่คำนึงถึงความแปรปรวนของอนุกรมนั้นอาจไม่ได้สะท้อนถึงคุณสมบัติของอนุกรมการแปรผันโดยสมบูรณ์ โดยเฉพาะอย่างยิ่งเมื่อจำเป็นต้องเปรียบเทียบกับค่าเฉลี่ยอื่นๆ ค่าเฉลี่ยที่มีค่าใกล้เคียงกันสามารถหาได้จากอนุกรมที่มีระดับการกระเจิงที่แตกต่างกัน ยิ่งตัวเลือกแต่ละอย่างใกล้กันมากขึ้นในแง่ของลักษณะเชิงปริมาณ ก็ยิ่งน้อยลง การกระจายตัว (การแกว่ง, ความแปรปรวน)แถวยิ่งมีค่าเฉลี่ยมากขึ้นเท่านั้น

พารามิเตอร์หลักที่ช่วยให้เราประเมินความแปรปรวนของลักษณะนี้คือ:

·ปัด;

· แอมพลิจูด;

· ส่วนเบี่ยงเบนมาตรฐาน;

· ค่าสัมประสิทธิ์การแปรผัน

ความแปรปรวนโดยประมาณของลักษณะนี้สามารถตัดสินได้จากช่วงและแอมพลิจูดของอนุกรมการแปรผัน วงสวิงระบุตัวเลือกสูงสุด (V สูงสุด) และต่ำสุด (V นาที) ในแถว แอมพลิจูด (A m) คือความแตกต่างระหว่างตัวเลือกเหล่านี้: A m = V สูงสุด - V นาที

การวัดความแปรปรวนของอนุกรมความแปรผันที่เป็นที่ยอมรับโดยทั่วไปคือ การกระจายตัว (ดี ). แต่ที่ใช้บ่อยที่สุดคือพารามิเตอร์ที่สะดวกกว่าซึ่งคำนวณจากความแปรปรวน - ส่วนเบี่ยงเบนมาตรฐาน ( σ ). โดยคำนึงถึงปริมาณการเบี่ยงเบน ( d ) ตัวแปรแต่ละชุดของชุดรูปแบบผันแปรจากค่าเฉลี่ยเลขคณิต ( d = V - M ).

เนื่องจากการเบี่ยงเบนของตัวแปรจากค่าเฉลี่ยอาจเป็นค่าบวกและค่าลบ เมื่อรวมกันแล้วจึงให้ค่า "0" (S d = 0). เพื่อหลีกเลี่ยงสิ่งนี้ ค่าเบี่ยงเบน ( d) ยกกำลังสองและหาค่าเฉลี่ย ดังนั้น ความแปรปรวนของอนุกรมรูปแบบแปรผันจึงเป็นกำลังสองเฉลี่ยของการเบี่ยงเบนของตัวแปรจากค่าเฉลี่ยเลขคณิตและคำนวณโดยสูตร:

เป็นลักษณะเฉพาะที่สำคัญที่สุดของความแปรปรวนและใช้ในการคำนวณเกณฑ์ทางสถิติต่างๆ

เนื่องจากความแปรปรวนแสดงอยู่ในกำลังสองของส่วนเบี่ยงเบน จึงไม่สามารถใช้ค่านี้เปรียบเทียบกับค่าเฉลี่ยเลขคณิตได้ เพื่อวัตถุประสงค์เหล่านี้ มันถูกนำไปใช้ ส่วนเบี่ยงเบนมาตรฐานซึ่งเขียนแทนด้วยเครื่องหมาย "ซิกม่า" ( σ ). มันแสดงลักษณะเบี่ยงเบนเฉลี่ยของตัวแปรทั้งหมดของชุดรูปแบบผันแปรจากค่าเฉลี่ยเลขคณิตในหน่วยเดียวกับตัวค่าเฉลี่ย ดังนั้นจึงสามารถใช้ร่วมกันได้

ค่าเบี่ยงเบนมาตรฐานถูกกำหนดโดยสูตร:

ใช้สูตรที่ระบุเมื่อจำนวนการสังเกต ( ) มากกว่า 30 สำหรับจำนวนที่น้อยกว่า ค่าเบี่ยงเบนมาตรฐานจะมีข้อผิดพลาดที่เกี่ยวข้องกับอคติทางคณิตศาสตร์ ( - หนึ่ง). ในเรื่องนี้สามารถรับผลลัพธ์ที่แม่นยำยิ่งขึ้นโดยคำนึงถึงอคติดังกล่าวในสูตรการคำนวณค่าเบี่ยงเบนมาตรฐาน:

ส่วนเบี่ยงเบนมาตรฐาน ( ) เป็นค่าประมาณค่าเบี่ยงเบนมาตรฐานของตัวแปรสุ่ม Xสัมพันธ์กับการคาดหมายทางคณิตศาสตร์โดยพิจารณาจากค่าความแปรปรวนของค่าประมาณที่ไม่เอนเอียง

ด้วยค่านิยม > 30 ส่วนเบี่ยงเบนมาตรฐาน ( σ ) และส่วนเบี่ยงเบนมาตรฐาน ( ) ก็จะเหมือนเดิม ( σ = ส ). ดังนั้นในคู่มือที่ใช้งานได้จริงส่วนใหญ่ เกณฑ์เหล่านี้จึงถือว่าคลุมเครือใน Excel การคำนวณค่าเบี่ยงเบนมาตรฐานสามารถทำได้โดยใช้ฟังก์ชัน = STDEV (ช่วง) และในการคำนวณค่าเบี่ยงเบนมาตรฐาน คุณต้องสร้างสูตรที่เหมาะสม

ค่าเฉลี่ยรูตกำลังสองหรือค่าเบี่ยงเบนมาตรฐานช่วยให้คุณกำหนดว่าค่าของคุณลักษณะสามารถแตกต่างจากค่าเฉลี่ยได้มากน้อยเพียงใด สมมติว่ามีสองเมืองที่มีอุณหภูมิกลางวันเฉลี่ยเท่ากันในช่วงฤดูร้อน หนึ่งในเมืองเหล่านี้ตั้งอยู่บนชายฝั่งและอีกเมืองหนึ่งในทวีป เป็นที่ทราบกันดีอยู่แล้วว่าในเมืองต่างๆ ที่ตั้งอยู่บริเวณชายฝั่งนั้น อุณหภูมิในเวลากลางวันจะแตกต่างกันน้อยกว่าเมืองที่อยู่ภายในทวีป ดังนั้นค่าเบี่ยงเบนมาตรฐานของอุณหภูมิกลางวันสำหรับเมืองชายฝั่งจะน้อยกว่าเมืองที่สอง ในทางปฏิบัติ นี่หมายความว่าอุณหภูมิอากาศเฉลี่ยในแต่ละวันในเมืองที่ตั้งอยู่ในทวีปจะแตกต่างจากค่าเฉลี่ยมากกว่าในเมืองบนชายฝั่ง นอกจากนี้ ค่าเบี่ยงเบนมาตรฐานยังทำให้สามารถประมาณค่าความเบี่ยงเบนที่เป็นไปได้ของอุณหภูมิจากค่าเฉลี่ยด้วยระดับความน่าจะเป็นที่ต้องการ

ตามทฤษฎีความน่าจะเป็นในปรากฏการณ์ที่ปฏิบัติตามกฎการแจกแจงแบบปกติมีความสัมพันธ์ที่เข้มงวดระหว่างค่าของค่าเฉลี่ยเลขคณิตส่วนเบี่ยงเบนมาตรฐานและตัวเลือก ( กฎสามซิกมา). ตัวอย่างเช่น 68.3% ของค่าของแอตทริบิวต์ตัวแปรอยู่ในช่วง M ± 1 σ , 95.5% - ภายใน M ± 2 σ และ 99.7% - ภายใน M ± 3 σ .

ค่าเบี่ยงเบนมาตรฐานทำให้เราสามารถตัดสินธรรมชาติของความเป็นเนื้อเดียวกันของอนุกรมความแปรผันและกลุ่มที่ศึกษาได้ หากค่าเบี่ยงเบนมาตรฐานมีค่าน้อย แสดงว่าปรากฏการณ์ที่ศึกษามีความสม่ำเสมอสูงเพียงพอ ในกรณีนี้ ค่าเฉลี่ยเลขคณิตควรได้รับการยอมรับว่าเป็นคุณลักษณะเฉพาะของอนุกรมการแปรผันที่กำหนด อย่างไรก็ตาม ค่าซิกมาที่ต่ำเกินไปทำให้นึกถึงการเลือกข้อสังเกตที่ประดิษฐ์ขึ้นเอง ด้วยซิกมาขนาดใหญ่มาก ค่าเฉลี่ยเลขคณิตจะกำหนดลักษณะอนุกรมการแปรผันในระดับที่น้อยกว่า ซึ่งบ่งชี้ถึงความแปรปรวนที่มีนัยสำคัญของลักษณะหรือปรากฏการณ์ที่ศึกษาหรือความแตกต่างของกลุ่มที่ศึกษา อย่างไรก็ตาม การเปรียบเทียบค่าของค่าเบี่ยงเบนมาตรฐานทำได้เฉพาะกับคุณลักษณะที่มีมิติเท่ากันเท่านั้น ที่จริงแล้ว หากเราเปรียบเทียบความหลากหลายของน้ำหนักระหว่างทารกแรกเกิดกับผู้ใหญ่ เราก็จะได้รับค่าซิกมาที่สูงขึ้นในผู้ใหญ่เสมอ

การเปรียบเทียบความแปรปรวนของคุณสมบัติของมิติต่างๆ สามารถทำได้โดยใช้ ค่าสัมประสิทธิ์การแปรผัน... เป็นการแสดงความหลากหลายเป็นเปอร์เซ็นต์ของค่าเฉลี่ย ซึ่งช่วยให้เปรียบเทียบลักษณะต่างๆ ได้ ค่าสัมประสิทธิ์การแปรผันในวรรณคดีทางการแพทย์ระบุด้วยเครื่องหมาย " กับ ", และในทางคณิตศาสตร์" วี“และคำนวณโดยสูตร:

ค่าของสัมประสิทธิ์การแปรผันที่น้อยกว่า 10% บ่งชี้ถึงการกระเจิงเล็กน้อย จาก 10 ถึง 20% - โดยเฉลี่ย มากกว่า 20% - เกี่ยวกับค่าความแปรปรวนแบบกระเจิงที่แข็งแกร่งรอบค่าเฉลี่ยเลขคณิต

ค่าเฉลี่ยเลขคณิตคำนวณจากข้อมูลของกลุ่มตัวอย่าง ด้วยการศึกษาซ้ำๆ ภายใต้อิทธิพลของปรากฏการณ์สุ่ม ค่าเฉลี่ยเลขคณิตอาจเปลี่ยนแปลงได้ นี่เป็นเพราะความจริงที่ว่าตามกฎแล้วจะมีการตรวจสอบเพียงส่วนหนึ่งของหน่วยสังเกตที่เป็นไปได้นั่นคือประชากรตัวอย่างเท่านั้น ข้อมูลเกี่ยวกับหน่วยที่เป็นไปได้ทั้งหมดที่แสดงถึงปรากฏการณ์ภายใต้การศึกษาสามารถรับได้โดยการศึกษาประชากรทั่วไปทั้งหมด ซึ่งไม่สามารถทำได้เสมอไป ในเวลาเดียวกัน ในการสรุปข้อมูลการทดลอง มูลค่าของค่าเฉลี่ยในกลุ่มประชากรทั่วไปเป็นที่สนใจ ดังนั้น เพื่อกำหนดข้อสรุปทั่วไปเกี่ยวกับปรากฏการณ์ที่กำลังศึกษา ผลลัพธ์ที่ได้จากประชากรกลุ่มตัวอย่างจะต้องถูกถ่ายโอนไปยังประชากรทั่วไปด้วยวิธีการทางสถิติ

ในการกำหนดระดับความบังเอิญระหว่างการศึกษาตัวอย่างกับประชากรทั่วไป จำเป็นต้องประเมินขนาดของข้อผิดพลาดที่จะเกิดขึ้นอย่างหลีกเลี่ยงไม่ได้ในการสังเกตตัวอย่าง ข้อผิดพลาดนี้เรียกว่า “ ความผิดพลาดของการเป็นตัวแทน"หรือ" ความคลาดเคลื่อนเฉลี่ยของค่าเฉลี่ยเลขคณิต " อันที่จริง มันคือความแตกต่างระหว่างค่าเฉลี่ยที่ได้รับระหว่างการสังเกตทางสถิติแบบคัดเลือกและค่าที่คล้ายคลึงกันซึ่งจะได้รับระหว่างการศึกษาอย่างต่อเนื่องของวัตถุเดียวกัน กล่าวคือ เมื่อศึกษาประชากรทั่วไป เนื่องจากค่าเฉลี่ยของกลุ่มตัวอย่างเป็นตัวแปรสุ่ม การคาดการณ์ดังกล่าวจึงดำเนินการด้วยระดับความน่าจะเป็นที่ยอมรับได้สำหรับผู้วิจัย ในการวิจัยทางการแพทย์ อย่างน้อย 95%

ข้อผิดพลาดในการเป็นตัวแทนไม่ควรสับสนกับข้อผิดพลาดของการลงทะเบียนหรือข้อผิดพลาดในการให้ความสนใจ (ข้อผิดพลาดของธุรการ การคำนวณผิด การสะกดผิด ฯลฯ) ซึ่งควรลดให้เหลือน้อยที่สุดด้วยวิธีการและเครื่องมือที่เหมาะสมที่ใช้ในการทดสอบ

ขนาดของข้อผิดพลาดในการเป็นตัวแทนขึ้นอยู่กับทั้งขนาดกลุ่มตัวอย่างและความแปรปรวนของลักษณะ ยิ่งจำนวนการสังเกตมากเท่าใด กลุ่มตัวอย่างก็จะยิ่งใกล้กับประชากรทั่วไปมากขึ้นเท่านั้น และข้อผิดพลาดก็จะยิ่งน้อยลงเท่านั้น ยิ่งแอตทริบิวต์มีความผันผวนมากเท่าใด ขนาดของข้อผิดพลาดทางสถิติก็จะยิ่งมากขึ้นเท่านั้น

ในทางปฏิบัติ สูตรต่อไปนี้ใช้เพื่อกำหนดข้อผิดพลาดของการเป็นตัวแทนในชุดการเปลี่ยนแปลง:

ที่ไหน: - ข้อผิดพลาดในการเป็นตัวแทน;

σ - ส่วนเบี่ยงเบนมาตรฐาน;

- จำนวนการสังเกตในกลุ่มตัวอย่าง

จากสูตรจะเห็นได้ว่าขนาดของความคลาดเคลื่อนเฉลี่ยเป็นสัดส่วนโดยตรงกับส่วนเบี่ยงเบนมาตรฐาน กล่าวคือ ความแปรปรวนของลักษณะที่ศึกษา และสัดส่วนผกผันกับรากที่สองของจำนวนการสังเกต

เมื่อทำการวิเคราะห์ทางสถิติโดยพิจารณาจากการคำนวณค่าสัมพัทธ์ การสร้างชุดรูปแบบจะเป็นทางเลือก ในกรณีนี้ การหาค่าความคลาดเคลื่อนเฉลี่ยสำหรับตัวบ่งชี้สัมพัทธ์สามารถทำได้โดยใช้สูตรแบบง่าย:

ที่ไหน: R- ค่าของตัวบ่งชี้สัมพัทธ์ซึ่งแสดงเป็นเปอร์เซ็นต์ ppm ฯลฯ ;

q- ค่าผกผันของ P และแสดงเป็น (1-P), (100-P), (1000-P) ฯลฯ ขึ้นอยู่กับพื้นฐานที่คำนวณตัวบ่งชี้

- จำนวนการสังเกตในกลุ่มตัวอย่าง

อย่างไรก็ตาม สูตรที่ระบุสำหรับการคำนวณข้อผิดพลาดในการเป็นตัวแทนสำหรับค่าสัมพัทธ์สามารถใช้ได้เฉพาะเมื่อค่าตัวบ่งชี้น้อยกว่าฐาน ในบางกรณีของการคำนวณตัวบ่งชี้แบบเข้มข้น เงื่อนไขดังกล่าวไม่เป็นไปตามที่กำหนด และตัวบ่งชี้สามารถแสดงเป็นตัวเลขมากกว่า 100% หรือ 1,000% ในสถานการณ์เช่นนี้ ชุดรูปแบบจะถูกสร้างขึ้นและข้อผิดพลาดในการเป็นตัวแทนคำนวณโดยใช้สูตรสำหรับค่าเฉลี่ยตามค่าเบี่ยงเบนมาตรฐาน

การพยากรณ์ค่าของค่าเฉลี่ยเลขคณิตในประชากรทั่วไปนั้นดำเนินการด้วยค่าสองค่า - ค่าต่ำสุดและค่าสูงสุด ค่าสุดโต่งของการเบี่ยงเบนที่เป็นไปได้เหล่านี้ซึ่งเรียกว่าค่าเฉลี่ยที่ต้องการของประชากรทั่วไปสามารถผันผวนได้ " ขีดจำกัดความมั่นใจ».

สมมติฐานของทฤษฎีความน่าจะเป็นพิสูจน์ว่าด้วยการแจกแจงแบบปกติของลักษณะที่มีความน่าจะเป็น 99.7% ค่าเบี่ยงเบนสูงสุดของค่ากลางจะไม่เกินค่าความผิดพลาดของการเป็นตัวแทนสามครั้ง ( เอ็ม ± 3 ); ใน 95.5% - ไม่เกินค่าคลาดเคลื่อนเฉลี่ยสองเท่าของค่าเฉลี่ย ( เอ็ม ±2 ); ใน 68.3% - ไม่เกินหนึ่งข้อผิดพลาดเฉลี่ย ( เอ็ม ± 1 ) (รูปที่ 9)

ป.%

ข้าว. 9. ความหนาแน่นของความน่าจะเป็นของการแจกแจงแบบปกติ

โปรดทราบว่าข้อความข้างต้นใช้ได้เฉพาะกับคุณลักษณะที่เป็นไปตามการแจกแจงแบบเกาส์เซียนปกติเท่านั้น

การวิจัยเชิงทดลองส่วนใหญ่ รวมถึงในสาขาการแพทย์ เกี่ยวข้องกับการวัดผล ซึ่งผลลัพธ์สามารถเก็บค่าได้เกือบทุกค่าในช่วงเวลาที่กำหนด ดังนั้น ตามกฎแล้ว สิ่งเหล่านี้จะถูกอธิบายโดยแบบจำลองของตัวแปรสุ่มแบบต่อเนื่อง ด้วยเหตุนี้ วิธีทางสถิติส่วนใหญ่จึงพิจารณาการแจกแจงแบบต่อเนื่อง หนึ่งในการแจกแจงเหล่านี้ ซึ่งมีบทบาทพื้นฐานในสถิติทางคณิตศาสตร์ คือ ปกติหรือเกาส์เซียนแจกแจง.

มีเหตุผลหลายประการสำหรับเรื่องนี้

1. ก่อนอื่น สามารถอธิบายการสังเกตจากการทดลองจำนวนมากได้สำเร็จโดยใช้การแจกแจงแบบปกติ ควรสังเกตทันทีว่าไม่มีการแจกแจงข้อมูลเชิงประจักษ์ที่ปกติทุกประการ เนื่องจากตัวแปรสุ่มแบบกระจายตามปกติมีช่วงตั้งแต่ ถึง ซึ่งไม่เคยเกิดขึ้นในทางปฏิบัติ อย่างไรก็ตาม การแจกแจงแบบปกติมักจะเป็นการประมาณที่ดี

ไม่ว่าการวัดน้ำหนัก ส่วนสูง และพารามิเตอร์ทางสรีรวิทยาอื่นๆ ของร่างกายมนุษย์จะดำเนินการหรือไม่ก็ตาม ผลลัพธ์จะได้รับอิทธิพลจากปัจจัยสุ่มจำนวนมากในทุกที่ (สาเหตุตามธรรมชาติและข้อผิดพลาดในการวัด) ยิ่งไปกว่านั้น ตามกฎแล้ว ผลกระทบของแต่ละปัจจัยเหล่านี้ไม่มีนัยสำคัญ ประสบการณ์แสดงให้เห็นว่าผลลัพธ์ในกรณีดังกล่าวจะมีการกระจายแบบปกติโดยประมาณ

2. การแจกแจงจำนวนมากที่เกี่ยวข้องกับกลุ่มตัวอย่างแบบสุ่ม โดยการเพิ่มขนาดของหลังจะกลายเป็นปกติ

3. การแจกแจงแบบปกติเหมาะสมอย่างยิ่งกับคำอธิบายโดยประมาณของการแจกแจงแบบต่อเนื่องอื่นๆ (เช่น อสมมาตร)

4. การแจกแจงแบบปกติมีคุณสมบัติทางคณิตศาสตร์ที่น่าพอใจหลายประการ ซึ่งส่วนใหญ่รับรองการใช้อย่างแพร่หลายในสถิติ

ในเวลาเดียวกัน ควรสังเกตว่ามีการแจกแจงแบบทดลองจำนวนมากในข้อมูลทางการแพทย์ที่ไม่สามารถอธิบายได้ด้วยแบบจำลองการแจกแจงแบบปกติ สำหรับสิ่งนี้ สถิติได้พัฒนาวิธีการที่เรียกว่า "Nonparametric"

การเลือกวิธีการทางสถิติที่เหมาะสมสำหรับการประมวลผลข้อมูลของการทดสอบเฉพาะนั้น ควรทำขึ้นโดยขึ้นอยู่กับว่าข้อมูลที่ได้รับนั้นเป็นของกฎหมายการแจกแจงแบบปกติหรือไม่ การทดสอบสมมติฐานสำหรับการอยู่ใต้บังคับบัญชาของคุณลักษณะตามกฎการแจกแจงแบบปกตินั้นดำเนินการโดยใช้ฮิสโตแกรมของการกระจายความถี่ (กราฟ) รวมถึงเกณฑ์ทางสถิติจำนวนหนึ่ง ในหมู่พวกเขา:

เกณฑ์ความไม่สมดุล ( );

เกณฑ์การตรวจสอบความโด่ง ( g );

เกณฑ์ชาปิโร - วิลค์ส ( W ) .

การวิเคราะห์ธรรมชาติของการกระจายข้อมูล (เรียกอีกอย่างว่าการตรวจสอบการแจกแจงแบบปกติ) จะดำเนินการสำหรับแต่ละพารามิเตอร์ ในการตัดสินความสอดคล้องของการแจกแจงพารามิเตอร์กับกฎปกติอย่างมั่นใจ จำเป็นต้องมีหน่วยสังเกตจำนวนมากเพียงพอ (อย่างน้อย 30 ค่า)

สำหรับการแจกแจงแบบปกติ เกณฑ์สำหรับความเบ้และความโด่งจะใช้ค่า 0 หากการแจกแจงเลื่อนไปทางขวา > 0 (ความไม่สมมาตรบวก) สำหรับ < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона g = 0. ที่ g > 0 เส้นการกระจายจะคมชัดกว่าถ้า g < 0 пик более сглаженный, чем функция нормального распределения.

ในการตรวจสอบความปกติตามการทดสอบ Shapiro-Wilks จะต้องค้นหาค่าของเกณฑ์นี้โดยใช้ตารางสถิติที่ระดับนัยสำคัญที่ต้องการและขึ้นอยู่กับจำนวนของหน่วยสังเกต (องศาอิสระ) ภาคผนวก 1 สมมติฐานของภาวะปกติถูกปฏิเสธที่ค่าเล็ก ๆ ของเกณฑ์นี้ตามกฎที่ w <0,8.

สภาพ:

มีข้อมูลองค์ประกอบอายุคนงาน (ปี) : 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28 , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. สร้างชุดการกระจายตามช่วงเวลา
    2. สร้างการแสดงภาพกราฟิกของซีรีส์
    3. กำหนดแฟชั่นและค่ามัธยฐานแบบกราฟิก

สารละลาย:

1) ตามสูตร Sturgess ประชากรควรแบ่งออกเป็น 1 + 3.322 lg 30 = 6 กลุ่ม

อายุสูงสุดคือ 38 ขั้นต่ำคือ 18

ความกว้างของถัง เนื่องจากปลายถังขยะต้องเป็นจำนวนเต็ม เราจึงแบ่งประชากรออกเป็น 5 กลุ่ม ความกว้างของช่วงคือ 4

เพื่อความสะดวกในการคำนวณ เราจะจัดเรียงข้อมูลตามลำดับจากน้อยไปมาก: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29 , 29, 30 , 30, 31, 32, 32, 33, 34, 35, 38, 38.

การแบ่งอายุแรงงาน

ในเชิงกราฟิก ซีรีส์สามารถแสดงเป็นฮิสโตแกรมหรือรูปหลายเหลี่ยมได้ ฮิสโตแกรมเป็นแผนภูมิแท่ง ฐานของคอลัมน์คือความกว้างของช่วง ความสูงของแท่งเท่ากับความถี่

รูปหลายเหลี่ยม (หรือรูปหลายเหลี่ยมการกระจาย) คือกราฟของความถี่ หากต้องการสร้างบนฮิสโตแกรม ให้เชื่อมต่อจุดกึ่งกลางของด้านบนของรูปสี่เหลี่ยมผืนผ้า เราปิดรูปหลายเหลี่ยมบนแกน Ox ในระยะทางเท่ากับครึ่งช่วงจากค่าสุดขีดของ x

โหมด (Mo) คือค่าของคุณลักษณะที่กำลังศึกษา ซึ่งเกิดขึ้นบ่อยที่สุดในชุดที่กำหนด

ในการกำหนดโหมดจากฮิสโตแกรม ให้เลือกสี่เหลี่ยมผืนผ้าสูงสุด ลากเส้นจากจุดยอดด้านขวาของสี่เหลี่ยมนี้ไปยังมุมบนขวาของสี่เหลี่ยมก่อนหน้า และจากจุดยอดด้านซ้ายของสี่เหลี่ยมโมดอล ให้ลากเส้นไปยังจุดยอดด้านซ้ายของ สี่เหลี่ยมถัดไป จากจุดตัดของเส้นเหล่านี้ ให้ลากเส้นตั้งฉากกับแกน x abscissa จะเป็นแฟชั่น โม ≈ 27.5. ซึ่งหมายความว่าอายุที่พบมากที่สุดในประชากรกลุ่มนี้คือ 27-28 ปี

ค่ามัธยฐาน (Me) คือค่าของลักษณะที่อยู่ระหว่างการศึกษา ซึ่งอยู่ตรงกลางของอนุกรมความแปรผันที่มีลำดับ

เราหาค่ามัธยฐานโดยสะสม Cumulata - กราฟของความถี่สะสม Abscissas เป็นตัวแปรแถว พิกัดคือความถี่สะสม

เพื่อหาค่ามัธยฐานจากค่าสะสม เราพบบนพิกัดที่สอดคล้องกับ 50% ของความถี่สะสม (ในกรณีของเราคือ 15) ลากเส้นตรงผ่านมัน ขนานกับแกน Ox และจากจุดของมัน จุดตัดกับค่าสะสม เราวาดเส้นตั้งฉากกับแกน x abscissa เป็นค่ามัธยฐาน ฉัน ≈ 25.9. ซึ่งหมายความว่าครึ่งหนึ่งของคนงานในประชากรกลุ่มนี้มีอายุน้อยกว่า 26 ปี

Variationalเรียกว่า อนุกรมการแจกจ่าย ซึ่งสร้างขึ้นบนพื้นฐานเชิงปริมาณ ค่าของลักษณะเชิงปริมาณในแต่ละหน่วยของประชากรไม่คงที่ แตกต่างกันมากหรือน้อย

Variation- ความแปรปรวนความแปรปรวนของมูลค่าของลักษณะในหน่วยของประชากร ค่าตัวเลขส่วนบุคคลของลักษณะที่เกิดขึ้นในประชากรที่ศึกษาเรียกว่า ตัวเลือกค่านิยม ความไม่เพียงพอของค่าเฉลี่ยสำหรับคุณลักษณะที่สมบูรณ์ของประชากรทำให้จำเป็นต้องเสริมค่าเฉลี่ยด้วยตัวบ่งชี้ที่ทำให้สามารถประเมินความธรรมดาของค่าเฉลี่ยเหล่านี้ได้โดยการวัดความแปรปรวน (ความแปรปรวน) ของลักษณะที่กำลังศึกษา

การปรากฏตัวของการเปลี่ยนแปลงนั้นเกิดจากอิทธิพลของปัจจัยจำนวนมากต่อการก่อตัวของระดับของลักษณะ ปัจจัยเหล่านี้กระทำการด้วยความแรงไม่เท่ากันและไปในทิศทางที่ต่างกัน ในการอธิบายการวัดความแปรปรวนของคุณลักษณะ จะใช้ตัวบ่งชี้ความแปรผัน

งานของการศึกษาทางสถิติของการแปรผัน:

  • 1) การศึกษาธรรมชาติและระดับความแปรปรวนของลักษณะเฉพาะในแต่ละหน่วยของประชากร
  • 2) การกำหนดบทบาทของปัจจัยส่วนบุคคลหรือกลุ่มของปัจจัยในการแปรผันของลักษณะเฉพาะของมวลรวม

ในสถิติจะใช้วิธีการพิเศษเพื่อศึกษาความผันแปรตามการใช้ระบบตัวบ่งชี้ กับโดยที่ความแปรผันจะถูกวัด

การศึกษาความผันแปรเป็นสิ่งสำคัญ การวัดความแปรปรวนเป็นสิ่งจำเป็นเมื่อทำการสังเกตแบบคัดเลือก สหสัมพันธ์ และการวิเคราะห์ความแปรปรวน ฯลฯ Ermolaev O.Yu. สถิติทางคณิตศาสตร์สำหรับนักจิตวิทยา: ตำรา [ข้อความ] / O.Yu. เออร์โมเลฟ - M.: สำนักพิมพ์ Flint ของสถาบันจิตวิทยาและสังคมมอสโก, 2012. - 335s

ด้วยระดับของการเปลี่ยนแปลง เราสามารถตัดสินความเป็นเนื้อเดียวกันของประชากร ความเสถียรของค่านิยมส่วนบุคคลของลักษณะเฉพาะ และลักษณะทั่วไปของค่าเฉลี่ย บนพื้นฐานของพวกเขา ตัวชี้วัดความหนาแน่นของความสัมพันธ์ระหว่างสัญญาณ ตัวบ่งชี้สำหรับการประเมินความถูกต้องของการสังเกตตัวอย่างได้รับการพัฒนา

แยกแยะความแตกต่างระหว่างความผันแปรในอวกาศและการเปลี่ยนแปลงของเวลา

ความแปรปรวนในอวกาศเป็นที่เข้าใจกันว่าความแปรปรวนของค่าคุณลักษณะในหน่วยของประชากรซึ่งเป็นตัวแทนของอาณาเขตที่แยกจากกัน การเปลี่ยนแปลงของเวลาเป็นที่เข้าใจกันว่าเป็นการเปลี่ยนแปลงในค่าของลักษณะเฉพาะในช่วงเวลาต่างๆ

เพื่อศึกษาความแปรผันในอนุกรมการแจกจ่าย ตัวแปรทั้งหมดของค่าแอตทริบิวต์จะจัดเรียงตามลำดับจากน้อยไปมากหรือจากมากไปน้อย กระบวนการนี้เรียกว่าการจัดอันดับแถว

สัญญาณการเปลี่ยนแปลงที่ง่ายที่สุดคือ ต่ำสุดและสูงสุด- มูลค่าที่น้อยที่สุดและใหญ่ที่สุดของคุณลักษณะโดยรวม จำนวนการทำซ้ำของค่าคุณลักษณะแต่ละตัวแปรเรียกว่าอัตราการทำซ้ำ (fi) สะดวกในการเปลี่ยนความถี่ด้วยความถี่ - wi ความถี่เป็นตัวบ่งชี้ความถี่สัมพัทธ์ ซึ่งสามารถแสดงเป็นเศษส่วนของหน่วยหรือเป็นเปอร์เซ็นต์ และช่วยให้คุณสามารถเปรียบเทียบชุดรูปแบบต่างๆ กับจำนวนการสังเกตต่างๆ ได้ แสดงโดยสูตร:

โดยที่ Xmax, Xmin เป็นค่าสูงสุดและต่ำสุดของแอตทริบิวต์โดยรวม n คือจำนวนกลุ่ม

ตัวบ่งชี้แบบสัมบูรณ์และแบบสัมพัทธ์ต่างๆ ใช้เพื่อวัดความแปรผันของจุดสนใจ ตัวชี้วัดความผันแปรแบบสัมบูรณ์รวมถึงช่วงของการแปรผัน ค่าเฉลี่ยส่วนเบี่ยงเบนเชิงเส้น ความแปรปรวน ส่วนเบี่ยงเบนมาตรฐาน ตัวบ่งชี้สัมพัทธ์ของการแกว่ง ได้แก่ ค่าสัมประสิทธิ์การสั่น ส่วนเบี่ยงเบนเชิงเส้นสัมพัทธ์ ค่าสัมประสิทธิ์การแปรผัน

ตัวอย่างการหาชุดตัวแปร

ออกกำลังกาย.สำหรับตัวอย่างนี้:

  • ก) ค้นหาชุดการเปลี่ยนแปลง
  • b) สร้างฟังก์ชันการกระจาย

เลขที่ = 42. รายการตัวอย่าง:

1 5 1 8 1 3 9 4 7 3 7 8 7 3 2 3 5 3 8 3 5 2 8 3 7 9 5 8 8 1 2 2 5 1 6 1 7 6 7 7 6 2

สารละลาย.

  • ก) การสร้างชุดรูปแบบที่หลากหลาย:
    • 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 5 5 5 5 5 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9
  • b) การสร้างชุดตัวแปรแบบแยกส่วน

ให้เราคำนวณจำนวนกลุ่มในอนุกรมผันแปรโดยใช้สูตรสเตอร์เกส:

ลองหาจำนวนกลุ่มที่เท่ากับ 7

เมื่อทราบจำนวนกลุ่มเราคำนวณขนาดของช่วงเวลา:

เพื่อความสะดวกในการสร้างตารางเราจะเอาจำนวนกลุ่มเท่ากับ 8 ช่วงเวลาจะเป็น 1

ข้าว. หนึ่ง ปริมาณการขายโดยร้านค้าสินค้าในช่วงระยะเวลาหนึ่ง

ข้อผิดพลาด:เนื้อหาได้รับการคุ้มครอง !!