แนวคิดของชุดรูปแบบต่างๆ ประเภทของชุดการเปลี่ยนแปลง นักเรียนและนักเรียน - ช่วยในการเรียนรู้ ชุดรูปแบบต่างๆ ถูกสร้างขึ้นบนพื้นฐานของ

เมื่อประมวลผลข้อมูลจำนวนมาก ซึ่งมีความสำคัญอย่างยิ่งเมื่อดำเนินการพัฒนาทางวิทยาศาสตร์สมัยใหม่ ผู้วิจัยต้องเผชิญกับงานที่จริงจังในการจัดกลุ่มข้อมูลเริ่มต้นอย่างถูกต้อง หากข้อมูลไม่ต่อเนื่อง ปัญหาดังที่เราเห็นแล้วจะไม่เกิดขึ้น คุณเพียงแค่ต้องคำนวณความถี่ของแต่ละฟีเจอร์ หากคุณสมบัติที่ตรวจสอบมี ต่อเนื่องอักขระ (ซึ่งในทางปฏิบัติแพร่หลายมากขึ้น) ดังนั้นการเลือกจำนวนช่วงเวลาที่เหมาะสมที่สุดสำหรับการจัดกลุ่มคุณลักษณะนั้นไม่ใช่งานเล็กน้อย

ในการจัดกลุ่มตัวแปรสุ่มอย่างต่อเนื่อง ช่วงความแปรผันทั้งหมดของจุดสนใจจะถูกแบ่งออกเป็นช่วงจำนวนหนึ่ง ถึง.

จัดกลุ่มตามช่วงเวลา (ต่อเนื่อง) ชุดตัวแปรช่วงเวลา () จัดอันดับตามค่าของคุณลักษณะเรียกว่าโดยที่จำนวนการสังเกตที่อยู่ในช่วง r "-th ซึ่งระบุพร้อมกับความถี่ที่สอดคล้องกัน () หรือความถี่สัมพัทธ์ ():

ช่วงค่าลักษณะเฉพาะ

ความถี่ mi

กราฟแท่งและ สะสม (ogiva),เราได้พูดคุยกันในรายละเอียดแล้ว เป็นเครื่องมือสร้างภาพข้อมูลที่ยอดเยี่ยมที่ช่วยให้คุณได้รับแนวคิดหลักเกี่ยวกับโครงสร้างข้อมูล กราฟดังกล่าว (รูปที่ 1.15) สร้างขึ้นสำหรับข้อมูลต่อเนื่องในลักษณะเดียวกับข้อมูลที่ไม่ต่อเนื่อง โดยคำนึงถึงข้อเท็จจริงที่ว่าข้อมูลต่อเนื่องเติมเต็มพื้นที่ของค่าที่เป็นไปได้ทั้งหมดโดยคำนึงถึงค่าใด ๆ

ข้าว. 1.15.

นั่นเป็นเหตุผลที่ คอลัมน์บนฮิสโตแกรมและค่าสะสมต้องสัมผัสกันไม่มีพื้นที่ที่ค่าของลักษณะไม่อยู่ในขอบเขตที่เป็นไปได้ทั้งหมด(กล่าวคือ ฮิสโตแกรมและค่าสะสมไม่ควรมี "รู" ตาม abscissa ซึ่งไม่รวมค่าของตัวแปรที่ศึกษาดังในรูปที่ 1.16) ความสูงของแถบสอดคล้องกับความถี่ - จำนวนการสังเกตภายในช่วงเวลาที่กำหนด หรือความถี่สัมพัทธ์ - สัดส่วนของการสังเกต ช่วงเวลา ไม่ควรตัดกันและโดยทั่วไปจะมีความกว้างเท่ากัน

ข้าว. 1.16.

ฮิสโตแกรมและรูปหลายเหลี่ยมเป็นการประมาณของเส้นโค้งความหนาแน่นของความน่าจะเป็น (ฟังก์ชันดิฟเฟอเรนเชียล) ฉ (x)การแจกแจงตามทฤษฎี ซึ่งพิจารณาในหลักสูตรของทฤษฎีความน่าจะเป็น ดังนั้น การสร้างจึงมีความสำคัญในการประมวลผลทางสถิติเบื้องต้นของข้อมูลเชิงปริมาณต่อเนื่อง - จากการปรากฏ เราสามารถตัดสินกฎการกระจายตามสมมุติฐานได้

สะสม - เส้นโค้งของความถี่สะสม (ความถี่) ของชุดรูปแบบช่วงเวลา ค่าสะสมเปรียบเทียบกับกราฟของฟังก์ชันการกระจายสะสม เอฟ (x), ยังพิจารณาในหลักสูตรของทฤษฎีความน่าจะเป็น.

โดยทั่วไป แนวคิดของฮิสโตแกรมและค่าสะสมจะสัมพันธ์กับข้อมูลต่อเนื่องและชุดความแปรผันของช่วงเวลา เนื่องจากกราฟเป็นค่าประมาณเชิงประจักษ์ของฟังก์ชันความหนาแน่นของความน่าจะเป็นและฟังก์ชันการแจกแจงตามลำดับ

การสร้างชุดรูปแบบช่วงเวลาเริ่มต้นด้วยการกำหนดจำนวนช่วงเวลา เคและงานนี้อาจเป็นงานที่ยากที่สุด สำคัญและขัดแย้งที่สุดในประเด็นที่กำลังศึกษาอยู่

จำนวนช่วงไม่ควรน้อยเกินไป เนื่องจากในกรณีนี้ฮิสโตแกรมจะเรียบเกินไป ( เรียบเกินไป)สูญเสียคุณสมบัติทั้งหมดของความแปรปรวนของข้อมูลเริ่มต้น - ในรูปที่ 1.17 คุณสามารถดูว่าข้อมูลเดียวกันกับกราฟในรูปที่ 1.15 ใช้เพื่อสร้างฮิสโตแกรมที่มีระยะห่างน้อยกว่า (กราฟด้านซ้าย)

ในเวลาเดียวกัน จำนวนช่วงไม่ควรมากเกินไป มิฉะนั้น เราจะไม่สามารถประมาณความหนาแน่นของการแจกแจงของข้อมูลที่ศึกษาตามแกนจำนวนได้: ฮิสโตแกรมจะกลายเป็น undersmooth (ไม่เรียบ)ด้วยช่วงเว้นระยะไม่เท่ากัน (ดูรูปที่ 1.17 กราฟขวา)

ข้าว. 1.17.

คุณจะกำหนดจำนวนช่วงที่ต้องการมากที่สุดได้อย่างไร

ย้อนกลับไปในปี พ.ศ. 2469 เฮอร์เบิร์ต สเตอร์เจส เสนอสูตรสำหรับคำนวณจำนวนช่วงซึ่งจำเป็นต้องแยกชุดค่าดั้งเดิมของลักษณะที่อยู่ระหว่างการศึกษา สูตรนี้ได้รับความนิยมอย่างล้นหลาม - ตำราทางสถิติส่วนใหญ่เสนอสูตรนี้ และชุดข้อมูลสถิติจำนวนมากใช้สูตรนี้โดยค่าเริ่มต้น นี่เป็นเหตุผลที่สมเหตุสมผลและในทุกกรณีเป็นคำถามที่จริงจังมาก

แล้วสูตร Sturges มีพื้นฐานมาจากอะไร?

พิจารณาการแจกแจงทวินาม)

ข้อผิดพลาด:เนื้อหาได้รับการคุ้มครอง !!