Công thức Outlier - Tính toán từng bước của ngoại lệ (với ví dụ)

Công thức Outlier cung cấp một công cụ đồ họa để tính toán dữ liệu nằm bên ngoài tập hợp phân phối đã cho, có thể ở bên trong hoặc bên ngoài tùy thuộc vào các biến.

Công thức Outlier là gì?

Điểm ngoại lệ là điểm dữ liệu của mẫu đã cho hoặc quan sát đã cho hoặc trong một phân bố nằm ngoài mẫu tổng thể. Một quy tắc được sử dụng phổ biến nói rằng một điểm dữ liệu sẽ được coi là ngoại lệ nếu nó có IQR thấp hơn 1,5 IQR dưới phần tư đầu tiên hoặc cao hơn phần tư thứ ba.

Nói cách khác, giá trị ngoại lệ thấp sẽ nằm dưới Q1-1.5 IQR và giá trị ngoại lệ cao sẽ nằm dưới Q3 + 1.5IQR

Người ta cần tính toán trung vị, tứ phân vị, bao gồm IQR, Q1 và Q3.

Công thức ngoại lệ được biểu diễn như sau,

Công thức cho Q1 = ¼ (n + 1) lần thứ hạn  Formula cho Q3 = ¾ (n + 1) lần thứ hạn  Formula cho Q2 = Q3 - Q1

Tính toán từng bước của ngoại lệ

Các bước dưới đây cần được thực hiện để tính Outlier.

  • Bước 1: Đầu tiên tính toán các phần tư tức là Q1, Q2 và giữa các phần tư
  • Bước 2: Bây giờ hãy tính giá trị Q2 * 1.5
  • Bước 3: Bây giờ Trừ giá trị Q1 cho giá trị được tính ở Bước 2
  • Bước 4: Tại đây Thêm Q3 với giá trị được tính ở bước 2
  • Bước 5: Tạo phạm vi giá trị được tính ở Bước 3 và Bước 4
  • Bước 6: Sắp xếp dữ liệu theo thứ tự tăng dần
  • Bước 7: Kiểm tra xem có bất kỳ giá trị nào nằm dưới hoặc cao hơn phạm vi được tạo ở Bước 5 hay không.

Thí dụ

Hãy xem xét tập dữ liệu gồm các số sau: 10, 2, 4, 7, 8, 5, 11, 3, 12. Bạn được yêu cầu tính tất cả các Giá trị ngoại lai.

Giải pháp:

Đầu tiên, chúng ta cần sắp xếp dữ liệu theo thứ tự tăng dần để tìm giá trị trung bình, đối với chúng ta sẽ là Q2.

2, 3, 4, 5, 7, 8, 10, 11, 12

Bây giờ vì số quan sát là số lẻ, là 9, trung vị sẽ nằm ở vị trí thứ 5 , là 7, và tương tự sẽ là Q2 cho ví dụ này.

Do đó, cách tính Q1 như sau:

Q1 = ¼ (9 + 1)

= ¼ (10)

Q1 sẽ là -

Q1 = 2,5 kỳ hạn

Điều này có nghĩa là Q1 là giá trị trung bình của vị trí thứ 2thứ 3 của các quan sát, ở đây là 3 & 4, và trung bình của vị trí tương tự là (3 + 4) / 2 = 3,5

Do đó, cách tính Q3 như sau:

Q3 = ¾ (9 + 1)

= ¾ (10)

Q3 sẽ là -

Q3 = 7,5 hạn

Điều này có nghĩa rằng Q3 là mức trung bình của 7 ngày và 8 ngày vị trí của các quan sát, đó là 10 & 11 ở đây, và trung bình như nhau là (10 + 11) / 2 = 10,5

Bây giờ, giá trị ngoại lệ thấp sẽ nằm dưới Q1-1.5IQR và giá trị ngoại lệ cao sẽ nằm dưới Q3 + 1.5IQR

Vì vậy, các giá trị là 3,5 - (1,5 * 7) = -7 và phạm vi cao hơn là 10,5 + (1,5 * 7) = 110,25.

Vì không có quan sát nào nằm trên hoặc thấp hơn 110,25 và -7, chúng tôi không có bất kỳ ngoại lệ nào trong mẫu này.

Ví dụ về Công thức Outlier trong Excel (với Mẫu Excel)

Các lớp huấn luyện sáng tạo đang cân nhắc khen thưởng những sinh viên nằm trong 25% hàng đầu Tuy nhiên, họ muốn tránh bất kỳ trường hợp ngoại lệ nào. Dữ liệu dành cho 25 sinh viên. Sử dụng phương trình Outlier để xác định xem có ngoại lệ không?

Giải pháp:

Dưới đây là dữ liệu được cung cấp để tính toán ngoại lệ.

Số lượng quan sát ở đây là 25 và bước đầu tiên của chúng tôi sẽ là chuyển đổi dữ liệu thô ở trên theo thứ tự tăng dần.

Trung vị sẽ là -

Giá trị trung bình = ½ (n + 1)

= ½ = ½ (26)

= 13 ngày hạn

Q2 hoặc trung bình là 68,00

Mà là 50% dân số.

Q1 sẽ là -

Q1 = ¼ (n + 1) số hạng thứ

= ¼ (25 + 1)

= ¼ (26)

= 6,5 ngày hạn, đó là tương đương với 7 ngày hạn

Q1 là 56,00, là 25% đáy

Q3 sẽ là -

Cuối cùng, số hạng thứ Q3 = ¾ (n + 1)

= ¾ (26)

= 19,50 hạn

Ở đây, nhu cầu trung bình được thực hiện, đó là 19 ngày và 20 ngày về là 77 và 77 và tỷ lệ trung bình của cùng là (77 + 77) / 2 = 77.00

Q3 là 77, là 25% hàng đầu

Tầm thấp

Bây giờ, giá trị ngoại lệ thấp sẽ nằm dưới Q1-1.5IQR và giá trị ngoại lệ cao sẽ nằm dưới Q3 + 1.5IQR

Tầm cao -

Vì vậy, các giá trị là 56 - (1.5 * 68) = -46 và phạm vi cao hơn là 77 + (1.5 * 68) = 179.

Không có ngoại lệ.

Mức độ liên quan và sử dụng

Công thức giá trị ngoại lai rất quan trọng cần biết vì có thể có dữ liệu bị sai lệch bởi giá trị đó. Lấy ví dụ về các quan sát 2, 4, 6, 101 và bây giờ nếu ai đó lấy giá trị trung bình của các giá trị này, nó sẽ là 28,25, nhưng 75% các quan sát nằm dưới 7 và do đó một sẽ là một quyết định không chính xác về các quan sát của mẫu này.

Ở đây có thể nhận thấy rằng 101 rõ ràng dường như phác thảo, và nếu điều này bị loại bỏ, thì trung bình sẽ là 4, điều này nói về các giá trị hoặc quan sát mà chúng nằm trong phạm vi 4. Do đó, điều này rất quan trọng tính toán để tránh sử dụng sai thông tin hàng đầu của dữ liệu. Chúng được sử dụng rộng rãi bởi các nhà thống kê trên toàn thế giới bất cứ khi nào họ thực hiện bất kỳ nghiên cứu nào.

thú vị bài viết...