Định nghĩa hệ số tương quan Pearson
Hệ số tương quan Pearson, còn được gọi là kiểm định thống kê Pearson R, đo lường sức mạnh giữa các biến khác nhau và mối quan hệ của chúng. Bất cứ khi nào bất kỳ kiểm định thống kê nào được thực hiện giữa hai biến, thì người làm phân tích luôn là một ý kiến hay để tính toán giá trị của hệ số tương quan để biết rằng mối quan hệ giữa hai biến đó mạnh đến mức nào.
Hệ số tương quan của Pearson trả về giá trị từ -1 đến 1. Việc giải thích hệ số tương quan như sau:
- Nếu hệ số tương quan là -1, nó chỉ ra mối quan hệ tiêu cực mạnh. Nó ngụ ý một mối quan hệ phủ định hoàn hảo giữa các biến.
- Nếu hệ số tương quan là 0, nó chỉ ra không có mối quan hệ.
- Nếu hệ số tương quan là 1, nó chỉ ra một mối quan hệ tích cực mạnh mẽ. Nó ngụ ý một mối quan hệ tích cực hoàn hảo giữa các biến.
Giá trị tuyệt đối cao hơn của hệ số tương quan cho thấy mối quan hệ chặt chẽ hơn giữa các biến. Do đó, hệ số tương quan 0,78 cho thấy mối tương quan thuận mạnh hơn so với giá trị nói 0,36. Tương tự, hệ số tương quan -0,87 cho thấy mối tương quan âm mạnh hơn so với hệ số tương quan -0,40.

Nói cách khác, nếu giá trị nằm trong khoảng dương, thì điều đó cho thấy mối quan hệ giữa các biến có tương quan thuận, và cả hai giá trị cùng giảm hoặc tăng. Ngược lại, nếu giá trị nằm trong phạm vi âm, thì điều đó cho thấy mối quan hệ giữa các biến có tương quan nghịch và cả hai giá trị sẽ đi theo hướng ngược lại.
Công thức hệ số tương quan Pearson
Công thức Hệ số tương quan của Pearson như sau,


Ở đâu,
- r = Hệ số Pearson
- n = số cặp cổ phiếu
- ∑xy = tổng các sản phẩm của các cổ phiếu được ghép nối
- ∑x = tổng điểm x
- ∑y = tổng điểm y
- ∑x 2 = tổng điểm x bình phương
- ∑y 2 = tổng điểm y bình phương
Giải trình
Bước 1: Tìm số cặp biến, ký hiệu là n. Giả sử x gồm 3 biến - 6, 8, 10. Giả sử y gồm 3 biến tương ứng 12, 10, 20.
Bước 2: Liệt kê các biến trong hai cột.

Bước 3: Tìm tích của x và y trong cột thứ 3 .

Bước 4: Tìm tổng giá trị của tất cả các biến x và tất cả các biến y. Viết kết quả ở dưới cùng của 1 st và 2 nd cột. Viết tổng x * y vào cột thứ 3 .

Bước 5: Tìm x 2 và y 2 ở cột thứ 4 và thứ 5 và tổng của chúng ở cuối cột.

Bước 6: Chèn các giá trị tìm được ở trên vào công thức và giải nó.
r = 3 * 352-24 * 42 / √ (3 * 200-24 2 ) * (3 * 644-42 2 )
= 0,7559
Ví dụ về Hệ số tương quan Pearson R
ví dụ 1
Trong ví dụ này với sự trợ giúp của các chi tiết sau trong bảng 6 người có độ tuổi khác nhau và trọng lượng khác nhau được đưa ra dưới đây để tính giá trị của Pearson R
Sr Không | Tuổi (x) | Trọng lượng (y) |
1 | 40 | 78 |
2 | 21 | 70 |
3 | 25 | 60 |
4 | 31 | 55 |
5 | 38 | 80 |
6 | 47 | 66 |
Giải pháp:
Để tính toán hệ số tương quan Pearson, trước tiên chúng tôi sẽ tính toán các giá trị sau,

Ở đây tổng số người là 6 nên n = 6
Bây giờ tính toán của Pearson R như sau,

- r = (n (∑xy) - (∑x) (∑y)) / (√ (n ∑x 2 - (∑x) 2 ) (n ∑y 2 - (∑y) 2 )
- r = (6 * (13937) - (202) (409)) / (√ (6 * 7280 - (202) 2 ) * (6 * 28365- (409) 2 )
- r = (6 * (13937) - (202) * (409)) / (√ (6 * 7280 - (202) 2 ) * (6 * 28365- (409) 2 )
- r = (83622- 82618) / (√ (43680 -40804) * (170190- 167281)
- r = 1004 / (√ (2876) * (2909)
- r = 1004 / (√ 8366284)
- r = 1004 / 2892.452938
- r = 0,35
Do đó giá trị của hệ số tương quan Pearson là 0,35
Ví dụ số 2
Có 2 cổ phiếu - A và B. Giá cổ phiếu của họ vào những ngày cụ thể như sau:
Cổ phiếu A (x) | Stcok B (y) |
45 | 9 |
50 | số 8 |
53 | số 8 |
58 | 7 |
60 | 5 |
Tìm ra hệ số tương quan Pearson từ dữ liệu trên.
Giải pháp:
Đầu tiên, chúng ta sẽ tính toán các giá trị sau.

Cách tính hệ số Pearson như sau,

- r = (5 * 1935-266 * 37) / ((5 * 14298- (266) 2) * (5 * 283- (37) 2)) 0,5
- = -0,9088
Do đó hệ số tương quan Pearson giữa hai cổ phiếu là -0,9088.
Ưu điểm
- Nó giúp biết được mối quan hệ giữa hai biến số mạnh mẽ như thế nào. Không chỉ sự hiện diện hay không có mối tương quan giữa hai biến được chỉ ra bằng Hệ số tương quan Pearson, mà nó còn xác định mức độ tương quan chính xác của các biến đó.
- Sử dụng phương pháp này, người ta có thể xác định được hướng tương quan, tức là liệu mối tương quan giữa hai biến là tiêu cực hay tích cực.
Nhược điểm
- Hệ số tương quan Pearson R không đủ để cho biết sự khác biệt giữa các biến phụ thuộc và các biến độc lập vì Hệ số tương quan giữa các biến là đối xứng. Ví dụ, nếu một người đang cố gắng biết mối tương quan giữa căng thẳng cao và huyết áp, thì người ta có thể tìm thấy giá trị cao của mối tương quan, cho thấy rằng căng thẳng cao gây ra huyết áp. Bây giờ, nếu biến số được thay đổi, thì kết quả, trong trường hợp đó, cũng sẽ giống nhau, điều này cho thấy rằng căng thẳng là do huyết áp gây ra, điều này không có ý nghĩa gì. Do đó, nhà nghiên cứu nên biết về dữ liệu mà anh ta đang sử dụng để tiến hành phân tích.
- Sử dụng phương pháp này, người ta không thể nhận được thông tin về độ dốc của đường vì nó chỉ cho biết có bất kỳ mối quan hệ nào giữa hai biến số tồn tại hay không.
- Có khả năng là Hệ số tương quan Pearson có thể bị hiểu sai, đặc biệt là trong trường hợp dữ liệu đồng nhất.
- Khi so sánh với các phương pháp tính toán khác, phương pháp này mất nhiều thời gian để đi đến kết quả.
Điểm quan trọng
- Các giá trị có thể nằm trong khoảng từ giá trị +1 đến giá trị -1, trong đó +1 cho biết mối quan hệ tích cực hoàn hảo giữa các biến được xem xét, -1 cho biết mối quan hệ phủ định hoàn hảo giữa các biến được xem xét và giá trị 0 cho biết không có mối quan hệ nào tồn tại giữa các biến được xem xét.
- Nó độc lập với đơn vị đo lường của các biến. Ví dụ, nếu đơn vị đo của một biến là năm trong khi đơn vị đo của biến thứ hai là kilôgam, thì ngay cả khi đó, giá trị của hệ số này cũng không thay đổi.
- Hệ số tương quan giữa các biến là đối xứng, có nghĩa là giá trị của hệ số tương quan giữa Y và X hoặc X và Y sẽ không đổi.
Phần kết luận
Hệ số tương quan Pearson là loại hệ số tương quan thể hiện mối quan hệ giữa hai biến, được đo lường trên cùng một khoảng thời gian hoặc cùng một thang tỷ lệ. Nó đo lường sức mạnh của mối quan hệ giữa hai biến liên tục.
Nó không chỉ cho biết sự hiện diện hay không có mối tương quan giữa hai biến số mà còn xác định mức độ tương quan chính xác của các biến số đó. Nó độc lập với đơn vị đo lường của các biến trong đó giá trị của hệ số tương quan có thể nằm trong khoảng từ giá trị +1 đến giá trị -1. Tuy nhiên, nó không đủ để nói sự khác biệt giữa các biến phụ thuộc và các biến độc lập.