- Tương quan mô tả sự liên kết; nhân quả hàm ý cơ chế và hướng tác động.
- Các ví dụ thực tế cho thấy biến số thứ ba, quan hệ nhân quả ngược và nghịch lý Simpson.
- Để ước lượng hiệu quả: sử dụng phương pháp ngẫu nhiên hóa, thiết kế bán thực nghiệm và điều chỉnh chặt chẽ.
- Cách dùng ngôn ngữ thận trọng tránh biến những mối liên hệ mang tính quan sát thành những nguyên nhân chắc chắn.
Cuộc thảo luận công khai về dữ liệu đầy rẫy những cạm bẫy về mặt khái niệm, và trong số đó, việc nhầm lẫn giữa hai điều có mối liên hệ mật thiết với nhau, điều này gây ra điều kia, là một trong những sai lầm thường gặp nhất. Phân biệt rõ ràng giữa tương quan và nguyên nhân. Đây không chỉ là một vấn đề kỹ thuật thống kê; mà còn là một kỹ năng thực tiễn giúp tránh đưa ra những quyết định vội vàng trong lĩnh vực y tế, kinh tế, tiếp thị, hoặc... khoa học chính trị.
Trong những dòng tiếp theo, bạn sẽ tìm thấy một hướng dẫn đầy đủ và thú vị để tránh rơi vào cái bẫy đó. Chúng ta sẽ định nghĩa cả hai khái niệm và xem xét những điểm khác biệt thiết yếu.Chúng ta sẽ xem xét những ví dụ thường ngày thoạt nhìn có vẻ dễ gây hiểu nhầm, khám phá các phương pháp để vạch trần những mối quan hệ sai lệch, và xem xét lại những cách tiếp cận mạnh mẽ nhất để suy luận về hiệu quả nhân quả khi chúng ta không thể tự do tiến hành thí nghiệm.
Vậy tương quan là gì và nhân quả là gì?
Khi hai biến số cùng biến đổi, ta thường nói rằng chúng có tương quan: nếu biến số này tăng, biến số kia có xu hướng tăng, hoặc ngược lại. Hệ số tương quan là thước đo mức độ liên kết.Nó định lượng cường độ và hướng của sự tương tác đó, nhưng không cho chúng ta biết lý do tại sao nó xảy ra.
Khái niệm nhân quả lại là một câu chuyện khác: nó ngụ ý rằng sự thay đổi ở một biến số sẽ gây ra sự thay đổi ở biến số khác. Mối quan hệ nhân quả là có hướng. Và điều đó đòi hỏi một cơ chế kết nối nguyên nhân và kết quả. Sự tồn tại của mối quan hệ nhân quả có thể dẫn đến hoặc không dẫn đến mối tương quan có thể quan sát được trong dữ liệu, tùy thuộc vào cách chúng ta đo lường và trong điều kiện nào.
Những điểm khác biệt chính cần ghi nhớ
- Mối tương quan không nhất thiết dẫn đến kết quả.Có thể tồn tại mối liên hệ mà không có mối quan hệ nhân quả rõ ràng.
- Quan hệ nhân quả hàm ý một cơ chế.Tuy nhiên, mối tương quan này có thể không biểu hiện rõ nếu có các biện pháp kiểm soát hoặc bù trừ làm che khuất mô hình.
- Mối tương quan này là đối xứng. (Quan hệ nhân quả giữa A và B cũng giống như giữa B và A), nhưng quan hệ nhân quả thì không: việc A gây ra B không có nghĩa là B gây ra A.
Ví dụ kiểm tra trực giác
Tương quan mà không có nguyên nhân: cái bẫy biến số thứ ba
Trong các phân tích theo thời gian, người ta thường quan sát thấy rằng vào những tháng nóng, doanh số bán kem tăng lên, và số vụ chết đuối trên bãi biển cũng tăng theo. Cả hai chuỗi đều biến động cùng chiều do một yếu tố chung. (nhiệt độ và việc sử dụng bãi biển tăng lên), không phải vì kem gây ra đuối nước hay ngược lại. Đây là một ví dụ điển hình về mối tương quan giả tạo do biến số gây nhiễu.
Một trường hợp tương tự đã xảy ra với một phát hiện của giới truyền thông về việc trẻ sơ sinh ngủ với đèn bật sáng có nguy cơ bị cận thị cao hơn. Sau đó người ta phát hiện ra rằng cha mẹ bị cận thị. Nó ảnh hưởng đến cả việc sử dụng đèn ngủ và, thông qua yếu tố di truyền, thị lực của trẻ em. Một lần nữa, đây là biến số thứ ba giải thích mối liên hệ này.
Khi có nguyên nhân nhưng mối tương quan lại biến mất.
Hãy tưởng tượng một bộ điều nhiệt giữ cho ngôi nhà ở nhiệt độ ổn định bằng cách điều khiển lò sưởi đốt nhiên liệu. Lượng nhiên liệu đó gây ra nhiệt.Tuy nhiên, do bộ điều nhiệt có cơ chế bù trừ, nhiệt độ bên trong có thể không tương quan với lượng nhiên liệu đã đốt. Có mối quan hệ nhân quả nhưng không có sự tương quan rõ ràng trong phép đo đó.
Phương hướng rất quan trọng, và đôi khi nó lại đi ngược chiều.
Người ta thường nói rằng lối sống năng động giúp bảo vệ khả năng nhận thức ở người lớn tuổi. Tuy nhiên, hiện tượng nhân quả ngược vẫn có thể xảy ra.Những người duy trì chức năng nhận thức tốt hơn thường có thói quen sinh hoạt năng động hơn. Tuy nhiên, mối liên hệ này thôi chưa đủ để giải thích quy luật thời gian.
Nghịch lý Simpson
Nghịch lý này xuất hiện khi một xu hướng hiện diện ở dạng tổng thể bị đảo ngược khi được phân tích theo các nhóm nhỏ. Một ví dụ phổ biến là phương pháp điều trị có vẻ hiệu quả hơn ở liều cao. Nhìn chung dữ liệu cho thấy xu hướng tương tự, nhưng khi phân tích theo giới tính, mô hình lại đảo ngược vì sự phân bố liều lượng khác nhau giữa các nhóm. So sánh những thứ không tương đồng sẽ che khuất thực tế.
Làm thế nào để phát hiện các mối quan hệ giả tạo
Một công cụ hữu ích là hệ số tương quan riêng phần: Nó đo lường mối liên hệ giữa hai biến số trong khi kiểm soát biến số thứ ba.Nếu mối liên hệ giữa kem và chết đuối biến mất khi đã điều chỉnh theo nhiệt độ, thì bạn biết rằng mối quan hệ đó là giả tạo.
Một chiến lược khác là phân tích theo từng tầng: Phân chia theo các nhóm phù hợp (tuổi, giới tính, khu vực) hoặc điều chỉnh các biến gây nhiễu trong mô hình để phân lập các tác động và tránh những kết luận sai lệch do sự pha trộn của các quần thể.
Các chỉ số cơ bản để định lượng mối liên hệ
Hiệp phương sai biểu thị hướng thay đổi đồng thời của hai biến số. Tích cực nếu chúng di chuyển cùng hướng và tiêu cực nếu chúng di chuyển ngược hướng.Giá trị gần bằng 0 cho thấy không có mối quan hệ tuyến tính. Thang đo của nó phụ thuộc vào đơn vị, do đó không thể so sánh giữa các cặp khác nhau; sự cẩn trọng với các chỉ số này gợi nhớ đến các thực tiễn của kiểm soát chất lượng.
Hệ số tương quan Pearson chuẩn hóa hiệp phương sai và có giá trị từ -1 đến 1. Nó dùng để định lượng độ mạnh của mối quan hệ tuyến tính. Giữa các biến định lượng liên tục, trong đó 1 hoặc -1 biểu thị mối quan hệ hoàn hảo. Nó cũng cung cấp giá trị p để kiểm tra xem mối liên hệ quan sát được có thể là do ngẫu nhiên trong một số giả định nhất định hay không.
Spearman đánh giá mối liên hệ dựa trên thứ hạng. Phương pháp này hoạt động tốt khi mối quan hệ là đơn điệu nhưng không nhất thiết phải tuyến tính.và nó có khả năng chống chịu tốt hơn với các giá trị ngoại lệ. Hơn nữa, nó hỗ trợ các biến thứ tự, điều mà Pearson không hỗ trợ.
Các lựa chọn ít phổ biến hơn khác bao gồm Kendall để xếp hạng đối sánh và điểm nhị phân khi Một biến là biến nhị phân, biến còn lại là biến khoảng.Việc lựa chọn hệ số chính xác sẽ tránh được những hiểu sai.
Về giá trị p nổi tiếng, cần làm rõ: Đó không phải là xác suất để một giả thuyết đúng.Nó cho biết dữ liệu quan sát được sẽ cực đoan đến mức nào nếu mô hình giả thuyết là chính xác. Giá trị p thấp cho thấy mối liên hệ quan sát được khó có thể là do ngẫu nhiên, nhưng bản thân nó không chứng minh được mối quan hệ nhân quả.
Khi nào nên sử dụng từng biện pháp?
Nếu bạn muốn biết hai biến số đang chuyển động theo hướng nào mà không có ý định so sánh độ lớn của chúng, Hiệp phương sai cung cấp cho bạn một manh mối.Để đo lường độ mạnh của mối quan hệ tuyến tính giữa các biến liên tục và không có các giá trị ngoại lệ lớn, hệ số tương quan Pearson là lựa chọn tự nhiên.
Khi bạn nghi ngờ mối quan hệ đó đơn điệu nhưng không tuyến tính, Có giá trị cực đoan nào không hay bạn đang làm việc với dữ liệu thứ tự?Hệ số tương quan hạng Spearman thường cho kết quả đáng tin cậy hơn. Và hãy nhớ: mọi hệ số tương quan đều mô tả mối liên hệ, chứ không phải là tác động.
Mô hình nhân quả là gì và nó được sử dụng để làm gì?
Mô hình phương trình cấu trúc (SEM) cho phép xác định các mối quan hệ đồng thời Giữa các biến có chứa các thuật ngữ sai số và các ràng buộc lý thuyết. Chúng hữu ích khi hệ thống có nhiều đường dẫn nhân quả và biến tiềm ẩn.
Làm thế nào để suy luận nhân quả một cách chặt chẽ
Tiêu chí đánh giá chính là các thử nghiệm đối chứng ngẫu nhiên. Phương pháp ngẫu nhiên hóa phân bổ ngẫu nhiên nhóm điều trị hoặc nhóm đối chứng.Bằng cách cân bằng các yếu tố quan sát được và không quan sát được tính trung bình. Nếu mọi thứ khác vẫn tương đương, sự khác biệt về kết quả được quy cho phương pháp điều trị.
Khi việc ngẫu nhiên hóa không khả thi, các thiết kế bán thực nghiệm sẽ xuất hiện. Quá trình so sánh nhằm mục đích đối chiếu những thứ tương đồng với nhau., so sánh nhóm được điều trị và nhóm đối chứng dựa trên các biến số liên quan.
Sự gián đoạn trong quá trình hồi quy khai thác một ngưỡng: một điểm phân định để chỉ định phương pháp điều trịNhững người có kết quả ngay trên và dưới ngưỡng đều tương tự nhau, ngoại trừ yếu tố can thiệp, cho phép ước tính hiệu quả ở phạm vi cục bộ.
Sự khác biệt trong sự khác biệt so sánh sự tiến triển của nhóm được điều trị và nhóm đối chứng Trước và sau khi can thiệp, giả định xu hướng tương tự như khi không có can thiệp. Đây là một công cụ mạnh mẽ trong việc đánh giá chính sách.
Dữ liệu quan sát cũng có thể được sử dụng để thúc đẩy sự tiến bộ bằng cách kết hợp lý thuyết và thống kê. phân tích tình huống. Các công cụ hợp lệ, các mẫu đối chứng tổng hợp hoặc các mô hình học máy Chúng giúp ước tính hiệu quả, luôn làm rõ các giả định. Các công cụ phân tích như nền tảng quảng cáo hoặc bộ công cụ phân tích kỹ thuật số minh họa cách tiếp cận này bằng dữ liệu lịch sử.
Mối tương quan trong dữ liệu lớn: Cơ hội và thách thức
Việc khám phá các mối tương quan trong các cơ sở dữ liệu lớn giúp phát hiện ra các mô hình có giá trị, nhưng Biển dữ liệu càng lớn, càng có nhiều tiếng còi báo động giả vang lên.Những mối liên hệ đáng chú ý xuất hiện là kết quả của sự trùng hợp ngẫu nhiên về mặt thống kê, chứ không phải là mối quan hệ thực sự.
Các thuật toán phát hiện ra các quy luật, nhưng mà không có câu hỏi nhân quả rõ ràng và thiết kế nghiên cứu vững chắc.Xác suất nhầm lẫn giữa nhiễu và tín hiệu tăng lên đáng kể. Do đó, mối tương quan định hướng các giả thuyết; mối quan hệ nhân quả được hỗ trợ bởi các nghiên cứu được thiết kế tốt.
Ngôn ngữ có trách nhiệm: dấu hiệu cảnh báo
Khi đọc tiêu đề, hãy cảnh giác với các động từ mang tính tuyệt đối như giảm, tăng, gây ra hoặc loại bỏ nếu bằng chứng đến từ các nghiên cứu quan sát. Nên sử dụng cách diễn đạt thận trọng. Vì nó có liên quan đến, nên có thể cải thiện, điều này cho thấy một mối quan hệ.
Ông ta cũng nghi ngờ Các khẳng định về mối quan hệ nhân quả dựa trên những quan sát đơn giản.Mối liên hệ không nhất thiết quyết định chiều hướng: nó có thể ngược lại hoặc do các biến số gây nhiễu. Thận trọng trong ngôn từ giúp tránh đưa ra những quyết định sai lầm.
Một ví dụ minh họa là thông điệp cho rằng tiêu thụ dầu ô liu giúp giảm tỷ lệ tử vong. Các bằng chứng quan sát cho thấy có những mối liên hệ tích cực.Nhưng điều này chưa đủ để khẳng định mối quan hệ nhân quả; sẽ thích hợp hơn nếu nói rằng nó có liên quan đến tỷ lệ tử vong thấp hơn, hoặc có thể làm giảm tỷ lệ tử vong, cần chờ kết quả thử nghiệm.
Ngoài ra, còn có những tin tức về một phương pháp điều trị bằng hormone dường như có tác dụng bảo vệ tim. Bằng cách kiểm soát mức độ kinh tế xã hội và lối sống. Tác động đó giảm dần và thậm chí đảo ngược. Các biến số ẩn có thể gây ra nhiều thiệt hại nếu không được kiểm soát.
Những ví dụ thường ngày dễ gây hiểu nhầm.
Gà trống gáy trước bình minh và mặt trời mọc mỗi ngày, nhưng Hát hò không làm cho mặt trời mọc.Tương tự, việc rửa xe không gây ra mưa, mặc dù đôi khi có vẻ như đó chỉ là sự trùng hợp ngẫu nhiên.
Trong lĩnh vực sức khỏe, khi bị cảm lạnh, bạn uống nước chanh và sau vài ngày sẽ khỏi bệnh. Sự tiến triển tự nhiên của bệnh nhiễm trùngNghỉ ngơi và các biện pháp chăm sóc khác giải thích sự cải thiện; chúng ta không thể chỉ đơn thuần quy kết điều đó cho nước ép.
Bất kỳ phương pháp điều trị nào cũng có thể dẫn đến những thay đổi về triệu chứng. Điều đó chưa đủ để kết luận rằng sự thay đổi là do phương pháp điều trị.Các yếu tố bên ngoài, sự hồi quy về giá trị trung bình, hoặc sự cải thiện tự phát có thể là nguyên nhân.
Những người tiêu thụ ít thực phẩm chế biến sẵn thường có tỷ lệ mắc ung thư thấp hơn, nhưng Sự khác biệt đó có thể phản ánh lối sống lành mạnh hơn.Hoạt động thể chất nhiều hơn, khả năng tiếp cận dịch vụ chăm sóc sức khỏe tốt hơn, hoặc sự khác biệt về kinh tế xã hội. Mối liên hệ này không chứng minh được mối quan hệ nhân quả.
Từ mối tương quan đến nguyên nhân thông qua các nghiên cứu thực nghiệm
Một ví dụ nổi tiếng: hoạt động thể chất nhiều hơn có liên quan đến việc giảm nguy cơ mắc bệnh tim mạch. Mối tương quan mở ra cánh cửa cho các giả thuyết.Ví dụ, tập thể dục có thể làm tăng oxit nitric và giãn mạch máu, làm giảm huyết áp. Một thí nghiệm có kiểm soát sau đó có thể đo lường cơ chế này và ước tính tác động nhân quả.
Một ví dụ ngây thơ khác: bạn có thể thấy rằng việc tập thể dục nhiều hơn có liên quan đến tỷ lệ mắc ung thư da cao hơn. Nguyên nhân phổ biến thực sự có thể là do tiếp xúc với ánh nắng mặt trời.Điều này làm tăng cả hoạt động ngoài trời và nguy cơ ung thư da. Nếu không có thiết kế thí nghiệm hoặc kiểm soát tốt các yếu tố gây nhiễu, việc giải thích nguyên nhân sẽ sai lầm.
Hồi quy và nhân quả: điều gì hiệu quả và điều gì không hiệu quả
Hồi quy dự đoán một biến số từ một biến số khác dựa trên các giả định thống kê. Nhưng cả tương quan lẫn hồi quy đều không chứng minh được mối quan hệ nhân quả. Tự bản thân chúng; ý nghĩa nhân quả phải xuất phát từ lý thuyết, tính thời gian hoặc thiết kế.
Để nói đến mối quan hệ nhân quả, bạn cần ít nhất một mối quan hệ có ý nghĩa thống kê và tiêu chí quản lýHoặc biến số gây ra xảy ra trước kết quả, hoặc có cơ sở lý thuyết vững chắc cho mối liên hệ nhân quả. Nếu thiếu yếu tố thời gian hoặc lý thuyết, thì chỉ có sự liên kết chứ không phải nhân quả.
Ví dụ: nghiên cứu xem liệu độ tuổi mà một đứa trẻ bắt đầu nói những câu đầu tiên có liên quan đến thành tích học tập sau này của chúng hay không. Đầu tiên, mối liên hệ được so sánh.Nếu có một hướng đi rõ ràng, thì đó là trình tự thời gian: thành công của trường học không thể quay ngược thời gian và thay đổi thời điểm nó bắt đầu xuất hiện.
Và nếu bạn đang tìm kiếm các công cụ để luyện tập, có những máy tính và nguồn tài liệu trực tuyến giúp bạn. Chúng cho phép bạn thực hiện các phép tính tương quan và hồi quy. Một cách đơn giản, một số nền tảng như Numiqo hỗ trợ các phân tích này cho giáo viên, nhà nghiên cứu và các chuyên gia.
Cách lựa chọn giữa suy luận tương quan và suy luận nhân quả tùy thuộc vào mục tiêu
Hệ số tương quan rất lý tưởng để khám phá và theo dõi các mối quan hệ trên bảng điều khiển. ưu tiên các giả thuyết và phát hiện các mô hình. Trong tiếp thịViệc liên hệ các lần truy cập lặp lại với tỷ lệ chuyển đổi hoặc xác định nội dung có sự thay đổi theo tần suất mua hàng là rất hữu ích.
Khi mục tiêu là xác định tác động của một biện pháp can thiệp cụ thể (điều gì sẽ xảy ra nếu tôi tăng ngân sách quảng cáo), Bạn cần các phương pháp nhân quảLý tưởng nhất là thực hiện thử nghiệm A/B với phân bổ ngẫu nhiên; nếu điều này không khả thi, hãy sử dụng các thiết kế bán thực nghiệm như so khớp, gián đoạn hoặc khác biệt kép.
Với dữ liệu từ các công cụ như bộ công cụ phân tích và nền tảng quảng cáo, người ta thường sử dụng đến... mô hình với dữ liệu quan sát Được hỗ trợ bởi các giả định rõ ràng. Đôi khi, các công cụ hợp lệ hoặc kiểm soát tổng hợp được sử dụng để xây dựng các kịch bản phản thực tế đáng tin cậy.
Nếu bạn muốn thử nghiệm với các ví dụ có thể tái tạo, bạn có thể tham khảo các kho lưu trữ hiển thị chúng. Các đoạn mã cơ bản để thao tác với dữ liệu trong các tình huống khác nhau.như ví dụ có sẵn tại liên kết này: github.com/pichu2707/corr-causal-enae.
Lời khuyên thiết thực để đánh giá bằng chứng
Trước khi vội vàng đón nhận một tiêu đề giật gân, hãy tự hỏi bản thân: Có sự ngẫu nhiên hóa hay chỉ là quan sát đơn thuần?Liệu các biện pháp kiểm soát yếu tố gây nhiễu đã được thực hiện đầy đủ chưa? Các nhóm nhỏ có cùng đưa ra một kết quả hay xuất hiện nghịch lý Simpson? Đây chính là cách bạn lọc bỏ nhiễu.
Khi bạn thấy một nghiên cứu quan sát có động từ mạnh, hãy tự diễn đạt lại nó ở dạng điều kiện: có liên quan đến và có thể làm giảm hoặc tăngNgành ngôn ngữ học nhỏ bé này tránh việc diễn giải quá mức và duy trì tính trung thực khoa học.
Phân loại nghiên cứu này trong đầu: nghiên cứu quan sát hay nghiên cứu can thiệp. Các nhà nghiên cứu quan sát phát hiện ra các mối liên hệ.Các nghiên cứu thực nghiệm, nếu được tiến hành tốt, cho phép xác định mối quan hệ nhân quả một cách chắc chắn hơn nhiều. Chúng đóng vai trò như một bộ lọc nhanh để tránh những sai sót.
Trong tâm lý học lâm sàng và trị liệu tâm lý, nơi nhiều yếu tố cùng tồn tại và tương tác với nhau, các nhóm có kinh nghiệm trong các bối cảnh thực tế Họ nhắc nhở chúng ta rằng suy luận nhân quả đòi hỏi sự thận trọng đặc biệt và các thiết kế phù hợp để tránh nhầm lẫn giữa các mối tương quan nổi bật với hiệu quả điều trị thực sự.
Việc xem xét kỹ lưỡng dữ liệu, lựa chọn công cụ phù hợp với câu hỏi và cẩn trọng trong cách dùng từ sẽ tạo nên sự khác biệt giữa việc chỉ ra rằng hai yếu tố chuyển động cùng chiều và việc chứng minh được rằng yếu tố này tác động lên yếu tố kia. Sử dụng hệ số tương quan để khám phá và ưu tiên các giả thuyết.Hãy dành các phương pháp nhân quả để xác định nguyên nhân và đưa ra quyết định; bằng cách này, bạn sẽ chuyển từ việc xác định mối quan hệ nhân quả sang việc xác định nguyên nhân gây ra kết quả với độ tin cậy cao nhất.