ລ້າງລົດແລ້ວຝົນຕົກ? ເຮົາຈະຮູ້ແນວໃດວ່າຂໍ້ມູນມັນມີຄວາມສຳພັນກັນແທ້ຫຼືບໍ່

ຟ້າແດດໆ ລ້າງລົດກ່ອນ! ລ້າງລົດແລ້ວ ຝົນຊ້ຳພັດຕົກ! ເຫັນໃຜໆກະມັກເວົ້າ ແລ້ວສອງສິ່ງນີ້ມັນມີຄວາມສຳພັນກັນແທ້ບໍ່ ຫຼື ສັນນິຖານເຮົາຜິດເອງ
ການນຳຂໍ້ມູນມາວິເຄາະຫາຄວາມສຳພັນກັນວ່າສອງເຫດການ ຫຼື ສອງຕົວປ່ຽນ ມີຄວາມສຳພັນກັນບໍ່; ການຫາຜົນກະທົບຂອງສິ່ງໃດໜຶ່ງວ່າ x ເຮັດໃຫ້ ເກີດ y ບໍ່ນັ້ນ ສ່ວນຫຼາຍແລ້ວເຮົາກໍໄປຫາຄ່າຄວາມສຳພັນກັນ ແລະ ແຕ້ມຮູບເບິ່ງວ່າ ມັນມີຄວາມສຳພັນກັນບໍ່. ແຕ່ວ່າຕົວເລກທີ່ໄດ້ມານັ້ນ ເຮົາສາມາດຢັ້ງຢືນໄດ້ວ່າມັນມີຄວາມສຳພັນກັນແທ້ ຕົວຢ່າງ: ເຮົາທົບສອບສອງຕົວປ່ຽນມາມັນມີຄວາມສຳພັນກັນແທ້ບໍ່ ຜົນອອກມາສອງອັນນີ້ມີຄວາມສຳພັນກັນສູງເຖິງ 90% ເຮົາກະເລີຍສະຫຼຸບໄດ້ວ່າ ສອງກັນນີ້ມີຄວາມສຳພັນກັນສູງ.
ແຕ່!!! ເຮົາຢ່າລືມວ່າຄອມພິວເຕີ ເຮົາປ້ອນຫຍັງເຂົ້າມັນກະມີແຕ່ໜ້າທີ່ເຮັດ ແລະ ລາຍງານຜົນເທົ່ານັ້ນ ມັນບໍ່ຮູ້ວ່າ ສິ່ງທີ່ເຮົາປ້ອນເຂົ້າມັນມີຄວາມສຳພັນກັນແທ້ບໍ່ໃນຄວາມເປັນຈິງ ມັນຂຶ້ນກັບເຮົາວ່າຕົວປ່ຽນທຸກໆໂຕທີ່ເຮົາປ້ອນເຂົ້າໄປນັ້ນມັນມີຄວາມສຳພັນ ມີເຫດ ແລະ ຜົນເຊິ່ງກັນ ແລະ ກັນຫຼືບໍ່.
ຖ້າເຮົາໄປອ່ານບົດຄວາມຕ່າງໆ ເຮົາຈະເຫັນກະເຈົ້າຍົກຕົວຢ່າງນີ້ຕະຫຼອດ ມັນມີຜົນການວິໄຈໜຶ່ງ ທີ່ອອກມາວ່າ ອັດຕາການເພີ່ມຂຶ້ນຂອງການຊື້ກະແລັມເພີ່ມຂຶ້ນເຮັດໃຫ້ອັດຕາການກໍ່ເຫດຮ້າຍເພີ່ມຂຶ້ນໂດຍມີອັດຕາຄວາມສຳພັນກັນສູງ. ດຽວໆ ແຕ່ໃນຄວາມເປັນຈິງແລ້ວ ມັນເບິ່ງແລ້ວບໍ່ມີຕັກກະເລີຍວ່າ ສອງອັນນີ້ມັນກ່ຽວກັນໄດ້ແນວໃດ ມັນອາດຈະເກີດຈາກ ອາກາດຮ້ອນກະແລັມກະເລີຍຂາຍດີ ບວກກັບອາກາດຮ້ອນແນ່ໃຈກະຮ້ອນຕາມກະເລີຍມີໂອກາດເຮັດໃຫ້ຄົນກໍ່ເຫດຮ້າຍເພີ່ມຂຶ້ນ ກໍເປັນໄປໄດ້.
ຜູ້ອ່ານເຫັນພາບອອກແລ້ວບໍ່? ຖ້າຍັງເອົາອີກຕົວຢ່າງໜຶ່ງ ສົມມຸດວ່າມີການສຶກສາໜຶ່ງບອກວ່າ ສີຂອງລົດມີຜົນຕໍ່ກັບການເກີດອຸບັດຕິເຫດ ເຊິ່ງວ່າ ເພິ່ນຍົກເອົາ 2 ສີມາປຽບທຽບກັນຄື ສີຂາວ ກັບ ສີດຳ ໂດຍມີຕົວຢ່າງແຕ່ລະຄັນແມ່ນ 10.000 ຄັນ. ຜົນວິໄຈບອກວ່າ ລົດສີດຳຈະມີໂອກາດເກີດອຸບັດຕິເຫດໜ້ອຍກວ່າລົດສີຂາວ. ຈາກຜົນການວິໄຈ ສະແດງວ່າຖ້າໃຜມີລົດສີດຳແລ້ວຈະມີໂອກາດເກີດອຸບັດຕິເຫດໜ້ອຍລົງກ່ອນສີອື່ນໆຊັ້ນຫວາ, ແລ້ວປັດໄຈອື່ນເດລະ ບໍ່ວ່າຈະເປັນຄົນຂັບ, ຫົນທາງ, ດິນຟ້າອາກາດ ບໍ່ມີຜົນຕໍ່ກັບການເກີດອຸບັດຕິເຫດເລີຍຫວາ? ແລ້ວຖ້າເຮົາຢາກໄດ້ຜົນທີ່ຊັດເຈນກວ່ານີ້ເຮົາຈະເຮັດແນວໃດ? ເຮົາອາດຈະມີ control group ຫຼື ຕົວປ່ຽນທີ່ເຮົາຄວບຄຸມໄດ້ ປຽບທຽບກັບ ຕົວປ່ຽນທີ່ເຮົາບໍ່ໄດ້ຄວບຄຸມ ເຊັ່ນ: ເຮົາອາດຈະນຳລົດທັງສອງສີ ມາທົດສອບກຸ່ມຄົນປະເພດດຽວ (ບໍ່ເມົາ), ໄລຍະທາງສ່ຳກັນ, ພື້ນຫົນທາງດຽວກັນ, ສະພາບອາກາດຄືກັນ. ການທີ່ເຮົາມີ control group ຈະຊ່ວຍໃຫ້ເຮົາສາມາດເບິ່ງຄວາມສຳພັນ ແລະ ຜົນກະທົບຂອງຕົວປ່ຽນທີ່ເຮົາກຳລັງສົມທຽບນັ້ນໃຫ້ໄດ້ຊັດເຈນຍິ່ງຂຶ້ນ.
ຮູ້ຈັກປັດໄຈທັງໝົດທີ່ເປັນສາເຫດ (ບາງເຫດການ ບໍ່ແມ່ນມີແຕ່ພຽງຕົວປ່ຽນດຽວທີ່ເປັນສາເຫດ)
ການເຮັດວຽກກັບຂໍ້ມູນທີ່ເຮົາບໍ່ສາມາດກຳນົດທຸກສິ່ງທຸກຢ່າງໄດ້ນັ້ນ ມັນອາດຈະເປັນອຸປະສັກໃຫ້ເຮົາວິເຄາະຂໍ້ມູນບໍ່ຊັດເຈນ ສິ່ງສຳຄັນທີ່ສຸດກໍຄືບາງເທື່ອຕົວປ່ຽນຕາມ ແລະ ຕົວປ່ຽນຕົ້ນທີ່ເຮົາເອົາມານັ້ນ, ຕົວປ່ຽນຕົ້ນອາດຈະບໍ່ຄອບຄຸມ ຫຼື ເປັນໄປໄຈດຽວທີ່ກໍ່ໃຫ້ເກີດຕົວປ່ຽນຕາມ ຕົວຢ່າງ: ນັກການຕະຫຼາດບອກວ່າ ຍອດຂາຍຂອງລົດຈັກເຮົາເພີ່ມຂຶ້ນ ຍ້ອນລົດຕິດເຮັດໃຫ້ຄົນທີ່ໃຊ້ລົດໃຫຍ່ປ່ຽນໄປໃຊ້ລົດຈັກຫຼາຍຂຶ້ນ ຍອດຂາຍຂອງລົດຈັກກໍເລີຍເພີ່ມຂຶ້ນ, ການປ່ຽນຈາກລົດໃຫຍ່ໄປໃຊ້ລົດຈັກ ຍ້ອນວ່າລົດຕິດກໍ່ບໍ່ແມ່ນປັດໄຈດຽວເທົ່ານັ້ນ ມັນອາດເປັນພຽງປັດໄຈໃນຫຼາຍໆ ປັດໄຈເຊັ່ນ: ປ່ຽນບ່ອນເຮັດວຽກໃໝ່ບ້ານໃກ້ຫ້ອງການ, ຫ້ອງການບໍ່ມີບ່ອນຈອດລົດ, ປະຢັດນ້ຳມັນ ແລະ ປັດໄຈອື່ນໆອີກ.
ຄຳແນະນຳ:
- ຕົວປ່ຽນຕົ້ນ ມີແຕ່ໂຕດຽວແທ້ບໍ່? ອາດຈະມີຫຼາຍໂຕ ຫຼື ຕົວປ່ຽນອື່ນທີ່ເຮົາຄິດບໍ່ພໍ້ກໍມີ
- ຄິດຫາຕົວປ່ຽນທຸກຢ່າງທີ່ມີ ຖ້າເປັນໄປໄດ້
- ຕົວປ່ຽນເຫດ ແລະ ຜົນ ທຸກໂຕ ຄວນເບິ່ງຢູ່ໃນພື້ນຖານຕັກກະ ແລະ ຄວາມເປັນຈິງ ບໍ່ຄວນຖືເອົາຕົວເລກ (ຜົນວິເຄາະ) ມາຕັດສິນພຽງຢ່າງດຽວ
ແກ້ບັນຫາໂດຍການໃຊ້ວິທີ Randomize design (ສ້າງ control group)
ການເກັບຂໍ້ມູນໂດຍໃຊ້ວິທີ randomize design ໂດຍແບ່ງກຸ່ມຕົວຢ່າງອອກເປັນ 2 ຄື: ກຸ່ມທີ່ຖືກຄວບຄຸມ (control group) ແລະ ກຸ່ມທີ່ບໍ່ໄດ້ຄວບຄຸມ ຈະເຮັດໃຫ້ການວິເຄາະຂອງເຮົາໃນຮູບແບບການປຽບທຽບຜົນກະທົບ ແລະ ຄວາມສຳພັນ ຍິ່ງຊັດເຈນ ແລະ ໜ້າເຊື່ອຖືຍິ່ງຂຶ້ນ.
ຖ້າເວົ້າສຳນວນ control group ແລ້ວງົງບໍ່ຄຸ້ນຫູ ມັນກະອັນດຽວກັນກັບ ການເຮັດ A/B testing ນັ້ນລະ, ການເຮັດ A/B testing ກໍ່ແບ່ງເປັນສອງກຸ່ມ ກຸ່ມທີ່ເຮົາທົດລອງ ກັບ ກຸ່ມທີ່ເຮົາບໍ່ໄດ້ທົດລອງ.
ສົມມຸດ ເຮົາກຳລັງສຶກສາເລື່ອງ ການດື່ມກາເຟມີຜົນເຮັດໃຫ້ເຮົາບໍ່ຢາກນອກບໍ່? ໂດຍເບິ່ງຈາກອັດຕາການຢາກນອນຫຼັງດື່ມກາເຟເຂົ້າໄປແລ້ວ ໂດຍປຽບທຽບຕັ້ງແຕ່ເວລາ 8 ໂມງເຊົ້າ ຫາ 5 ໂມງແລງ.
ຈາກຮູບຂ້າງລຸ່ມ ເຮົາໃຊ້ວິທີ randomize design ພ້ອມກັບມີກຸ່ມທີ່ຄວບຄຸມ ເປັນກຸ່ມທີ່ເຮົາໃຫ້ດື່ມກາເຟ ແລະ ກຸ່ມບໍ່ໄດ້ຄວບຄຸມ ບໍ່ໄດ້ດື່ມກາເຟ.
ຖ້າເຮົາເບິ່ງເສັ້ນສະແດງແລ້ວ ເຫັນວ່າ ເຖິງວ່າດື່ມກາເຟແລ້ວເຮົາກະຍັງມີເປີເຊັນທີ່ຈະຢາກນອນຢູ່ ແຕ່ວ່າອັດຕາການເພີ່ມຂຶ້ນດັ່ງກ່າວກະຍັງບໍ່ສູງ ຖ້າເຮົາປຽບທຽບໃສ່ກຸ່ມທີ່ບໍ່ໄດ້ດື່ມກາເຟ.
ຈາກເສັ້ນສະແດງເຮົາສາມາດສະຫຼຸບໄດ້ເລີຍວ່າ ການດື່ມກາເຟສາມາດຊ່ວຍຫຼຸດອາການຢາກນອນຂອງເຮົາໄດ້ເຖິງ 20 ເປີເຊັນຈຸດ (percent point) (60-20) - (40-20)

ແລ້ວຖ້າເຮົາບໍ່ມີ ກຸ່ມທີ່ຄວບຄຸມປຽບທຽບເດຈະເປັນແນວໃດ?
ຈາກເສັ້ນສະແດງ ປຽບທຽບແບບກ່ອນ ແລະ ຫຼັງ ເຮົາສາມາດສະຫຼຸບໄດ້ວ່າ ການດື່ມກາເຟບໍ່ສົ່ງຜົນຫຍັງເຮັດໃຫ້ເຮົາຢາກນອນລົງເລີຍ ເຖິງວ່າເຮົາຈະດື່ມ ເຮົາກໍ່ຍັງຢາກນອນ ອີກທັງເຮົາຢາກນອນເພີ່ມອີກ 20 ເປີເຊັນຈຸດ.

ເມື່ອປຽບທຽບດ້ວຍວິທີ ດື່ມ ແລະ ບໍ່ດື່ມກາເຟເດ? ຈາກເສັ້ນສະແດງດ້ານລຸ່ມ ເຮົາສະຫຼຸບໄດ້ວ່າ ການດື່ມກາເຟສາມາດຫຼຸດຄວາມຢາກນອນຂອງເຮົາໄດ້ ເມື່ອປຽບທຽບກັບດື່ມ ແລະ ບໍ່ດື່ມແລ້ວ ຖ້າເຮົາດື່ມກາເຟຈະຫຼຸດອັດຕາການຢາກນອນລົງ 20 ເປີເຊັນຈຸດ.
ແຕ່ວິທີນີ້ແມ່ນເຮົາບໍ່ມີເສັ້ນວັດແທກວ່າ ການຫຼຸດລົງ ຫຼື ເພີ່ມຂຶ້ນ ສ່ຳໃດຈຶ່ງເອີ້ນວ່າ ສາມາດຮັບຮອງໄດ້ວ່າມັນມີຜົນແທ້. ວິທີນີ້ເຮົາຮູ້ພຽງແຕ່ວ່າມັນສົ່ງຜົນກະທົບໜ້ອຍ ຫຼື ຫຼາຍພຽງໃດຊື່ໆ.
ການສະຫຼຸບຂອງເຮົາກໍ່ຍັງບໍ່ແໜ້ນໜາພໍທີ່ຈະຢັ້ງຢືນຜົນດັ່ງກ່າວໄດ້.

ສະຫຼຸບ:
ການວິເຄາະຂໍ້ມູນຈາກຂໍ້ມູນທີ່ມີກຸ່ມທີ່ຄວບຄຸມ ແລະ ບໍ່ຄວບຄຸມຈະເຮັດໃຫ້ເຮົາສາມາດວິເຄາະໄດ້ຊັດເຈນກວ່າ ແລະ ເໝາະສົມສຳລັບການນຳໄປວິເຄາະການປຽບທຽບ ແລະ ຫາຄວາມສຳພັນ. ຈາກການປຽບທຽບໃຫ້ເຫັນໃນ ຮູບທີ 1-3 ເຫັນວ່າ ຮູບທີ 2 ແລະ 3 ບໍ່ໃຫ້ຜົນສະຫຼຸບທີ່ຊັດເຈນໄດ້ ເມື່ອທຽບກັບຮູບທີ 1.
ຂໍ້ແນະນໍາ:
ການວິເຄາະຄວາມສຳພັນກັນ (correlation) ຫຼື ຜົນກະທົບ ບໍ່ເໝາະສົມກັບຂໍ້ມູນທີ່ໄດ້ຈາກ ການສຳຫຼວດໃຫຍ່ (population-based survey data) ຫຼື ຂໍ້ມູນທີ່ລາຍງານເປັນປົກກະຕິ (routine data) ເພາະວ່າ ການສຳຫຼວດດັ່ງກ່າວແມ່ນບໍ່ມີການຄວບຄຸມສຳລັບປັດໄຈຕ່າງໆ