ML Crash Course: Descending into ML: Linear Regression
ໃນບົດຄວາມນີ້ເຮົາຈະເລີ່ມລົງເລິກໃນເລື່ອງຂອງ Machine Learning ກັນ! ໂດຍເລີ່ມຈາກການໄດ້ຮູ້ຈັກໝູ່ຄົນທຳອິດຂອງທ່ານໃນສາຍນີ້ກະຄື ທ້າວ ລີເນແອ ຫຼື Linear Regression (ຂໍເວົ້າເປັນພາສາທີ່ເຮົາຄຸ້ຍເຄີຍກັນໃນຫ້ອງຮຽນເນາະ, ບາງຄົນນິເບິ່ງທຳອິດອາດງົງວ່າມັນແມ່ນຫຍັງ ລີເນຍ, ພໍໄດ້ຟັງ ລີເນແອ ນິກະເຖິງກັບເວົ້າວ່າ ອໍ້! ເລີຍກັບບາດ).
ແລ້ວສົມຜົນຖົດຖອຍເສັ້ນຊື່ລີເນແອນິມັນຈະມີຮູບລັກສະນະແບບໃດ? ທຳອິດ ເມື່ອເຮົາໄດ້ຂໍ້ມູນເຮົາຈະຕ້ອງມາ plot (ມາແຕ້ມເສັ້ນສະແດງ) ວ່າຂໍ້ມູນເຮົາຢູ່ໃນຮູບແບບໃດ ມັນຈັບກຸ່ມກັນເປັນແບບໃດ.
ຕົວຢ່າງ:
ດັ່ງທີ່ເຮົາຮູ້ກັນແລ້ວວ່າ ໂຕແມງຈີ່ລໍ່(ຕິ ອັນທີ່ມັນຮ້ອງ ຕອນໃບໄມ້ປົ່ງຫັ້ນນ່າ, ຮ້ອງລະຢາກນອນໂລດຕອນຮຽນໜັງສື) ຈະຮ້ອງດຸເປັນພິເສດໃນມື້ທີ່ອາກາດຮ້ອນ (ຫາກໍ່ຮູ້ໄດ໋ນິ) ຫຼາຍກ່ວາມື້ທີ່ອາກາດເຢັນ. ເກືອບວ່າເປັນ 10 ປີ ທີ່ນັກວິທະຍາສາດໄດ້ຈັດລຽງຂໍ້ມູນ (cataloged data) ອອກເປັນສອງອັນຄື: ໄລຍະເວລາທີ່ແມງຈີລໍ່ມັນຮ້ອງ (ໄລ່ເປັນນາທີ) ກັບ ອຸນຫະພູມ. ແລ້ວຂໍ້ມູນທີ່ເຮົາມີ ສາມາດ plot ໄດ້ດັ່ງຮູບຂ້າງລຸ່ມ:
ໃນຮູບເຮົາຈະສັງເກດເຫັນວ່າ ການແຈກຢາຍຂໍ້ມູນຂອງເຮົາມີການເກາະກຸ່ມກຸ່ມກັນເປັນເສັ້ນຊື່ ເຫັນວ່າສອງຕົວປ່ຽນທີ່ເຮົານຳມາວິເຄາະນັ້ນມີຄວາມສຳພັນກັນເປັນເສັ້ນຊື່ ຖ້າເຮົາຂີດເສັ້ນເບິ່ງຕາມຮູບຂ້າງລຸ່ມ.
ຈາກຮູບດ້ານເທິງເມື່ອເຮົາຂີດເສັ້ນຕັດຜ່ານຂໍ້ມູນແລ້ວ ເຮົາສັງເກດເຫັນບໍ່ວ່າບາງເສັ້ນມັນກະຍັງບໍ່ຕັດຜ່ານຈຸດທີ່ຂໍ້ມູນເຮົາຢູ່, ບໍ່ຕ້ອງກັງວົນໄປເນາະໃນຂໍ້ມູນໂຕຈິງມັນກະເປັນແບບຄ້າຍໆແບບນີ້ລະ ບໍ່ມີຫຍັງ perfect ຕາມທີ່ບົດຮຽນໄດ້ສອນເຮົາ. ອັນຈຸດທີ່ມັນຫ່າງຫັ້ນນ່າ ໃນສະຖິຕິເຮົາຈະຕ້ອງມາຫາວ່າມັນຫ່າງສ່ຳໃດ ຜົນທີ່ໄດ້ມາກະຄືຄ່າຜິດພາດເກີດຈາກການຄຳນວນ (residual) ຂອງສົມຜົນເຮົາ.
ຄຳອະທິບາຍ:
-
ແມ່ນ ອຸນຫະພູມ ຫົວໜ່ວຍເປັນ ອົງສາເຊ (Celsius) – ຄ່າທີ່ເຮົາຈະຄຳນວນຫາ (ພະຍາກອນ)
-
ສຳປະສິດຄວາມຊັນ(ມູມ)ຂອງເສັ້ນສະແດງ (slope)
-
ແມ່ນຕົວປ່ຽນທີ່ເຮົາເອົາມາຄິດໄລ່ ໃນບ່ອນນີ້ ຕົວປ່ຽນຂອງເຮົາແມ່ນ ໄລຍະເວລາຂອງສຽງຮ້ອງແມງຈີ່ລໍ່ຕໍ່ນາທີ – ຄ່າຂອງ feature ທີ່ເຮົາຈະເອົາມາໄລ່.
-
ແມ່ນ ຄ່າຜິດພາດທີ່ເກີດຈາກການຄຳນວນ (bias/error) (y-intercept)
ຫຼັງຈາກທີ່ເຮົາໄດ້ສົມຜົນໃນຮູບແບບເລກທົ່ວໄປແລ້ວ ເຮົາຈະເອົາສົມຜົນຂ້າງເທິງນີ້ມາປ່ຽນໃນຮູບແບບສົມຜົນຂອງ Machine Learning ກັນ:
ຄຳອະທິບາຍ:
-
ແມ່ນຄ່າຂອງ label ທີ່ເຮົາໄດ້ຄຳນວນ (ພະຍາກອນ) ແລ້ວໆ (a desired output)
-
ແມ່ນຄ່າຜິດພາດ (bias (y-intercept)), ບາງເທື່ອອາດຈະໃຊ້ສັນຍາລັກ
-
ແມ່ນ weight ຂອງ feature 1. weight ຄວາມໝາຍໃນບ່ອນນີ້ກະແມ່ນຄ່າສຳປະສິດຄວາມຊັນຂອງເສັ້ນສະແດງ (slope) ນັ້ນລະ.
-
ແມ່ນ feature (ຕົວປ່ຽນ) (a know input)
ຖ້າເຮົາຢາກ infer (predict) ອຸນຫະພູມຂອງ
ຂອງຄ່າຂອງ
ໃໝ່ (ໄລຍະເວລາທີ່ຈີ່ລໍ່ຮ້ອງຕໍ່ນາທີ) ກະມີແຕ່ເອົາຄ່າຂອງ
ເຂົ້າໃນສົມຜົນເລີຍ.
ເຮົາຢ່າລືມວ່າ ສົມຜົນຂ້າງເທິງນີ້ແມ່ນໃຊ້ໄດ້ສຳລັບແບບຈຳລອງທີ່ມີ feature ພຽງໂຕດຽວເທົ່ານັ້ນ, ຖ້າເຮົາມີ feature ຫຼາຍກ່ວາ 2 ໂຕຂຶ້ນໄປກໍຈະໄປໃຊ້ແບບຈຳລອງ Multiple Linear Regression ບໍ່ພຽງເທົ່ານັ້ນໃນແຕ່ລະ feature ກໍຈະມີ weight ຂອງໃຜລາວນຳອີກ. ຕົວຢ່າງ: ແບບຈຳລອງທີ່ມີ 3 feature:
ຂອບໃຈຂໍ້ມູນຈາກ ML Crash Course