Machine Learning Crash Course: ML Terminology

Machine Learning Crash Course: ML Terminology

​ບົດ​ຄວາມນີ້ຈະ​ເປັນ​ບົດ​ຄວາມ​ທຳ​ອິດ​ໃນ series ຂອງ Machine Learning Crash Course ​ເຊິ່ງ​ທ່ານ​ຈະ​ໄດ້​ຮູ້​ຈັກ​ກັບ​ຄຳ​ວ່າ Machine Learning ແມ່ນ​ຫຍັງ ແລະ ຄຳ​ສັບ​ຕ່າງໆ​ທີ່​ກະ​ເຈົ້າ​ໃຊ້​ກັນ​ໃນ​ວົງ​ການນີ້.

Label

Labels ໝາຍ​ເຖິງ​ຜົນ​ໄດ້​ຮັບ ຫຼື ​ສິ່ງ​ທີ່​ເຮົາ​ຈະພະ​ຍາ​ກອນ​ ເຊິ່ງ​ມັນ​ກະ​ຄືໂຕປ່ຽນ y (output) ນັ້ນ​ເອງ ຖ້າ​ເຮົາ​ທຽບ​ກັບ​ສົມ​ຜົນ​ຖົດ​ຖອຍ​ເສັ້ນ​ຊື່ (Linear Regression). Labels ອາດ​ຈະ​ເປັນ ລາ​ຄາ​ຂອງ​ເຂົ້າ​ໃນ​ອະ​ນາ​ຄົດ, ຊື່​ສັດ​ຕ່າງໆ​ທີ່​ຢູ່​ໃນ​ຮູບ, ຄວາມ​ໝາຍ​ຂອງ​ສຽງ​ຕ່າງ ແລະ ອື່ນໆ.

Features

Features ແມ່ນ​ຕົວ​ປ່ຽນ x (input) ຕົວ​ປ່ຽນ​ທີ່​ເຮົາ​ຈະ​ເອົາ​ມາ​ຄິດ​ໄລ່​ໃນ​ສົມ​ຜົນ. ບາງວຽກ​ໃນ​ສາຍ Machine Learning ງ່າຍໆ​ອາດ​ຈະ​ໄດ້​ໃຊ້​ແຕ່ feature ອັນ​ດຽວ, ແຕ່​ບາງວຽກ​ທີ່​ຊັບ​ຊ້ອນ​ອາດ​ຈະ​ໄດ້​ໃຊ້ feature ຫຼາຍໆ​​ໂຕ​ເປັນ n ໂຕ.

{

x
1

,

x
2

,
.
.
.

x
N

}

ຕົວ​ຢ່າງ​ການ​ສ້າງແບບ​ຈຳ​ລອງ​ກ່ຽວ​ກັບ​ການ​ກັ່ນ​ຕອງ spam ຈະ​ຕ້ອງ​ມີ feature ຄື:

  • ຄຳ​ຕ່າງໆ​ທີ່​ໃຊ້ໃນເນື້ອ​ຫາ​ອີ​ເມວທີ່​ສົ່ງ​ມາ
  • ທີ່​ຢູ່​​ອີ​ເມວຂອງ​ຜູ່​ທີ່​ສົ່ງ​ມາ​ຫາ​ເຮົາ
  • ເວ​ລາ​ໃດ​ທີ່​ອີ​ເມວ​ໄດ້​ສົ່ງ​ມາ
  • ອີ​ເມວ​ທີ່​ມີ​ຄຳ​ແປກໆ ແບບ​ເຂົ້າ​ຂ່າຍ​ຕົ້ມ​ຕຸນ​ປົນ​ມາ​ (one weird trick)


ຂໍ້​ມູນ
ຂໍ້​ມູນ ຫຼື ແປ​ຕາມ​ໂຕ​ກະ​ຕົວ​ຢ່າງ (example) ປຽບ​ເໝືອນ​ກັບ​ສິ່ງ​ທີ່​ເຮົາ​ເອົາ​ມາ​ແທນ​ຄ່າໃຫ້ກັບ​ຕົ​ວ​ປ່ຽນ x. ເຮົາ​ສາ​ມາດ​ແບ່ງ​ຂໍ້​ມູນ​ອອກ​ເປັນ 2 ປະ​ເພດ​ຄື:

  • labeled examples (ກະ​ຄື​ຂໍ້​ມູນທີ່​ເຮົາ​ໄດ້​ລະ​ບຸ​ໄວ້​ແລ້ວ)
  • unlabeled examples (ແມ່ນ​ຂໍ້​ມູນ​ທີ່​ເຮົາ​ຍັງ​ບໍ່​ໄດ້​ລະ​ບຸ​ໄວ້ ຫຼື ຍັງ​ບໍ່​ທັນ​ໄດ້​ຈັດ​ປະ​ເພດ​ວ່າ​ມັນ​ເປັນ​ຫຍັງ​ກັນ​ແທ້)

ໃນ labeled examples ໃນ​ລວມ​ມີ feature(s) ແລະ label ນຳ, ເຊິ່ງ​ຈະ​ເປັນ​ປະ​ມານນີ້.

labeled examples: {features, label}: (x, y)

ເຮົາ​ໃຊ້ labeled examples ເພື່ອ​ສອນ (train) ແບບ​ຈ​ຳ​ລອງ ຫຼື model ຂອງ​ເຮົາ. ສຳ​ລັບ Spam detector ນີ້, ພ​ວກ​ເຮົາຈະ​ມີ labeled example ທີ່​ໄດ້​ຈາກ​ການ​ທີ່​ຜູ່​ໃຊ້​ຂອງ​ເຮົາ​ໄດ້​ລະ​ບຸ​ໄວ້​ໃຫ້​ແລ້ວ​ຄື “spam” ຫຼື ບໍ່ “spam”.
ຕົວ​ຢ່າງ, ມີຕ່າງ​ຈະ​ລາງ labeled examples ຢູ່ 5ອັນ ຈາກ data set ຂອງ​ເຮົາ​ເຊິ່ງວ່າ​ຂໍ້​ມູນ​ທີ່​ຢູ່​ໃນ​ນັ້ນ​ກໍ​ຈະ​ມີ ຂໍ້​ມູນ​ກ່ຽວ​ກັບ​ລາ​ຄາ​ຂອງ​ລ້ານ​ທີ່​ຢູ່​ໃນ​ເຂດ California:

hosingMedianAge totalRooms(feature) totalBedrooms(feature) medianHouseValue
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

ສ່ວນ​ສຳ​ລັບ​ຂອງ unlabeled examples ນັ້ນ​ຈະ​ເປັນ​ຂໍ້​ມູນ​ທີ່​ບໍ່​ມີ label. ໜ້າ​ຕາ​ຂຽນ​ຂອງ​ມັນ​ຈະ​ເປັນ​ປະ​ມານນີ້:

unlabeled examples: {feature, ?}: (x, ?)

ຕົວ​ຢ່​າງ ດ້ານ​ລຸ່ມ​ຈະ​ເປັນ​ຂໍ້​ມູນ 3ຕົວ​ ທີ່​ເປັນ unlabeled examples ຈາກ data set housing ໂດຍ​ຂໍ້​ມູນ​ດັ່ງ​ກ່າວນີ້​ຈະ​ບໍ່​ລວມ medianHouseValue ທີ່​ເປັນ (label):

housingMeidanAge(feature) totalRoooms(feature) totalBedrooms(feature)
42 1686 361
34 1226 180
33 1077 271

ຫຼັງ​ຈາກ​ທີ່​ເຮົາ train model ຂອງ​ເຮົາ​ແລ້ວ​ດ້ວຍ​ຂໍ້​ມູນ​ທີ່​ເປັນ labeled (labeled examples), ເຮົາ​ກໍ​ຈະ​ໃຊ້ model ນັ້ນ​ເປັນ​ຄຳ​ນວນ ຫຼື ໄປ​ພ​ະ​ຍາ​ກອນ​ຫາ label ຈາກ unlabeled examples. ຕົວ​ຢ່າງ​ຂອງ​ໂຕນີ້​ກະ​ຄື spam detector, unlabeled examples ກະ​ຄື​ອີ​ເມວ​ໃໝ່ໆ​ທີ່​ມະ​ນຸດ ຫຼື ຜູ່​ໃຊ​້​ເຮົາ​ຍັງ​ບໍ່​ໄດ້​ລະ​ບຸ​ໄວ້​ນັ້ນ​ເອງ (labeled).

Models (ແບບ​ຈຳ​ລອງ)
ແບບຈຳ​ລອງ ຫຼື model ແມ່ນ​ໝາຍ​ເຖິງ ຄວາມ​ສຳ​ພັນ​ລະ​ຫວ່າງ features ກັບ label. ຕົວ​ຢ່າງ: ໃນ spam detection model ຈະໄປ​ກ່ຽວ​ພັນ​ກັບ feature ໃດ​ໜຶ່ງ​ທີ່​ບົ່ງ​ບອກ​ໃຫ້​ຮູ້​ວ່າ​ໂຕນັ້ນ​ຕ້ອງ​ແມ່ນ “spam” ແນ່ນອນ. ເຮົາ​ມາ​ເບິ່ງ​ກັນ​ວ່າ 2ຄຳ​ສັບ​ທີ່​ກະ​ເຈົ້າ​ນິ​ຍົມ​ໃຊ້​ກັນ​ໃນ model ນິ​ມີ​ຫຍັງ​ແນ່:

  • Training ໝາຍ​ເຖິງ ການ​ສ້າງ ຫຼື ການ​ຮຽນ​ຮູ້ learning ຂອງ​ແບບ​ຈຳ​ລອງ (model). ໃຫ້​ເຮົາ​ເຂົ້າ​ໃຈ​ງ່າຍໆ​ກະ​ຄື ການ training ກໍ່​ແມ່ນ​ການ​ທີ່​ເຮົາ​ເອົາ labeled examples ມາ​ສະ​ແດງ ແລະ ໃຫ້ model ຂອງ​ເຮົາ​ຮຽນ​ຮູູ້​ຄວາມ​ສ​ຳ​ພັນ​ລະ​ຫວ່າງ features ກັບ label.
  • Inference ໝາຍ​ເຖິງ ການ​ເອົາ model ທີ່​ເຮົາ​ໄດ້ trained ໄວ້​ແລ້ວ​ມາ​ໃຊ້​ກັບ unlabeled examples. ເອົາ​ອີກ​ຄວາມ​ໝາຍ​ງ່າຍໆກະ​ຄື ໃຊ້ model ທີ່​ຖືກ trained ໄວ້​ແລ້ວນັ້ນ​ມາ​ໃຊ້​ໃຫ້​ພະ​ຍາ​ກອນ​ໄດ້​ດີ​ຂຶ້ນ (useful predictions (y’)). ຕົວ​ຢ່າງ: ໃນ​ຂະ​ນະ​ທີ່ inference, ເຮົາ​ສາ​ມາດພະ​ຍາ​ກອນ medianHouseValue ຈາກ unlabeled examples ໃໝ່.

Regression vs. classification
Regression ຖ້າ​ແປ​ເປັນ​ສຳ​ລັບ​ເລກ​ລາວລະ​ແມ່ນ ສົມ​ຜົນ​ຖົ​ດ​ຖອຍ ເຊິ່ງວ່າ ສົມ​ຜົນ​ຖົດ​ຖອຍ​ຈະ​ມີ​ອີກຫຼາຍໆ​ປະ​ເພດ​ຍ່ອຍ​ໄປ​ອີກ​ເຊັ່ນ: ສົມ​ຜົນ​ຖົດ​ຖອຍ​ເສັ້ນ​ຊື່ (Linear Regression), ສົມ​ຜົນ​ຖົດ​ຖອຍຫຼາຍ​ຕົວ​ປ່ຽນ (Multiple Linear Regression), ສົມ​ຜົນ​ຖົດ​ຖອຍໂລ​ກາ​ລິກ (Logistic Regression) ທີ່​ກະ​ເຈົ້າ​ນິ​ຍົມ​ໃຊ້​ກັນໃນ ML. ສົມ​ຜົນ​ຖົ​ດ​ຖົດ​ຖອຍ ຈະ​ຖືກ​ໃຊ້​ເມື່ອ​ເຮົາ​ຕ້ອງ​ການ​ຢາກ​ຮູ້​ຄວາມ​ສ​ຳ​ພັນ​ຂອງ​ຕົວ​ປ່ຽນ (ຂໍ້​ມູນ) ເຊິ່ງ​ຂໍ້​ມູ​ນ​ທີ່​ເຮົາ​ເອົາ​ນຳ​ມາ​ຄິດ​ໄລ່ ນຳ​ມາ​ພະ​ຍາ​ກອນນັ້ນ​ແມ່ນ​ຈະ​ເປັນ​ຂໍ້​ມູນ​ແບບ​ຕໍ່​ເນື່ອງ (continuous values). ຕົວ​ຢ່​າງ: ແບ​ບ​ຈຳ​ລອງ​ສົມ​ຜົນ​ຖົດ​ຖອຍ​ທີ່​ນຳ​ມາ​ພະ​ຍາ​ກອນທີ່​ສາມ​າ​ດ​ຕອບ​ຄຳ​ຖາມ​ຂອງ​ບັນ​ຫາ​ເຮົາ​ໄດ້​ເຊັ່ນ:

  • ມູນ​ຄ່າ​ຂອງ​ເຮືອນ​ໃນ California ເທົ່າ​ໃດ?
  • ຄ່າ​ກະ​ຕວງ​ຂອງ​ຜູ່​ໃຊ້​ງານ​ທີ່​ກົດ​ເຂົ້າ​ໂຄ​ສະ​ນານີ້​ແມ່ນ​ເທົ່າ​ໃດ?

classification ໝາຍ​ເຖິງ ແບບ​ຈຳ​ລອງ​ຄື​ກັນ (model) ເຊິ່ງ​ຈະ​ແຕກ​ຕ່າງ​ຈາກສົມ​ຜົນ​ຖົດ​ຖອຍ (regression) ​ຢູ່​ບ່ອນ​ວ່າຂໍ້​ມູນ​ທີ່​ເຮົາ​ເອົາ​ມາ​ຄິດ​ໄລ່​ນັ້ນ​ຈະ​ເປັນ ຂໍ້​ມູນບໍ່​ຕໍ່​ເນື່ອງ (discrete values). ຕົວ​ຢ່​າງ: ແບ​ບ​ຈຳ​ລອງ​ classification ທີ່​ນຳ​ມາ​ພະ​ຍາ​ກອນທີ່​ສາມ​າ​ດ​ຕອບ​ຄຳ​ຖາມ​ຂອງ​ບັນ​ຫາ​ເຮົາ​ໄດ້​ເຊັ່ນ:

  • ອີ​ເມວ​ທີ່​ໃຫ້​ມາ​ແມ່ນ spam ຫຼື ບໍ່​ແມ່ນ spam?
  • ໃນ​ຮູບ​ແມ່ນ ໝາ, ແມວ, ຫຼື ໂຕ​ໜູ?

Continue data vs. Discrete data
ຂໍ້​ມູນ​ຕໍ່​ເນື່ອງ ແລະ ບໍ່​ຕໍ່​ເນື່ອງ ມັນ​ຕ່າງ​ກັນ​ບ່ອນ​ໃດ?

  • ຂໍ້​ມູນ​ຕໍ່​ເນື່ອງ​ ຈະ​ເປັນ​ຂໍ​້​ມູນ​ໃດ​ກະ​ໄດ້ ທີ່​ສາ​ມາ​ດ​ຫາ​ຄ່າ​ໄດ້​ໝົດ​ໃນ​ຂອບ​ເຂດ​ຂອງ​ມັນ ສາ​ມາດ​ເປັນເລກ​ຈຳ​ນວນ​ເສດ (ເລກ​ຈຸດ) ແລະ ມັນ​ສາ​ມາດ​ມັນ​ເລກ​ທີ່​ສາ​ມາດ​ຈັດ​ປະ​ເພດໄດ້​ຄື​ກັນ​ເຊັ່ນ: ຍິງ,ຊາຍ, ຖືກ, ຜິດ ແລະ ອື່ນໆ. ເຊິ່ງວ່າ​ສົມ​ຜົນ​ທີ່​ໃຊ້​ຂໍ້​ມູນ​ປະ​ເພດ​ກໍ​ຈະ​ເປັນ​ພວກລີ​ເນ​ແອ​ເປັນ​ຕົ້ນ ເຊັ່ນ: ການ​ຫາ​ຄວາມ​ສຳ​ພັນ​ຂອງ​ອາ​ຍຸ​ກັບ​ລວງ​ສູງ ຫຼື ຜົນ​ກະ​ທົບ​ອື່ນໆ​ຈາກ​ຕົວ​ປ່ຽນ​ຕົ້​ມ(independent variable) ກັບ​ຕົວ​ປ່ຽນ​ຕາມ (dependent variable).
  • ຂໍ້​ມູນບໍ່​ຕໍ່​ເນື່ອງ ເປັນ​ຂໍ້​ມູນ​ທີ່​ສະ​ເພາະ​ເຈາະ​ຈົງ ແລະ ບໍ່​ສາ​ມາດ​ແບ່ງ ຫຼື ເປັນ​ເລກ​ຈຸດ​ໄດ້​ເຊັ່ນ: ຈຳ​ນວນ​ຄົນ ມີ 27ຄົນ, ເຮົາ​ກໍ​ບໍ່​ສາ​ມາດ​ແບ່ງ​ໄດ້​ວ່າ ຈຳ​ນວນ​ຄົນ​ມີ 26.5ຄົນ. ສົມ​ຜົນ​ທີ່​ໃຊ້​ຂໍ້​ມູນ​ປະ​ເພດນີ້​ກໍ​ຈະ​ເປັນສົມ​ຜົນ​ໂລ​ກາ​ລິກ (ຖືກ ຫຼື ຜິດ/ 0 ກັບ 1) ຖ້າ​ຄອມ​ເຂົາ​ຈະ​ເອີ້ນ​ເປັນ​ສົມ​ຜົນ binary. ເຊັ່ນ: ຫາ​ຄວາມ​ເປັນ​ໄປ​ໄດ້ຂອງ​ຮູບ​ວ່າ​ຈະ​ເປັນ​ຮູບ​ແມວ ຫຼືບໍ່?; ຫາ​ຜົນ​ກະ​ທົບ​ວ່າອ​ຸ​ບັດ​ຕິ​ເຫດ​ເກີດ​ຈາກ​ການ​ດື່​ມ​ແລ້ວ​ຂັບ​ແທ້ບໍ່?

Machine Learning Crash Course: ML Terminology