ML Crash Course: Descending into ML: Training and Loss

ML Crash Course: Descending into ML: Training and Loss


Training ແບບ​ຈຳ​ລອງກະ​ຄື​ກັບ ການ​ສອນ​ໃຜ​ຄົນ​ໜຶ່ງ​ໃຫ້​ຮູ້​ໄດ້​ເອງວ່າ​ສິ່ງນັ້ນ​ແມ່ນ​ຫຍັງ​ຈາກ​ການ​ທີ່​ເຮົາ​ໃຫ້​ຂໍ້​ມູນ​ໃຫ້​ກະ​ເຂົາ​ພ້ອມ​ກັບ​ຕົວ​ຢ່າງ​ນຳ​ວ່າ​ອັນ​ນີ້​ແມ່ນ​ອັນ​ນີ້​ເດີ້ ອັນ​ນີ້​ແມ່ນ​ອັນ​ນັ້ນ​ເດີ້ (determining) ​ຂໍ້​ມູນ​ທີ່​ເຮົາ​ເອົາ​ມາ​ສອນນັ້ນ​ແມ່ນໄດ້​ຈາກ ສຳ​ປ​ະ​ສິດຄວາມ​ຊັນ​ຂອງ​ເສັ້ນ​ສະ​ແດງ(weight) ແລະ bias ຈາກຂໍ້​ມູນ (labeled example). ສຳ​ລັບ​ supervised learning, ຫຼັກການ algorithm ຂອງ machine learning ກະ​ຄື​ເຮົາ​ຈະ​ຕ້ອງຈະ​ສ້າງ​ແບບ​ຈຳ​ລອງ​ໂດຍ​ການກວດ​ສອບ​ຂໍ້​ມູນ​ຫຼາຍໆ​ໂຕ ແລະ ຫາ​ແບບ​ຈຳ​ລອງ​ທີ່​ມີ​ຄ່າ loss ໜ້ອຍ​ທີ່​ສຸດ. ຂັ້ນ​ຕອນນີ້​ເຂົາ​ເຈົ້າ​ຈະ​ເອີ້ນ​ວ່າ empirical risk minimization.

Loss ແມ່ນ​ຄວາມ​ຜິດ​ພາດ​ທີ່​ເກີດ​ຂຶ້ນ​ຈາກ​ການ​ຄຳ​ນວນ (ພະ​ຍາ​ກອນ) ບໍ່​​ຖືກ. Loss ຄ່າ​ໜຶ່ງ​ທີ່​ຊີ້ບອກ​ວ່າ ແບບ​ຈຳ​ລອງ​ຂອງ​ເຮົາ​ນັ້ນ​ຄຳ​ນວນບໍ່​ຖືກຫຼາຍ​ສ່ຳ​ໃດ​ຈາກ​ການ​ຄຳ​ນວນ​ຂໍ້​ມູນ​ໜ​ຶ່ງ​ໂຕ. ຖ້າ​ແບບ​ຈຳ​ລອງ​ຂອງ​ເຮົາ​ຄຳ​ນວນ​ຖືກ​ຕ້ອງ ຄ່າ loss ກໍ​ຈະ​ເທົ່າ​ກັບ 0, ກົງ​ກັນ​ຂ້າມ ຖ້າ​ແບບ​ຈຳ​ລອງ​ຄຳ​ນວນບໍ່​ຖືກ​ຄ່າ loss ກໍ​ຈະ​ສູງ. ເປົ້າ​ໝາຍ​ຂອງ​ການ train ແບບ​ຈຳ​ລອງ​ກະ​ຄື​ການ​ຫາ​ຄ່າ weight ແລະ bias ທີ່​ມີ​ຄ່າ loss ໜ້ອຍ​ທີ່​ສຸດ. ຕົວ​ຢ່າງ: ໃນ​ຮູບ​ດ້ານ​ລຸ່ມຈະ​ສະ​ແດງ​ໃຫ້​ເຫັນ ແບບ​ຈຳ​ລອງ​ທີ່​ມີ loss ສູງ (ຊ້າຍ​ມື) ແລະ ແບບ​ຈຳ​ລອງ​ທີ່​ມີຄ່າ loss ຕ່ຳ (ຂວາ​ມື).

  • ລູກ​ສອນ​ສີ​ແດງ​ໝາຍ​ເຖິງ loss
  • ເສັ້ນ​ສະ​ແດງ​ສີ​ຟ້າ​ໝາຍ​ເຖິງ ການ​ຄຳ​ນວນ (ການ​ພະ​ຍາ​ກອນ)

Figure 3. High loss in the left model; low loss in the right model.

Figure 3. High loss in the left model; low loss in the right model.

ຖ້າ​ເຮົາ​ປຽບ​ທຽບ​ສອງ​ຮູບນີ້​ແລ້ວ ເຮົາ​ຈະ​ສັງ​ເກດ​ເຫັນ​ວ່າ ລູກ​ສອນ​ສີ​ແດງ​ໃນ​ຮູບ​ດ້ານ​ຊ້າຍມື​ຈ​ະ​ມີ​ຂະ​ໜາດ​ທີ່​ຍາວ​ກ່​ວາ​ຮູບ​ຂວາ​ມື ແລະ ເສັ້ນ​ສະ​ແດງ​ຂີດ​ຜ່ານ​ຮູບ​ດ້ານ​ຂວາມື​ກະ​ຖືກ​ຕ້ອງ​ກ່​ວາ.

Squared loss: ສົມ​ຜົນ loss (function) ທີ່​ນິ​ຍົມ​ໃຊ້​ກັນ.
ໃນ​ສົມ​ຖົ​ດ​ຖອຍ​ເສັ້ນ​ຊື່ (linear regression) ທີ່​ເຮົາ​ກຳ​ລັງ​ສຶກ​ສາ​ຢູ່ນີ້​ຈະ​ໃຊ້ ສົມ​ຜົນ loss ທີ່​ມີ​ຊື່​ວ່າ: squared loss ຫຼື L2 loss. ການ​ຄຳ​ນວນ​ຫາ​ຄ່າ loss ຂອງ​ຂໍ້​ມູນ​ໜຶ່ງ​ໂຕ ສາ​ມາ​ດ​ເຮັດ​ໄດ້​ດັ່ງ​ນີ້:

= the square of the difference between the label and the prediction
= (observation - prediction(x))2
= (y - y')2


= ກຳ​ລັງ​ສອງ​ຂອງ​ຄ່າ​ແຕກ​ຕ່າງ​ກັນ​ລະ​ຫວ່າງ label ກັ​ບ prediction
= (ຄ່າ​​ຈິງ - ​ຄ່າ​ທີ່​ຄຳ​ນວ​ນ​ໄດ້(x))2
= (y - y')2

ສຳ​ລັບ ໃຜ​ທີ່​ຮ​ຽນ​ສະ​ຖິ​ຕິ loss ກະ​ຄື​ກັບ residual ຂອງ​ສົມ​ຜົນ. ເຊິ່ງວ່າ e(error) = y – y’.

Mean square error (MSE) ແມ່ນ​ ຄ່າ​ສະ​ເລ່ຍ​ຂອງ loss ຕໍ່​ໜຶ່ງ​ຂໍ້​ມູນ. ໃນ​ການ​ຄິດ​ໄລ່ MSE ນັ້ນ​ເຮົາ​ຈະ​ຕ້ອງ​ເອົາ​ຜົນ​ບວກ​ຂອງ square loss ທັງ​ໝົດ ມາ​ຫານ​ໃຫ້ ຈຳ​ນວນ​ຂອງ​ຂໍ້​ມູນ.



M
S
E
=

1
N




(
x
,
y
)

D


(
y

p
r
e
d
i
c
t
i
o
n
(
x
)

)
2


MSE = \frac{1}{N} \sum_{(x,y)\in D} (y – prediction(x))^2

ຄ​ຳ​ອະ​ທິ​ບາຍ:



  • (
    x
    ,
    y
    )

    (x, y)

    ແມ່ນ​ຂໍ້​ມູນ​ທີ່​ເຮົາ​ນຳ​ເຂົ້າ​ມາ​ໄລ່​ໃນ​ສົມ​ຜົນ


  • x
    x

    ແມ່ນ ຕົວ​ປ່ຽນຕົ້ນ ທີ່​ເຮົາ​ເອົາ​ມາ​ຄຳ​ນວນ (ສຽງ​ຮ້ອງຕໍ່​ນາ​ທີ, ອາຍ​ຸ, ເພດ)


  • y
    y

    ແມ່ນຄ່າ​ທີ່​ເຮົາ​ຈິງ​ທີ່​ເຮົາ​ມີ​ຢູ່​ແລ້ວ (example’s label) (ໃນ​ຕົວ​ຢ່າງ​ແມ່ນ ອ​ຸນ​ຫະ​ພູມ)

  • p
    r
    e
    d
    i
    c
    t
    i
    o
    n
    (
    x
    )

    ແມ່ນຄ່າ​ທີ່​ໄດ້​ຈາກ​ການ​ການ​ຄຳ​ນວນ (ລວມ weight ແລະ bias ແລ້ວ) ທີ່​ໄດ້​ຈາກ feature

    x
  • D

    ແມ່ນ​ຂໍ້​ມູນທີ່​ເອົາ​ມາ​ໄລ່.

  • N

    ແມ່ນ​ຈຳ​ນວນ​ຂອງ​ຂໍ້​ມູນ​ໃນ

    D

ເຖິງວ່າ MSE ຈະ​ນິ​ຍົມ​ໃຊ້​ກັນ​ໃນ​ການ​ຫາ​ຄ່າ loss ໃນ​ແບບ​ຈຳ​ລອງ​ເຮົາ, ແຕ່​ມັນ​ຈະ​ບໍ່​ສະ​ເໝີ​ໄປ ຍັງ​ມີ​ບາງ​ສູດ​ຄິດ​ໄລ່​ທີ່​ຫາ​ຄ່າ loss ໄດ້​ດີ​ກ່​ວານີ້ ເຊິ່ງ​ຂຶ້ນ​ກັບ​ແຕ່​ລະ​ສະ​ຖາ​ນະ​ການ.