ຈັດການຂໍ້​ມູນ​​ເພື່ອການ​ວິ​ເຄາະ​​​ເຮັດ​ແນວ​ໃດ?

ຈັດການຂໍ້​ມູນ​​ເພື່ອການ​ວິ​ເຄາະ​​​ເຮັດ​ແນວ​ໃດ?

ການ​ເກັບ​ກຳ​ຂໍ້​ມູນ​ໃຫ້​ເປັນ​ລະ​ບຽບ ຊ່ວຍ​ໃຫ້ເຮົາ​ປະ​ຢັດ​ເວ​ລາ ແລະ ສະ​ດວກ​ສະ​ບາຍ​ໃນ​ການດຶງ​ຂໍ້​ມູນ​ໄປ​ວິ​ເຄາະ.

ໂດຍ​ທົ່ວ​ໄປ​ແລ້ວ​ຂໍ້​ມູນ​ທີ່​ເຮົາ​ນຳ​ມາ​ວິ​ເຄາະ ​ມັນ​ອາດ​ຈະ​ມາ​ນຳ​ຮູບ​ແບບ​ໃດ​ກໍ​ໄດ້ ອາດ​ຈະ​ມາ​ໃນ​ຮູບ​ແບບ​ທີ່​ຈັດ​ລຽງ​ສວຍງ​າ​ມ ເຮົາ​ສາ​ມາດ​ນຳ​ເອົາ​ຂໍ້​ມູນ​ມາ​ໃຊ້​ໄດ້​ເລີຍ ບາງ​ເທື່ອ​ໃນ​ໂລກ​ຄວາມ​ເປັນ​ຈິງ​ມັນ​ອາດ​ຈະ​ບໍ່​ສວຍງ​າມ​ແບບນັ້ນ ເຮົາ​ອາດ​ຈະ​ຕ້ອງ​ໄດ້​ມາອະ​ນາ​ໄມ​ຂໍ້​ມູນ​ຂອງ​ເຮົາ (clean) ຂໍ້​ມູນ, ແປງ​ຖັນ​ເປັນ​ແຖວ ບາງ​ເທື່ອ​ອາດ​ຈະ​ໄດ້​ມາ​ປ້ອນ​ຂໍ້​ມູນ​ເຂົ້າ​ຊ້ຳ ຖ້າ​ຍັງ​ເປັນ​ປຶ້ມ​ຢູ່.

ການ​ເກັບ​ຂໍ້​ມູນ​ ມັນ​ຈະ​ມີ​ເສັ້ນ​ກັ້ນ​ບາງໆ​ລະ​ຫວ່າງ ການ​ຈັດ​ຂໍ້​ມູນ​ທີ່​ມັນ​ງ່າຍ​ຕໍ່​ການ​ເບິ່ງ​ ແຕ່​ວ່າ ບໍ່​ງ່າຍ​ຕໍ່​ການ​ວິ​ເຄາະ ແຕ່​ວ່າ​ຂໍ້​ມູນ​ທີ່​ງ່າຍ​ຕໍ່​ການ​ວິ​ເຄາະ​ມັນ​ອາດ​ຈະ​ເບິ່ງບໍ່​ງ່າຍ​ໃນ​ມຸມມອງ​ຂອງການ​ວິ​ເຄາະ​ທົ່ວ​ໄປ.

sample_of_bad_data_arrangement_for_analysis
sample_data_set_from_UNESCO_easy_for_data_analysis

ຈາກ​ຮູບ​ຂ້າງ​ເທິງ​ເຮົາ​ເຫັນ​ວ່າ ໂອ​ເຄ, ມັນ​ງ່າຍ​ດີ​ຖ້າ​ເຮົາ​ກາງ​ຂໍ້​ມູນ​ເບິ່ງ ເຫັນ​ວ່າ​ມີ​ໝ​ວດ​ໝູ່ ລະ​ອ​ຽດ​ດີ. ແຕ່​ວ່າ ການ​ຈັດ​ຂໍ້​ມູນ​ແບບນີ້​ ເຮົາ​ຈະ​ຕ້ອງ​ໄດ້​ຈັດ​ລຽງ​ຂໍ້​ມູນ​ໃໝ່​ຖ້າ​ເຮົາ​ຢາກ​ເອົາ​ຂໍ້​ມູນ​ມາ​ວິ​ເຄາະ ແລະ ສາ​ມາດ​ເອົາ​ຂໍ້​ມູນ​ໄປ​ໃຊ້​ໄດ້​ບ່ອນ​ອື່ນ ຕົວ​ຢ່າງ​ເອົາ​ຂໍ້​ມູນນຳ​ເຂົ້າ​ໄປ​ປະ​ມວນ​ຜົນ​ໃນ​ໂປ​ຣ​ແກ​ຣມ​ການ​ວິ​ເຄາະ ຫຼື ນຳ​ອອກ​ເອົາ​ມາ​ໃຊ້​ບ່ອນ​ອື່ນໆ ໄດ້​ງ່າຍ.

ກ່ອນ​ອື່ນ​ໝົດ​ເຮົາ​ມາ​ເບິ່ງ​ກັນ​ກ່ອນ​ວ່າ​ຂໍ້​ມູນ​ສ່ວນ​ໃຫຍ່​ແມ່ນ​ ເກັບ​ໃນ​ຮູບ​ແບບ​ໃດແນ່?

  • CSV, JSON, XML (text format): ເປັນ​ປະ​ເພດຂໍ້​ມູນ​ທີ່ ເຮົາ​ສາ​ມາດ​ເອົາ​ມາ​ນຳ​ໃຊ້​ໄດ້​ເລີຍ ແລະ ເຄື່ອງ​ມື​ວິ​ເຄາະ​ຂໍ້​ມູນ​ແມ່ນ​ຮອງ​ຮັບ​ຟາຍ​ພວກນີ້​ໄດ້​ໝົດ.
  • xlsx (Excel): ຂໍ້​ມູນ​ໃນ​ຮູບ​ແບບນີ້ກໍ່​ສາ​ມາດ​ເອົາ​ມາ​ນຳ​ໃຊ້​ໄດ້​ເລີຍ ໂດຍ​ສະ​ເພາະ ຖ້າ​ເຮົາ​ວິ​ເຄາະ​ໃນໂປ​ຣ​ແກ​ຣມ Excel ແຕ່​ວ່າ​ຖ້າ​ເຮົາ​ຈະນຳ​ຂໍ້​ມູນ​ຂ​ອງ​ເຮົາ​ໄປ​ໃຊ້​ບ່ອນ​ອື່ນ​ແມ່ນ ເຄື່ອງ​ມື​ໂຕ​ອື່ນ​ອາດ​ຈະ​ບໍ່​ຮອງ​ຮັບ​ຟາຍ​ປະ​ເພດນີ້. ດັ່ງ​ນັ້ນ, ເຮົາ​ຄວນ​ຈະ export ຟາຍ​ຂໍ້​ມູນ​ດັ່ງ​ກ່າວໃນ​ຮູບ​ແບບຂ​ອງ CSV ເຊິ່ງ​ເຮົາ​ສາ​ມາດ​ເຮັດ​ໄດ້​ຢູ່​ໃນ Excel.
  • PDF: ຖ້າ​ຂໍ້​ມູນ​ເຮົາ​ເກ​ັບ​ມາ​ໃນ​ຮູບ​ແບບນີ້ ຂໍ​ພາ​ວະ​ນາ​ໃຫ້​ເຮົາ​ມີ​ເວ​ລາ​ຫຼາຍໆ ແລະ ເປັນ​ຟາຍ​ທີ່​ນັກ​ວິ​ເຄ​າ​ະ​ທັງ​ຫຼາຍ ບໍ່​ຢາກ​ພົບ ເພາະ​ວ່າ ການ​ໃຫ້​ຟາຍແບບນີ້ ແມ່ນ​ບໍ່​ຕ່າງ​ຫຍັງ​ກັບ​ການ​ໃຫ້​ປຶ້ມ ເຮົາ​ມາ​ປ້ອນ​ຂອງ​ມູນ​ເອງ ເຮົາ​ຈະ​ຕ້ອງ​ເສ​ຍ​ເວ​ລາ​ມາ​ປ້ອນ​ຂໍ້​ມູນ​ເຂົ້າ​ອີກ​ເທື່ອ​ໜຶ່ງ. ເຖິງວ່າ​ມັນ​ຈະ​ມີ​ໂປ​ຣ​ແກ​ຣມທີ່​ເຮົາ​ສາ​ມາດ​ແປງ​ຂໍ້​ມູນ​ອອກ​ມາ​ໄດ້​ໃນ​ຮູບ​ແບບ text ກໍ່​ຕາມ​ແຕ່​ກະ​ຍັງ​ບໍ່​ໄດ້​ດີ​ເທົ່າ​ທີ​ຄວນ.
  • ຮູບ​ພາບ: ສົ່ງ​ຂໍ້​ມູນ​ມາ​ໃຫ້​ໂດຍ​ການ​ຖ່າຍ​ຮູບ​ມາ ອັນ​ນີ້​ກະ​ບໍ່​ຕ່າງ​ຫຍັງ​ກັບ​ການ​ສົ່ງ​ປຶ້ມ​ມາ​ໃຫ້​ດີໆ​ນີ້​ເອງ ເຮົາ​ກະ​ຕ້ອງ​ໄດ້​ມາ​ປ້ອນ​ຂໍ້​ມູນ​ເຂົ້າ​ໃໝ​່​ຄື​ເກົ່າ. ມີ​ແອັບ Microsoft ສາ​ມາດ​ແປງ​ຮ​ູບ​ໃຫ້​ເປັນ​ຕາ​ຕະ​ລາງ​ໃນ Excel ໄດ້​ແຕ່​ກະ​ຍັງ​ບໍ່​ໄດ້​ດີ​ເທົ່າ​ທີ່​ຄວນ ຍິ່ງ​ຖ້າ​ຂໍ້​ມູນ​ເປັນ​ພາ​ສາ​ລາວ ແມ່ນ​ເຮັດ​ໄດ້​ຍາກ.
  • ປຶ້ມ: ອັນ​ນີ້​ກະ​ຄົ​ງ​ຕ້ອງ​ໄດ້​ມາ​ປ້ອນ​ຂໍ້​ມູນ​ເຂົ້າ​ຄອມໃໝ່.

ຮູ້​ຈັກ​ກັບ metadata ຂອງ​ຂໍ້​ມູນ​ທີ່​ເຮົາ​ຈະ​ນຳ​ມາ​ວິ​ເຄາະ​ກ່ອນ

​ຊຸດ​ຂໍ້​ມູນ (data-set) ທີ່ບໍ່​ຊັບ​ຊ້ອນຫຼາຍ​ມີ​ພຽງ​ແຕ່ 1 ມິ​ຕິ ເຮົາ​ກໍ່​ບໍ່​ຈຳ​ເປັນ​ຕ້ອງ​ຈັດ​ການ​ຂໍ້​ມູນ​ຫຍັງຫຼາຍ ແຕ່​ຖ້າ​ຫາກວ່າ​ຂໍ້​ມູນ​ເຮົາ​ມີຫຼາຍ ກວ່າ 1 ມິ​ຕິ ແລະ ຍັງ​ມີຫຼາຍ​ມ​າດ​ວັດ​ອີກ​ເດ ເຮົາ​ຈະ​ຈັດ​ການ​ຂໍ້​ມູນ​ແນວໃດ.

ຂໍ້​ມູນ​ມິ​ຕິ​ດຽວ ແລະ ບໍ່​ຊັບ​ຊ້ອນ ເປ​ັນ​ແບບອາ​ນຸ​ກົມ​ເວ​ລາ (time series)

ແນ່ນອນ​ວ່າ​ເຮົາ​ຈະ​ຕ້ອງ​ໄປ​ເບິ່ງ metadata ຂ​ອງ​ຊຸດ​ຂໍ້​ມູນນັ້ນ​ວ່າ​ມີບໍ່? ຖ້າບໍ່​ມີ​ເຮົາ​ກໍ​ຄວນ​ຈະ​ສ້າງ​ຂຶ້ນ​ມາ​ເອງ ໂດຍ​ກຳ​ນົດ​ເປັນ​ໝ​ວດ​ໝູ່ເຊັ່ນ: ຊື່, ຊື່​ຫຍໍ້, ຂໍ້​ມູນ​ໄດ້​ມາ​ຈາກ​ໃສ, ຂໍ້​ມູນ​ແຕ່​ປີ​ໃດ ເປັນ​ຕົ້​ນ. ສ່ວນ​ມາດ​ວັດ ກໍ​ຈະ​ເປັນ ປະ​ເພ​ດ​ຂອງ​ຂໍ້​ມູນ: ຕົວ​ເລກ, ຕົວ​ໜັງ​ສື, ເປັ​ນ​ຕົວ​ເລກ ຄ່​າ​ສະ​ເລ່ຍ​ເບາະ, ເປັນ​ຕົວ​ເລກ​ທີ່​ເປັນ​ອັນ​ດັບ​ເບາະ ປະ​ມານນີ້.

ຈັດ​ກາ​ນ​ກັບ​ຕາ​ຕະ​ລາງ​ທີ່ບໍ່​ເໝາະ​ກັບ​ການ​ນຳ​ມາ​ວິ​ເຄາະ​ຂໍ້​ມູນ

ດຽວ​ເຮົາ​ຈະ​ມາ​ຍົກ​ຕົວ​ຢ່າງ ຕາ​ຕະ​ລາງ​ຈາ​ກ​ສະ​ຖິ​ຕິ​ສຶກ​ສາ 2016-2017 ຖ້າ​ເບິ່ງ​ໂດຍ​ລວມ​ແລ້ວ​ຕາ​ຕະ​ລາງນີ້​ຖື​ວ່າ ເບິ່ງ​ງ່າຍ ມີ​ການ​ຈັດ​ໝ​ວດ​ໝູ່ ແລະ ເປັນ​ລະ​ບຽບ​ດີ. ແຕ່​ວ່າຕາ​ຕະ​ລາງ​ແບບນີ້ບໍ່​ເໝາະ​ແກ່​ການ​ນຳ​ເອົາ​ໄປ​ວິ​ເຄາະ​ປານ​ໃດ ຖ້າ​ເຮົາ​ເອົາ​ຕະ​ຕະ​ລາງນີ້​ໃນ sheet ກໍ​ລະ​ນີ​ເຮົາ​ຢາກ ຈັດ​ລຽງ​ຂໍ້​ມູນ​ກໍ​ຢາກ​ຍາກ ເຊັ່ນ: ຖ້າ​ເຮົາ​ຢາກ​ຮູ້​ວ່າ ໃນ​ນະ​ຄອນຫຼວງວຽງ​ຈັນ ນັກ​ຮຽນ​ຊັ້ນ​ໃດ​ມີ​ເປີ​ເຊັນ​ການ​ອອກ​ໂຮງ​ຮຽນ​ສູງ​ກ່ອນ​ໝູ່. ໃນ​ກໍ​ລະ​ນີນີ້​ແມ່ນ​ເຮົາ​ຈະ filter ຂໍ້​ມູນບໍ່​ໄດ້​ເລີຍ​ໃນ​ຮູບ​ແບບ​ດັ່ງ​ກ່າວ.

sample_of_bad_data_arrangement_for_analysis

ວິ​ທີ​ການ​ແກ້​ໄຂ​ກໍ​ຄື: ຈັດ​ໃຫ້​ເປັນ​ໃນ​ຮູບ​ແບບຂໍ້​ມູນ CSV ຂໍ້​ມູນ​ທີ່​ແຖວ​ດຽວ​ຕົວ​ປ່ຽນ​ອັນ​ດຽວ ຄື​ກັບ​ຕາ​ຕະ​ລາງ​ຂ້າງ​ເທິງນີ້. ເຮົາ​ຈະ​ເຫັນ​ວ່າ ແຕ່​ລະ​ແຖວ​ແມ່ນ​ມີ​ຄ່າ ແລະ ໝວດ​ໝູ່​ພຽງ​ແຕ່​ອັນ​ດຽວ​ເທົ່າ​ນັ້ນ ທັງ​ນີ້​ທັງ​ນັ້ນ ກໍ​ເພື່​ອ​ການ​ງ່າຍ​ໃນ​ການ​ທີ່​ເຮົາ​ຈະ​ນຳ​ຂໍ້​ມູນ​ມາ filter ເພື່ອ​ການ​ວິ​ເຄາະ.

ຄຳ​ແນະ​ນຳ:

  • ປ່ຽນ​ຊ່ອງ​ທີ່​ເປັນ​ແບບ merge cell ໃຫ້​ເປັນແຖວ​ດຽວ
  • ບໍ່​ຄວນ​ເຮັດ​ໃຫ້ຊ່ອງ​ໜຶ່ງ​ມີຫຼາຍ 2 ຕົວ​ປ່ຽນ (ໝວດ​ໝູ່)
  • ​ພະ​ຍາ​ຍາມ​ຂຽນ​​ຕົວ​ປ່ຽນ​ຂອງ​ເຮົາເປັນ​ໂຕ​ນ້ອຍ ແລະ ບໍ່​ໃຫ້​ຍະ​ຫວ່າງ. ຖ້າ​ຍະ​ຫວ່າງ​ໃຫ້​ໃຊ້ຂີດ​ກ້ອງ (_) ເພາະ​ໂປ​ຣ​ແກ​ຣມ​ວິ​ເຄາະ​ສ່ວນ​ໃຫຍ່​ຈະ​ບໍ່​ອ່ານ​ຄ່າ​ທີ່​ເປັນ​ຍະ​ຫວ່າງ. ຖ້າບໍ່​ຢາກ​ຍະ​ຫວ່າງ​ສາ​ມາດ​ຂຽນ​ໃນ​ຮູບ​ແບບ​ຂອງ lower secondary => lower_secondary => lowerSecondary