Skip to main content

NOTE: Prepare Data for Exploration

·277 words·2 mins

Selecting the right data
#

ການເລືອກຂໍ້ມູນທີ່ຖືກຕ້ອງ ຈະຊ່ວຍໃຫ້ເຮົາຕອບບັນຫາທີ່ເຮົາຢາກຮູ້ໄດ້

ເວລາເຮົາຈະເກັບຂໍ້ມູນ ເພື່ອນຳມາວິເຄາະ ເຮົາຈະຕ້ອງຄຳນຶງເຖິງຫຍັງແດ່?

  • Data source - ແຫຼ່ງທີ່ມາຂອງຂໍ້ມູນ ການເກັບຂໍ້ມູນມາວິເຄາະ ເຮົາສາມາດເກັບໄດ້ຫຼາຍວິທີ ເຊິ່ງມັນກໍບໍ່ໄດ້ຈຳກັດຢູ່ບ່ອນວ່າ ຂໍ້ມູນຈະຕ້ອງແມ່ນເຮົາໄປເກັບເອງ. ເຮົາສາມາດ ເອົາຂໍ້ມູນມາຈາກ second-party data - ບຸກຄົນທີສອງ ທີ່ເກັບຂໍ້ມູນມາ ຫຼື ຂາຍຂໍ້ມູນໃຫ້ເຮົາ. ນອກຈາກນີ້ ເຮົາຍັງສາມາດ ຊື້ຂໍ້ມູນ ຈາກ ບຸກຄົນທີສາມ (third-party data) ທີ່ເປັນບຸກຄົນທີ່ ບໍ່ໄດ້ເກັບຂໍ້ມູນ ເພື່ອກະເຈົ້າເອງ ເຊິ່ງ ບຸກຄົນທີສາມນີ້ ແຫຼ່ງຂໍ້ມູນອາດຈະຮວບຮວມມາຈະຫຼາຍໆແຫຼ່ງ.
  • Solving your business problem - ຂໍ້ມູນຕ້ອງ ສາມາດຕອບໂຈດທີ່ເຮົາຢາກຮູ້ໄດ້ ຂໍ້ມູນທີ່ເຮົາຢາກໄດ້ອາດມີຫຼາຍ ແລະ ປົນເປກັນໄປ. ສະນັ້ນ, ເຮົາຈະຕ້ອງເບິ່ງວ່າຂໍ້ມູນທີ່ເຮົາເລືອກ ຈະໄປຕອບໂຈດຂອງບັນຫາເຮົາໄດ້. ຕົວຢ່າງ, ເຮົາວິເຄາະ trend ຂອງຂໍ້ມູນ ຂໍ້ມູນທີ່ເຮົາຈະເອົາມາວິເຄາະກໍ່ ຈະເປັນຂໍ້ມູນທີ່ຕິດພັນກັບເວລາ (time-series)
  • How much data to collect - ຂໍ້ມູນຫຼາຍສໍ່າໃດຈຶ່ງຈະພໍ? ບາງເທື່ອ ການທີ່ເກັບຂໍ້ມູນຫຼາຍ ພຽງພໍກັບຄວາມຕ້ອງການຂອງເຮົາ ແລະ ເຮັດໃຫ້ຜົນລັບອອກມາຖືກຕ້ອງ ແຕ່ເຮົາກະຈະຕ້ອງເບິ່ງຄວາມເປັນຈິງວ່າ ມັນເໝາະສົມບໍ່ ບາງເທື່ອ ຖ້າຈະເກັບທັງໝົດຂອງກຸ່ມປະຊາກອນ -​ ຂໍ້ມູນໂຕຈິງທັງໝົດ, ກະອາຈະໄດ້ງົບປະມານຫຼາຍ. ທາງອອກກະຄືກັນເລືອກ ສຸ່ມເອົາ sample - ກຸ່ມຕົວຢ່າງ ຈາກກຸ່ມປະຊາກອນທັງໝົດ, ມາວິເຄາະ ເຊິ່ງຂໍ້ມູນມັນອາດຈະບໍ່ສະແດງໃຫ້ເຫັນ 100% ແຕ່ກະສາມາດເປັນຕົວແທນຂອງກຸ່ມປະຊາກອນໄດ້ ໂດຍອີງຕາມການຄິດໄລ່ທາງສະຖິຕິ. ສະຫຼຸບແລ້ວ ປະລິມານຂໍ້ມູນ ເທົ່າໃດຈຶ່ງຈະພໍ ອັນນີ້ແມ່ນ ແລ້ວແຕ່ ຄວາມຕ້ອງການຂອງແຕ່ລະ project ທີ່ເຮົາກຳນົດເອງ.
  • Time frame - ກອບໄລຍະເວລາ ຂອງຂໍ້ມູນທີ່ເຮົາຈະເກັບມາ. ຖ້າວ່າເຮົາຈະເບິ່ງ trend ຂອງຂໍ້ມູນ ເຮົາກໍ່ຈະຕ້ອງເກັບຂໍ້ມູນໄປຕາມໄລຍະເວລາທີ່ເຮົາຢາກໄດ້.​ ແຕ່ຖ້າຫາກວ່າ ເຮົາຕ້ອງການຂໍ້ມູນດຽວນີ້ ເຮົາຈະອາດຈະຕ້ອງໄດ້ ໄປຫາຂໍ້ມູນຈາກແຫຼ່ງອື່ນທີ່ເກັບຂໍ້ມູນມາກ່ອນໜ້ານີ້.

Data modeling techniques
#

data modeling ແມ່ນ process ຫຼື ຂະບວນການໃນການສ້າງແຜນວາດສະແດງ ການຈັດການຂໍ້ມູນ ແລະ ໂຄງຮ່າງຂອງຂໍ້ມູນ. ແຜນວາດນີ້ ປຽບຄືກັບ blue print ທີ່ເວລາເບິ່ງແລ້ວເຮົາຈະເຫັນໄດ້ເລີຍວ່າຂໍ້ມູນຂອງເຮົາພາບລວມ ເປັນແນວໃດ.

ການສ້າງ data models ສາມາດສ້າງໄດ້ໂດຍມີ 2 ວີທີ ທີ່ນິຍົມກັນ: Entity Relationship Diagram (ERD) ແລະ Unified Modeling Language (UML) diagram.

Rational Database components
#

  • Primary key - ແມ່ນໂຕບົ່ງບອກບອກວ່າ ຂໍ້ມູນຢູ່ແຕ່ລະ table ແຕກຕ່າງກັນ. Primary key ຈະຕ້ອງມີຄ່າທີ່ແຕກຕ່າງກັນ ແລະ ບໍ່ສາມາດເປັນຄ່າ null ຫຼື ຫວ່າງເປົ່າໄດ້.
  • Foreign key - ແມ່ນຂໍ້ມູນທີ່ຢູ່ table ອື່ນແຕ່ເຮັດໜ້າທີເປັນ primary key ຢູ່ອີກ table. ໜຶ່ງ table ສາມາດ ມີຫຼາຍ foriegn key ໄດ້.

Metadata is data about data

  • Descriptive metadata - ແມ່ນ metadata ທີ່ອະທິບາຍຂໍ້ມູນ. ປຽບທຽບ descriptive metadata ໃນປຶ້ມ ກໍຈະແມ່ນ ISBN code ຢູ່ຫຼັງປຶ້ມ, ຊື່ໜ້າປົກ ແລະ ຊື່ຜູ້ຂຽນ.
  • Structural metadata - ແມ່ນ metadata ທີ່ໃຫ້ຂໍ້ມູນວ່າ ຂໍ້ມູນນັ້ນ ເກັບເປັນປະມານໃດ. ສົມທຽບກັບປຶ້ມ metadata ນີ້ ກໍຈະປຽບເໝືອນສາລະບານ ຂອງປຶ້ມ.
  • Administrative metadata - ແມ່ນ metadata ທີ່ໃຫ້ຂໍ້ມູນ ດ້ານເຕັກນິກກ່ຽວກັບແຫຼ່ງທີມາຂອງຂໍ້ມູນນັ້ນ. Administrative metadata ຂອງຮູບພາບ ທີ່ເກັບມາ ກໍຈະແມ່ນ ເວລາ, ປະເພດຂອງຮູບພາບ ແລະ ສະຖານທີ່.

Elements of metadata
#

Metadata ສາມາດບອກເຮົາໄດ້ວ່າ ຂໍ້ມູນນັ້ນ ແມ່ນໃຜເປັນຄົນສ້າງ, ກ່ຽວກັບຫຍັງ, ສ້າງຕອນໃດ, ເກັບໄວ້ຢູ່ໃສ, ເກັບແນວໃດຈັ່ງໃດ ແລະ ເປັນຫຍັງຄືສ້າງ (who, what, when, where, which, how, why).

  • Title and description
  • Tags and categories
  • Who created it and when
  • Who last modified and when
  • Who can access or update it
Douangtavanh Kongphaly
Author
Douangtavanh Kongphaly