NOTE: Prepare Data for Exploration

Selecting the right data

ການເລືອກຂໍ້ມູນທີ່ຖືກຕ້ອງ ຈະຊ່ວຍໃຫ້ເຮົາຕອບບັນຫາທີ່ເຮົາຢາກຮູ້ໄດ້

ເວລາເຮົາຈະເກັບຂໍ້ມູນ ເພື່ອນຳມາວິເຄາະ ເຮົາຈະຕ້ອງຄຳນຶງເຖິງຫຍັງແດ່?

  • Data source - ແຫຼ່ງທີ່ມາຂອງຂໍ້ມູນ ການເກັບຂໍ້ມູນມາວິເຄາະ ເຮົາສາມາດເກັບໄດ້ຫຼາຍວິທີ ເຊິ່ງມັນກໍບໍ່ໄດ້ຈຳກັດຢູ່ບ່ອນວ່າ ຂໍ້ມູນຈະຕ້ອງແມ່ນເຮົາໄປເກັບເອງ. ເຮົາສາມາດ ເອົາຂໍ້ມູນມາຈາກ second-party data - ບຸກຄົນທີສອງ ທີ່ເກັບຂໍ້ມູນມາ ຫຼື ຂາຍຂໍ້ມູນໃຫ້ເຮົາ. ນອກຈາກນີ້ ເຮົາຍັງສາມາດ ຊື້ຂໍ້ມູນ ຈາກ ບຸກຄົນທີສາມ (third-party data) ທີ່ເປັນບຸກຄົນທີ່ ບໍ່ໄດ້ເກັບຂໍ້ມູນ ເພື່ອກະເຈົ້າເອງ ເຊິ່ງ ບຸກຄົນທີສາມນີ້ ແຫຼ່ງຂໍ້ມູນອາດຈະຮວບຮວມມາຈະຫຼາຍໆແຫຼ່ງ.
  • Solving your business problem - ຂໍ້ມູນຕ້ອງ ສາມາດຕອບໂຈດທີ່ເຮົາຢາກຮູ້ໄດ້ ຂໍ້ມູນທີ່ເຮົາຢາກໄດ້ອາດມີຫຼາຍ ແລະ ປົນເປກັນໄປ. ສະນັ້ນ, ເຮົາຈະຕ້ອງເບິ່ງວ່າຂໍ້ມູນທີ່ເຮົາເລືອກ ຈະໄປຕອບໂຈດຂອງບັນຫາເຮົາໄດ້. ຕົວຢ່າງ, ເຮົາວິເຄາະ trend ຂອງຂໍ້ມູນ ຂໍ້ມູນທີ່ເຮົາຈະເອົາມາວິເຄາະກໍ່ ຈະເປັນຂໍ້ມູນທີ່ຕິດພັນກັບເວລາ (time-series)
  • How much data to collect - ຂໍ້ມູນຫຼາຍສໍ່າໃດຈຶ່ງຈະພໍ? ບາງເທື່ອ ການທີ່ເກັບຂໍ້ມູນຫຼາຍ ພຽງພໍກັບຄວາມຕ້ອງການຂອງເຮົາ ແລະ ເຮັດໃຫ້ຜົນລັບອອກມາຖືກຕ້ອງ ແຕ່ເຮົາກະຈະຕ້ອງເບິ່ງຄວາມເປັນຈິງວ່າ ມັນເໝາະສົມບໍ່ ບາງເທື່ອ ຖ້າຈະເກັບທັງໝົດຂອງກຸ່ມປະຊາກອນ -​ ຂໍ້ມູນໂຕຈິງທັງໝົດ, ກະອາຈະໄດ້ງົບປະມານຫຼາຍ. ທາງອອກກະຄືກັນເລືອກ ສຸ່ມເອົາ sample - ກຸ່ມຕົວຢ່າງ ຈາກກຸ່ມປະຊາກອນທັງໝົດ, ມາວິເຄາະ ເຊິ່ງຂໍ້ມູນມັນອາດຈະບໍ່ສະແດງໃຫ້ເຫັນ 100% ແຕ່ກະສາມາດເປັນຕົວແທນຂອງກຸ່ມປະຊາກອນໄດ້ ໂດຍອີງຕາມການຄິດໄລ່ທາງສະຖິຕິ. ສະຫຼຸບແລ້ວ ປະລິມານຂໍ້ມູນ ເທົ່າໃດຈຶ່ງຈະພໍ ອັນນີ້ແມ່ນ ແລ້ວແຕ່ ຄວາມຕ້ອງການຂອງແຕ່ລະ project ທີ່ເຮົາກຳນົດເອງ.
  • Time frame - ກອບໄລຍະເວລາ ຂອງຂໍ້ມູນທີ່ເຮົາຈະເກັບມາ. ຖ້າວ່າເຮົາຈະເບິ່ງ trend ຂອງຂໍ້ມູນ ເຮົາກໍ່ຈະຕ້ອງເກັບຂໍ້ມູນໄປຕາມໄລຍະເວລາທີ່ເຮົາຢາກໄດ້.​ ແຕ່ຖ້າຫາກວ່າ ເຮົາຕ້ອງການຂໍ້ມູນດຽວນີ້ ເຮົາຈະອາດຈະຕ້ອງໄດ້ ໄປຫາຂໍ້ມູນຈາກແຫຼ່ງອື່ນທີ່ເກັບຂໍ້ມູນມາກ່ອນໜ້ານີ້.

Data modeling techniques

data modeling ແມ່ນ process ຫຼື ຂະບວນການໃນການສ້າງແຜນວາດສະແດງ ການຈັດການຂໍ້ມູນ ແລະ ໂຄງຮ່າງຂອງຂໍ້ມູນ. ແຜນວາດນີ້ ປຽບຄືກັບ blue print ທີ່ເວລາເບິ່ງແລ້ວເຮົາຈະເຫັນໄດ້ເລີຍວ່າຂໍ້ມູນຂອງເຮົາພາບລວມ ເປັນແນວໃດ.

ການສ້າງ data models ສາມາດສ້າງໄດ້ໂດຍມີ 2 ວີທີ ທີ່ນິຍົມກັນ: Entity Relationship Diagram (ERD) ແລະ Unified Modeling Language (UML)  diagram.

Rational Database components

  • Primary key - ແມ່ນໂຕບົ່ງບອກບອກວ່າ ຂໍ້ມູນຢູ່ແຕ່ລະ table ແຕກຕ່າງກັນ. Primary key ຈະຕ້ອງມີຄ່າທີ່ແຕກຕ່າງກັນ ແລະ ບໍ່ສາມາດເປັນຄ່າ null ຫຼື ຫວ່າງເປົ່າໄດ້.
  • Foreign key - ແມ່ນຂໍ້ມູນທີ່ຢູ່ table ອື່ນແຕ່ເຮັດໜ້າທີເປັນ primary key ຢູ່ອີກ table. ໜຶ່ງ table ສາມາດ ມີຫຼາຍ foriegn key ໄດ້.
Metadata is data about data
  • Descriptive metadata - ແມ່ນ metadata ທີ່ອະທິບາຍຂໍ້ມູນ. ປຽບທຽບ descriptive metadata ໃນປຶ້ມ ກໍຈະແມ່ນ ISBN code ຢູ່ຫຼັງປຶ້ມ, ຊື່ໜ້າປົກ ແລະ ຊື່ຜູ້ຂຽນ.
  • Structural metadata - ແມ່ນ metadata ທີ່ໃຫ້ຂໍ້ມູນວ່າ ຂໍ້ມູນນັ້ນ ເກັບເປັນປະມານໃດ. ສົມທຽບກັບປຶ້ມ metadata ນີ້ ກໍຈະປຽບເໝືອນສາລະບານ ຂອງປຶ້ມ.
  • Administrative metadata - ແມ່ນ metadata ທີ່ໃຫ້ຂໍ້ມູນ ດ້ານເຕັກນິກກ່ຽວກັບແຫຼ່ງທີມາຂອງຂໍ້ມູນນັ້ນ. Administrative metadata ຂອງຮູບພາບ ທີ່ເກັບມາ ກໍຈະແມ່ນ ເວລາ, ປະເພດຂອງຮູບພາບ ແລະ ສະຖານທີ່.

Elements of metadata

Metadata ສາມາດບອກເຮົາໄດ້ວ່າ ຂໍ້ມູນນັ້ນ ແມ່ນໃຜເປັນຄົນສ້າງ, ກ່ຽວກັບຫຍັງ, ສ້າງຕອນໃດ, ເກັບໄວ້ຢູ່ໃສ, ເກັບແນວໃດຈັ່ງໃດ ແລະ ເປັນຫຍັງຄືສ້າງ (who, what, when, where, which, how, why).

  • Title and description
  • Tags and categories
  • Who created it and when
  • Who last modified and when
  • Who can access or update it