ဤသင်ခန်းစာတွင် Data Science နည်းပညာနယ်ပယ်၌ အသုံးများသော Terminology များအား တင်ပြထားသည်။ ထိုသို့တင်ပြရာတွင် မူရင်းစကားလုံးများအား တိုက်ရိုက်ဘာသာပြန် မြန်မာမှုပြုခြင်းထက် မူလစကားလုံး၏ အသုံးနှင့်ဆိုလိုရင်း သဘောတရားများကို ဥပမာများဖြင့် ရှင်းလင်းတင်ပြထားသည်။
သင်ခန်းစာ အနှစ်ချုပ် ကောက်နှုတ်ချက်
Data sets ဆိုသည်မှာ ဒေတာတွေကို စနစ်တကျစုဆောင်း သိမ်းဆည်းထားသည့် အရာဖြစ်သည်။ ဥပမာ စာသင်ခန်းတခာုရှိ ကျောင်းသား ကျောင်းသူများ၏ စာမေးပွဲအောင်စာရင်းမှာ ဒေတာစက် ဥပမာတခုဖြစ်သည်။
Dependent Variables ဆိုသည်မှာ Data sets ရှိ အခြားသောတန်းဖိုးများ အပေါ်မှီခိုပြောင်းလဲနိုင်သော၊ တနည်းအားဖြင့် ရလဒ်ကိန်းရှင်ကို ခေါ်သည်။
Independent Variables ဆိုသည်မှာ ရလဒ်ကို အဆုံးအဖြတ်ပေးနိုင်သော အခြားတန်ဖိုးများအပေါ် မှီခိုမှု မရှိသော တန်ဖိုးကို ခေါ်သည်။
Dummy Variables ဆိုသည်မှာ (တွက်ချက်မှုပြုလုပ်ရန် အစသဖြင့်) ပြောင်းလဲသတ်မှတ်ထားသော တန်ဖိုးများကို ခေါ်သည်။
Business Analyst မှာ ဒေတာပေါ်မူတည်ပြီး တွေ့ရှိသော အချက်များအား စီးပွါးရေအကျိုးအမြတ်အတွက် မည်သို့မည်ပုံ အသုံးပြုနိုင်ကြောင်း စဉ်းစား အကောင်အထည်ဖော်သူများ ဖြစ်သည်။
Data Engineer မှာ data analysts နှင့် data scientists တို့ ကိုင်တွယ်ဆောင်ရွက်သော စနစ် (system) အား အဆင်ပြေစေရန် ကိုင်တွယ်ဆောင်ရွက်သူများဖြစ်သည်။
Data Governance ဆိုသည်မှာ ဒေတာ၏ အရည်အသွေး၊ ခိုင်မာမှု၊ လုံခြုံရေး အစရှိသည်တို့ကို ဆုံးဖြတ်သတ်မှတ်ခြင်းကို ခေါ်သည်။
Data Mining ဆိုသည်မှာ Data sets များမှတဆင့် အကျိုးဖြစ်ထွန်းနိုင်သည့် အချက်အလက်များအား ရှာဖွေဖော်ထုတ်ခြင်း ဖြစ်သည်။
Data Wrangling ဆိုသည်မှာ ဒေတာများ အရည်အသွေးမှီရန်အတွက် သန့်စင်ခြင်း၊ ပြောင်းလဲခြင်း အစရှိသည့် လုပ်ငန်းများအား ဆောင်ရွက်ခြင်းကို ခေါ်သည်။
Data Visualization ဆိုသည်မှာ ဒေတာများအား ရုပ်ပုံဂရပ်များဖြင့် ထင်သာမြင်သာအောင် တင်ပြခြင်းအား ဆိုလိုသည်။
Data Modeling ဆိုသည်မှာ ဒေတာများပေါ်မှတဆင့် (ခန့်မှန်းမှုပြုလုပ်သော၊ အဖြေထုတ်ပေးသော အစသဖြင့်) အကျိုးဖြစ်ထွန်းဖွယ် မော်ဒယ်များ တည်ဆောက်ခြင်းဖြစ်သည်။
Big Data ဟူသည် အဆမတန်ကြီးမားသော ဒေတာအစုအဝေးအား ကိုင်တွယ်ဆောင်ရွက်ခြင်းကိုခေါ်သည်။
Machine Learning ဆိုသည်မှာ ဒေတာပေါ်မူတည်၍ ကွန်ပျူတာ ပရိုဂရမ်မှ သူ့ဖာသာသူ အလိုအလျောက် ဆုံးဖြတ်ချက်ချနိုင်ခြင်းကို ခေါ်သည်။
Deep Learning ဆိုသည်မှာ Machine Learning နည်းပညာရပ်တခုဖြစ်ပြီး လူသားတဦးအသွင် အသိညဏ်တု ရှိသော အစွမ်းထက်သည့် နည်းပညာကို ခေါ်သည်။
Supervised Learning ဆိုသည်မှာ လူက စီမံကွပ်ကဲသော (ယူဆချက်တခု မှန်မမှန် တင်ကြိုဆုံးဖြတ်ပြီး) Machine Learning နည်းပညာဖြစ်သည်။
Unsupervised Learning ဆိုသည်မှာ လူ၏ပါဝင်မှု မဟုတ်ဘဲ ကွန်ပျူတာ algorithm ပေါ်မူတည်ပြီး ရလဒ်အား ရှာဖွေဖော်ထုတ်ခြင်း ဖြစ်သည်။
API ဆိုသည်မှာ အဆင်သင့်ယူသုံးနိုင်သော ကွန်ပျူတာပရိုဂရမ်အသေးစားများ ဖြစ်သည်။
Database ဆိုသည်မှာ ဒေတာများ စနစ်တကျ သိုလှောင်သိမ်းဆည်းထားသော ဆော့ဖ်ဝဲဖြစ်သည်။
Python, R, SQL ဆိုသည်မှာ Data Science ပရောဂျက်များ ကိုင်တွယ်ရာတွင် အသုံးပြုသော ပရိုဂရမ်ရေးသားနည်း ဘာသာရပ်များဖြစ်သည်။
Pandas ဟူသည် Python အသုံးပြုသူတို့အတွက် ဒေတာများကို ကိုင်တွယ်ရာတွင် လွယ်ကူရန် ပြုလုပ်ပေးထားသော Data Structure ဖြစ်သည်။