Data Science va Data scientist
Data science
Data science bu yirik hajmdagi data bilan ishlash orqali undagi har xil patternlarni yoki manoga ega informatsiyani ajratib olish bilan shug`ullanadigan sohaga aytiladi. Bu o’z navbatida biznesslar uchun qaror qabul qilishga yoki avtomatlashtirishga yordam beradi. Data science o’z ichiga ko’pgina data bilan ishlashga yordam beradigan toollarni qamrab oladi: matematik statistika, artificial intelligence (AI), computer engineering.
Data sciencening turlari juda ham ko’p. Bazan bir turini tushungan odam boshqa turiga unchalik ham tushunmaysligi mumkin. Masalan:
- Computer vision va rasmlar ustida ishlash.
- Signal processing va to’lqinlar bilan ishlash.
- Time series analysis.
- Data science for search optimization.
- Categorical data bilan ishlovchilar.
- NLP va text data bilan ishlovchilar
- Va hokazo.
Yuqoridagilar data science ning bir qismigina xolos shunga o’xshash juda ham ko’p turlari bor.
Data scientistlar kimlar ?
Data scientistlar umuman olganda datani ustida ishlaydigan va undan kerakli natijalarni olib bera oladigan odamlarga aytiladi. Uning bizness olamida boshqacharoq tarifi bor: Data scientistlar biznessda bo’lishi mumkin bo’lgan va faqatgina informatisyani yig’ish va uning ustida ishlash bilan javob bersa bo’ladigan savollarga javob bera oladigan odamlardir. Masalan IKEA (uy mebellarini sotadigan magazinlar tarmog’i) data scientistlar guruxini yig’di va ularga odamlarni ularning maxsulotlarini sotib olishga qiziqishini oshirishni so’radi. Data scientistlar avvaliga ayni vaqtdagi ishlab turgan tizimda aynan nima odamlarni qiziqishini so’ndirayotganini topishga harakat qilishadi. Buning uchun ular so’rovnoma o’tqizishadi va takliflarni berishni so’rashadi. Masalan ko’pchilik mebellarni uyida qanday ko’rinishini bilmagani uchun sotib olmayotganini tushuntirgan bo’lishi mumkin. Ular esa buni hal qilish uchun virtual reality usulidan foydalanishni tavsiya qilishlari mumkin - yani uyining ichini videoga olganda, mebel mos bo’lib joylashib qolsa va xuddiki haqiqiydek ko’rinsa. Buni amallasa bo’ladi.
Data science jarayoni:
Muammoni aniqlash va tushunish Buning uchun muammo haqida aniq va kerakli savollarni berish kerak. Bu orqali siz muammoni tushunib olasiz. Bu juda ham muhim agar shu bo’limda adashsangiz keyingi qilgan ishingiz bir pulga qimmat bo’ladi.
Datani yig’ish
Buning uchun birinchi allaqachon qanday data mavjudligini tekshiriladi. Agar data yetarli bo’lmasa kerakli joylardan yana data yig’iladi. Datasetni xar hil joydan yig’sa bo’ladi ular pullik yoki tekin bo’lishi mumkin. Ko’pincha data boshqa formatda yoki boshqa keraksiz data bilan aralashib yotgan bo’ladi. Data scientist qilishi kerak bo’lgan ish esa kerakli datani saralab olish. Buning uchun kod yozishga to’g’ri keladi. Masalan biror bir web saytdagi rasmlarni yuklab olmoqchi bo’lsangiz har bir sahifasiga kirib chiqib rasmlarni topib chiqishga to’g’ri keladi. Buning uchun web scraping kutubxonalaridan foydalansa bo’ladi.
Datani tozalash
Datani yig’ish bo’limidan keyingi hosil bo’lgan datada muammolar bo’lishi tabiiy. Bazi bir malumotlar yetishmasligi yoki noto’g’ri yozilgan bo’lishi mumkin. Bazan formati boshqacha bo’ladi. Bir xil ma’lumot bir necha marotaba berilgan bo’lshi mumkin. Outlier (keraksiz va xato data) ni aniqlash. Datani tozalash oxirgi resultatdagi aks holda bo’ladigan xatoliklarni oldini oladi.
Datani modellash
Bu stepda odatda matematik statistika usullaridan yoki boshqa machine learning algoritmlaridan foydalanib berilgan malumotni kerakli javob uchun modelga solinadi. Muammoning turiga qarab modelning turi o’zgaradi. Masalan muammo regressiya yoki klassifikatsiya bo’lishi mumkin. Klassifikatsiyaga misol qilib mushuk va itni bir biridan farqlashni, regressiyaga misol qilib aksiya narxlarini taxmin qilishni keltira olamiz. Modeldan muhim qaror qabul qilishda ishlatilinishi kerak bo’lsa undan kerakli qarorlarni taxmin qilishda ishlatish mumkin. Masalan biror bir kompaniya aksiyalarini sotib olishni hal qilish uchun shu kompaniya haqidagi xabarlarni va oxirgi aksiya narxining o’zgarishidan foydalanish mumkin. Bunda biz aksiyaning narxi kelajakda oshishi yoki oshmasligini aniqlashimiz kerak bo’ladi.
Javobni klientga yetqazish.
Bunda kommunikatsiya juda ham muhim, sizdan olgan natijalariz orqali biznessning egalarini muhim qaror qabul qilishga ko’ndirishdir. Agar ko’ndira olmasangiz sizni qilgan ishingiz isrof bo’ladi. Agar noto’g’ri natija olib notog’ri qaror qabul qilishga sababchi bo’lsangiz undan ham battar. Shuning uchun olgan natijangizni nima uchunligini isbotlab berishiz kerak ular qabul qilishi kerak oxirgi natijani.
--> --> -->