Learn practical skills, build real-world projects, and advance your career

Imgur

Data Science va Sun'iy Intellekt Praktikum

3-MODUL. MA’LUMOTLARGA ISHLOV BERISH

3.2 Ma'lumotlarni tozalash va tayyorlash

Data Science muhandisi sifatida sizning 80% vaqtingiz ma'lumotlarga ishlov berish bilan o'tadi. Jumladan, ma'lumotlarni o'qish, kamchiliklarni bartaraf etish, ma'lumotlarni shakl o'zgartirish, matnlar bilan ishlash va hokazo.

Navbatdagi bo'limda aynan shu mavzularga batafsil to'xtalamiz.

Mavjud bo'lmagan qiymatlar bilan ishlash

Ko'p holatlarda jamlangan ma'lumotlar to'liq bo'lmaydi. Minglab qatorlar orasida albatta qandaydur qiymatlar tushib qolishi tabiiy (odam xatosi, ma'lumot mavjud emasligi va hokazo). pandas bunday qiymatlar bilan ishlashni bir muncha osonlashtirsada, yakuniy datasetda bu akmchiliklarni albatta bartaraf etish kerak.

pandas DataFramelar mavjud bo'lmagan sonli qiymatlar o'rniga NaN (not available - mvajud emas) degna qiymatni qo'yib ketadi va statistik ma'lumotlarni chiqarishda bunday qiymatlarni inobatga olmaydi.

import pandas as pd

Yangi DF yaratamiz. Jadval tarkibidagi NaN qiymatlarg ahamiyat bering.

df = pd.read_csv("https://github.com/anvarnarz/praktikum_datasets/raw/main/automobile_data_nan.csv", index_col=0)
df.head()

Mavjud bo'lmagan qiymatlarga ishlov berishning yagona, universal formulasi yo'q.

Bunday holatda sizning birinchi savolingiz "Nima uchun mu qiymat mavjud emas? Ma'lumot yozib olinmaganmi yoki umuman mavjud emasmi?" bo'lishi kerak. Misol uchun, siz so'rovnoma yordamida odamlar haqida ma'lumotlar jamlayapsiz, so'rovnomangizda "nikohdan o'tgan yilingiz" degan bo'lim bor. Tabiiyki, turmush qurmaghanlar uchun bu qiymat mabjud bo'lmaydi va bu xato emas. Aksincha, "tug'ilgan yilingiz" qiymati mavjud bo'lmasligi esa, ma'lumot mavjud lekin yozib olinmaganini anglatadi.

Data Science muhandisi sifatida siz mavjud bo'lmagan ma'lumotlarni topishga, buning imkoni bo'lmasa ularni approksimasiya qilishga (tahminiy qiymat topishga) harakat qilishingiz, buni ham iloji bo'lmasa bunday ustun (yoki qatorlardan) voz kechishni hal qilishingiz kerak bo'ladi.

Avvalo, keling, DF da mavjud bo'lmagan (NaN) qiymatlar sonini topaylik.