Python Veri Temizleme

Question

Bir ders için hoca verdiği veri setini yapay zekanın anlayabileceği şekilde düzenlememizi istedi. Veri setinde null değerler var, int türündeki null değerlere sütundaki verilerin medyanını yazdırdım. Ancak string türündeki değerler yerine ne yazdırmam mantıklı bilmiyorum. Fikri olan varsa aydınlatabilir mi? (objecttable ve other sütunları)

byteon · Answer

pandas

onurcanbaysal · Answer

Burada doğru bir cevap verebilmek için datanın ne datası olduğunu, değerlerin tanımları da lazım.

Fakat şuanki gördüğüm kadarıyla ; burada median alman bence mantıklı değil, çünkü rakamsal değerlerin hiç biri başka bir veri ile bağlantılı olarak orantısal artıp azalmıyor örneğin objectid; Burada her bir target için id numaraları atanmış. Attempt için 800lü değerler, gidipte course için bu değerlerin medianını atamak, yanlış bir işleme tarzı olur.

azra_dscrd · Answer

onurcanbaysal adlı üyeden alıntı:						mesajı görüntüle									Burada doğru bir cevap verebilmek için datanın ne datası olduğunu, değerlerin tanımları da lazım.

Fakat şuanki gördüğüm kadarıyla ; burada median alman bence mantıklı değil, çünkü rakamsal değerlerin hiç biri başka bir veri ile bağlantılı olarak orantısal artıp azalmıyor örneğin objectid; Burada her bir target için id numaraları atanmış. Attempt için 800lü değerler, gidipte course için bu değerlerin medianını atamak, yanlış bir işleme tarzı olur. 		Data seti ders kayıtlarını içeriyor, kurs ve kullanıcılar ile ilgili birçok girdi var. Büyük bir data seti olduğu için tam atamıyorum. Yani sizin söylediğinize göre sütunlar birbiri ile bağlantılı ve target için verilen id değerleri attempt için girilecek değerler ile bağlı oluyor. Ben bunu belirli değerlere sahipse şu ifadeyi ata gibi yazmalıyım o zaman. Ama veri setinde 752498 satır var yani bu kadar büyük veri için bu analizi nasıl yapabilirim ki?

onurcanbaysal · Answer

azra_dscrd adlı üyeden alıntı:						mesajı görüntüle									Data seti ders kayıtlarını içeriyor, kurs ve kullanıcılar ile ilgili birçok girdi var. Büyük bir data seti olduğu için tam atamıyorum. Yani sizin söylediğinize göre sütunlar birbiri ile bağlantılı ve target için verilen id değerleri attempt için girilecek değerler ile bağlı oluyor. Ben bunu belirli değerlere sahipse şu ifadeyi ata gibi yazmalıyım o zaman. Ama veri setinde 752498 satır var yani bu kadar büyük veri için bu analizi nasıl yapabilirim ki? 		scikit-learn python

azra_dscrd · Answer

onurcanbaysal adlı üyeden alıntı:						mesajı görüntüle									scikit-learn python 		Pandas kullanıyordum. Konuyla ilgili tavsiye edebileceğiniz kaynak var mı?

onurcanbaysal · Answer

azra_dscrd adlı üyeden alıntı:						mesajı görüntüle									Pandas kullanıyordum. Konuyla ilgili tavsiye edebileceğiniz kaynak var mı? 		Datanın tamamını göremediğim için çıkarım yapamıyorum. Null değerleri zaten pandas ile düzeltmeniz lazım. Bu kadar büyük veri için bu analizi nasıl yapabilirim sorusunun cevabı scikit-learn.

1. Pandas ile null verileri atamanız ya da silmeniz gerekiyor. Yöntemlerini açıklıyacağım.
Tüm yöntemler burada mevcut : https://medium.com/@ayeshasidhikha18...s-a90bb02e2bd9
- Tüm properyler için aynı yöntemi kullanmayın.
* Mesela dediğim gibi idnumber gibi bir durum varsa bu unique bir durumdan kaynaklanıyordur. Örneğin attempt için objectid değerinde null varsa atanan değeri 800lü olan bir değere yuvarlayın. Eğer O property için öncesinde hiç objectid değeri girilmemişse kendiniz değer belirleyin. fillna() kullanmanız gerekir.
*  bfill(backward filling) - ffill(forward filling) aynı target propertysinde olan nulllar için kullanabilirsin. (Görebildiğim kısıtlı verilerin sonucunda, burada target ana veri (diğer verilerin tipini belirleyen property gibi duruyor.)) 
2. Ardından scikit-learn ile işlemeyi yapıp sonuçlara göre hangi yöntemi daha mantıklı sonuç verdiğine bakmanız gerekiyor.

azra_dscrd · Answer

onurcanbaysal adlı üyeden alıntı:						mesajı görüntüle									Datanın tamamını göremediğim için çıkarım yapamıyorum. Null değerleri zaten pandas ile düzeltmeniz lazım. Bu kadar büyük veri için bu analizi nasıl yapabilirim sorusunun cevabı scikit-learn.

1. Pandas ile null verileri atamanız ya da silmeniz gerekiyor. Yöntemlerini açıklıyacağım.
Tüm yöntemler burada mevcut : https://medium.com/@ayeshasidhikha18...s-a90bb02e2bd9
- Tüm properyler için aynı yöntemi kullanmayın.
* Mesela dediğim gibi idnumber gibi bir durum varsa bu unique bir durumdan kaynaklanıyordur. Örneğin attempt için objectid değerinde null varsa atanan değeri 800lü olan bir değere yuvarlayın. Eğer O property için öncesinde hiç objectid değeri girilmemişse kendiniz değer belirleyin. fillna() kullanmanız gerekir.
* bfill(backward filling) - ffill(forward filling) aynı target propertysinde olan nulllar için kullanabilirsin. (Görebildiğim kısıtlı verilerin sonucunda, burada target ana veri (diğer verilerin tipini belirleyen property gibi duruyor.)) 
2. Ardından scikit-learn ile işlemeyi yapıp sonuçlara göre hangi yöntemi daha mantıklı sonuç verdiğine bakmanız gerekiyor. 		çok teşekkürler yardımcı olduğunuz için