• 12-04-2024, 10:52:59
    #1
    Bir ders için hoca verdiği veri setini yapay zekanın anlayabileceği şekilde düzenlememizi istedi. Veri setinde null değerler var, int türündeki null değerlere sütundaki verilerin medyanını yazdırdım. Ancak string türündeki değerler yerine ne yazdırmam mantıklı bilmiyorum. Fikri olan varsa aydınlatabilir mi? (objecttable ve other sütunları)

  • 12-04-2024, 11:03:41
    #2
    Kimlik doğrulama veya yönetimden onay bekliyor.
    pandas
  • 12-04-2024, 11:11:25
    #3
    Burada doğru bir cevap verebilmek için datanın ne datası olduğunu, değerlerin tanımları da lazım.

    Fakat şuanki gördüğüm kadarıyla ; burada median alman bence mantıklı değil, çünkü rakamsal değerlerin hiç biri başka bir veri ile bağlantılı olarak orantısal artıp azalmıyor örneğin objectid; Burada her bir target için id numaraları atanmış. Attempt için 800lü değerler, gidipte course için bu değerlerin medianını atamak, yanlış bir işleme tarzı olur.
  • 12-04-2024, 11:38:23
    #4
    onurcanbaysal adlı üyeden alıntı: mesajı görüntüle
    Burada doğru bir cevap verebilmek için datanın ne datası olduğunu, değerlerin tanımları da lazım.

    Fakat şuanki gördüğüm kadarıyla ; burada median alman bence mantıklı değil, çünkü rakamsal değerlerin hiç biri başka bir veri ile bağlantılı olarak orantısal artıp azalmıyor örneğin objectid; Burada her bir target için id numaraları atanmış. Attempt için 800lü değerler, gidipte course için bu değerlerin medianını atamak, yanlış bir işleme tarzı olur.
    Data seti ders kayıtlarını içeriyor, kurs ve kullanıcılar ile ilgili birçok girdi var. Büyük bir data seti olduğu için tam atamıyorum. Yani sizin söylediğinize göre sütunlar birbiri ile bağlantılı ve target için verilen id değerleri attempt için girilecek değerler ile bağlı oluyor. Ben bunu belirli değerlere sahipse şu ifadeyi ata gibi yazmalıyım o zaman. Ama veri setinde 752498 satır var yani bu kadar büyük veri için bu analizi nasıl yapabilirim ki?
  • 12-04-2024, 11:43:52
    #5
    azra_dscrd adlı üyeden alıntı: mesajı görüntüle
    Data seti ders kayıtlarını içeriyor, kurs ve kullanıcılar ile ilgili birçok girdi var. Büyük bir data seti olduğu için tam atamıyorum. Yani sizin söylediğinize göre sütunlar birbiri ile bağlantılı ve target için verilen id değerleri attempt için girilecek değerler ile bağlı oluyor. Ben bunu belirli değerlere sahipse şu ifadeyi ata gibi yazmalıyım o zaman. Ama veri setinde 752498 satır var yani bu kadar büyük veri için bu analizi nasıl yapabilirim ki?
    scikit-learn python
  • 12-04-2024, 11:46:13
    #6
    onurcanbaysal adlı üyeden alıntı: mesajı görüntüle
    scikit-learn python
    Pandas kullanıyordum. Konuyla ilgili tavsiye edebileceğiniz kaynak var mı?
  • 12-04-2024, 12:24:02
    #7
    azra_dscrd adlı üyeden alıntı: mesajı görüntüle
    Pandas kullanıyordum. Konuyla ilgili tavsiye edebileceğiniz kaynak var mı?
    Datanın tamamını göremediğim için çıkarım yapamıyorum. Null değerleri zaten pandas ile düzeltmeniz lazım. Bu kadar büyük veri için bu analizi nasıl yapabilirim sorusunun cevabı scikit-learn.

    1. Pandas ile null verileri atamanız ya da silmeniz gerekiyor. Yöntemlerini açıklıyacağım.
    Tüm yöntemler burada mevcut : https://medium.com/@ayeshasidhikha18...s-a90bb02e2bd9
    - Tüm properyler için aynı yöntemi kullanmayın.
    * Mesela dediğim gibi idnumber gibi bir durum varsa bu unique bir durumdan kaynaklanıyordur. Örneğin attempt için objectid değerinde null varsa atanan değeri 800lü olan bir değere yuvarlayın. Eğer O property için öncesinde hiç objectid değeri girilmemişse kendiniz değer belirleyin. fillna() kullanmanız gerekir.
    * bfill(backward filling) - ffill(forward filling) aynı target propertysinde olan nulllar için kullanabilirsin. (Görebildiğim kısıtlı verilerin sonucunda, burada target ana veri (diğer verilerin tipini belirleyen property gibi duruyor.))
    2. Ardından scikit-learn ile işlemeyi yapıp sonuçlara göre hangi yöntemi daha mantıklı sonuç verdiğine bakmanız gerekiyor.
  • 12-04-2024, 12:31:12
    #8
    onurcanbaysal adlı üyeden alıntı: mesajı görüntüle
    Datanın tamamını göremediğim için çıkarım yapamıyorum. Null değerleri zaten pandas ile düzeltmeniz lazım. Bu kadar büyük veri için bu analizi nasıl yapabilirim sorusunun cevabı scikit-learn.

    1. Pandas ile null verileri atamanız ya da silmeniz gerekiyor. Yöntemlerini açıklıyacağım.
    Tüm yöntemler burada mevcut : https://medium.com/@ayeshasidhikha18...s-a90bb02e2bd9
    - Tüm properyler için aynı yöntemi kullanmayın.
    * Mesela dediğim gibi idnumber gibi bir durum varsa bu unique bir durumdan kaynaklanıyordur. Örneğin attempt için objectid değerinde null varsa atanan değeri 800lü olan bir değere yuvarlayın. Eğer O property için öncesinde hiç objectid değeri girilmemişse kendiniz değer belirleyin. fillna() kullanmanız gerekir.
    * bfill(backward filling) - ffill(forward filling) aynı target propertysinde olan nulllar için kullanabilirsin. (Görebildiğim kısıtlı verilerin sonucunda, burada target ana veri (diğer verilerin tipini belirleyen property gibi duruyor.))
    2. Ardından scikit-learn ile işlemeyi yapıp sonuçlara göre hangi yöntemi daha mantıklı sonuç verdiğine bakmanız gerekiyor.
    çok teşekkürler yardımcı olduğunuz için