Burada doğru bir cevap verebilmek için datanın ne datası olduğunu, değerlerin tanımları da lazım.
Fakat şuanki gördüğüm kadarıyla ; burada median alman bence mantıklı değil, çünkü rakamsal değerlerin hiç biri başka bir veri ile bağlantılı olarak orantısal artıp azalmıyor örneğin objectid; Burada her bir target için id numaraları atanmış. Attempt için 800lü değerler, gidipte course için bu değerlerin medianını atamak, yanlış bir işleme tarzı olur.
Data seti ders kayıtlarını içeriyor, kurs ve kullanıcılar ile ilgili birçok girdi var. Büyük bir data seti olduğu için tam atamıyorum. Yani sizin söylediğinize göre sütunlar birbiri ile bağlantılı ve target için verilen id değerleri attempt için girilecek değerler ile bağlı oluyor. Ben bunu belirli değerlere sahipse şu ifadeyi ata gibi yazmalıyım o zaman. Ama veri setinde 752498 satır var yani bu kadar büyük veri için bu analizi nasıl yapabilirim ki?