Selamun aleykum arkadaşlar,
elimde 30 bin url var
www.domain.com/kullaniciadi/kelime-kelime2-and-or.html ve ben bu url leri cluster(gruplamak) etmek istiyorum. 30 bin url ile manuel uğraşılmaz herhalde
şeklinde.
Benim düşüncem url yi
kelime kelime2 şekline getirip bu kelimeleri tf idf sini alıp gruplamak. Veya k-means gibi algoritmalara göz atmak istiyorum. Acaba diyorum forumda bu tarz işlerle uğraşan varmı öneri verebilecek. Belki bilmediğimiz bir paket vardır sormak istedim. Python da yeniyim o açıdan. Teşekkürler.
bu örnek url'den elde etmek istediğiniz veriler sadece "kelime" ve "kelime2" mi?