Bu işi yapmak için öncelikle bir semantik algoritma kurmanız lazım.
Bir sürü detayı var. Öncelikle opeh graph var mı bakacaksınız.
Yoksa sitedeki en uzun <p><span> içindeki en uzun yazıyı ve h1 i arayacaksınız.
Eğer hiç birini bulamazsanız site içinde en uzun metnin başını ve sonunu bulup title ile izole edeceksiniz.
Her halükarda mutlak başarıya ulaşamazsınız. Çünkü kuraldan çok istisna olan bir yer internet.
Ama bu en uzun metin bölümü ile ilgili aklıma basit bir algoritma geldi.
Ben bunu kullanarak bir bot yazayım )))