farklı farklı html yapıları olan sitelerden veri çekmeyi planladığım için, her siteye özgü regex kullanmak istemiyorum. ben sadece yazıları çekmek istiyorum ama bi sitede yazılar p tagında yer alırken, bir başkasında p tagı kullanmamakta, onun yerine class atayım css le yazıya düzen vermekte. bu bakımdan verdiğin kod sitelrinden çoğunda işe yarar ama benim aradığım çözüm değil.
strip_tags fonksiyonu gelen kaynak koddaki tüm html taglarını temizler metin olarak sunar ama sadece content makale kısmı gelmez menüler, sidebardaki kısa yazılar vs. hepsi bir birine girer. Sizinde belirttiğiniz gibi her sitenin html kod yapısı farklı olduğu için siteye özel yapmalısınız. preg_match ile ilgili content divinin içindeki metni strip_tagsa sokarak makaleyi elde edebilirsiniz.
Bu işlemin bir diğer yoluda rssdir. Eğer çekim yapacağınız siteler içeriğini rss vb. bir formatta paylaşıyorsa belki bu şekilde bir standartla her siteye özel yapı kurmaktan kurtulabilirsiniz ama rssdede genelde metinler kısıtlı sunulur.