Yeni bir guncelleme yaptim; flood yapiyorum biliyorum ama bu sekilde ilerlemesi lazim.
import urlparse
import urllib
from bs4 import BeautifulSoup
from urllib import *
url = "http://www.onlineradyo.com.tr"
urls = [url]
visited = [url]
while len(urls) >0:
try:
htmltext = urllib.urlopen(urls[0]).read()
getir = urllib.urlopen(urls[0])
suan = urllib.geturl(getir)
except:
print urls[0]
soup = BeautifulSoup(htmltext)
urls.pop(0)
for tag in soup.findAll('a', href=True):
tag['href'] = urlparse.urljoin(url,tag['href'])
if url in tag['href'] and tag['href'] not in visited:
urls.append(tag['href'])
visited.append(tag['href'])
#baslik
print "Title: " + soup.title.string
#aciklama
for link in soup("meta", {"name":"description"}):
print "Description: " + link['content']Taranan sayfa linki
Baslik
Aciklama
Seklinde cikti verir.