Herhangi bir web sitesinin kaynak kodundaki bütün linkleri bulmam gerekiyor. Herhangi bir web site adresi textboxa girilip butona tıklandığında o sitenin kaynak kodlarını alabiliyorum fakat sitedeki linkleri yani a href = " " leri alamıyorum.

Java ile oluşturuduğum sistem için nasıl bir yol izlemem gerekir? Alttaki gibi yaptığımda String pattern ile başlayan satırda syntax hatası veriyor.

URL information = new URL(url);
        URLConnection yc = information.openConnection();
        BufferedReader in = new BufferedReader(new InputStreamReader(
                yc.getInputStream(), "UTF-8"));
        String inputLine;
        StringBuilder gelenBilgi = new StringBuilder();
        while ((inputLine = in.readLine()) != null)
        	gelenBilgi.append(inputLine);
        in.close();
        
        String pattern = "((https?|ftp|file)\://(www)?)[A-Za-z0-9\.\-]+(/[A-Za-z0-9\?\&\=;\+!'\(\)\*\-\._~%]*)*";

        Pattern r = Pattern.compile(pattern);

        Matcher matcher = r.matcher(gelenBilgi);
        
        int count = 0;
        while (matcher.find())
            count++;
        
        List lst = new List();
        
        for(int i = 0; i< count; i++)
        {
	        if (matcher.find( )) {
	           lst.add(matcher.group(i));
	        }
        }