Java-Web Crawler

Merhabalar arkadaşlar bugun ki yazımızda basit fakat çok işinize yarayabilecek bir konu olan ‘web crawler’ denemesi yapacağız.

Öncelikle Jsoup kütüphanesini indirmemiz gerekiyor.Aşağıdaki link’ten indirebilirsiniz;
https://jsoup.org/download (jsoup-1.9.2.jar)  dosyasını indirip açtığınız projedeki library kısmına Add JAR derseniz işleminiz hallolacaktır.

Şimdi parse edeceğimiz site ekşisözlük.com 🙂 Bu sitede arama yaptırıp daha sonra çıkan entryleri console üzerinde yazdıracağız.Çok basit bir işlem hemen koda geçelim.

asd
Şekilden bakarsak bizim ilk entrymiz class=”content” div lerinin altında bizde bunu kullanarak çekeceğiz gerekli bilgileri.

public static void main(String[] args) {
        /*
        Consoldan aramamızı alıyoruz.
        */
        Scanner reader = new Scanner(System.in);
        System.out.println("Aramak istediğiniz entry nedir ?");
        String input = reader.nextLine();
        /*
        Parse edeceğimiz bölüm
        */
        String url = "https://eksisozluk.com/?q="+input;
        try {
            Document doc = Jsoup.connect(url).get();//urldeki tüm bilgileri çekiyoruz
            Elements links = doc.getElementsByClass("content");//content classlarını eledik
            for(int i=0 ; i<links.size(); i++){
                System.out.println(links.get(i).text()+"\n");//yazdırdık
            }
        } catch (IOException ex) {
            Logger.getLogger(EntrySearch.class.getName()).log(Level.SEVERE, null, ex);
        }
        
    }

Yazdığımız program bu kadar kolay kütüphane bizim için her şeyi yapıyor zaten 🙂
Eğer texti ben kendim almak istiyorum derseniz regex’lere göz atın derim güzel bir deneme oluyor 🙂

 

Yorum bırakın