Java-Web Crawler

On 5 Ağustos 201622 Ocak 2018 By ismetarslande Java

Merhabalar arkadaşlar bugun ki yazımızda basit fakat çok işinize yarayabilecek bir konu olan ‘web crawler’ denemesi yapacağız.

Öncelikle Jsoup kütüphanesini indirmemiz gerekiyor.Aşağıdaki link’ten indirebilirsiniz;
https://jsoup.org/download (jsoup-1.9.2.jar) dosyasını indirip açtığınız projedeki library kısmına Add JAR derseniz işleminiz hallolacaktır.

Şimdi parse edeceğimiz site ekşisözlük.com 🙂 Bu sitede arama yaptırıp daha sonra çıkan entryleri console üzerinde yazdıracağız.Çok basit bir işlem hemen koda geçelim.

Şekilden bakarsak bizim ilk entrymiz class=”content” div lerinin altında bizde bunu kullanarak çekeceğiz gerekli bilgileri.

public static void main(String[] args) {
        /*
        Consoldan aramamızı alıyoruz.
        */
        Scanner reader = new Scanner(System.in);
        System.out.println("Aramak istediğiniz entry nedir ?");
        String input = reader.nextLine();
        /*
        Parse edeceğimiz bölüm
        */
        String url = "https://eksisozluk.com/?q="+input;
        try {
            Document doc = Jsoup.connect(url).get();//urldeki tüm bilgileri çekiyoruz
            Elements links = doc.getElementsByClass("content");//content classlarını eledik
            for(int i=0 ; i<links.size(); i++){
                System.out.println(links.get(i).text()+"\n");//yazdırdık
            }
        } catch (IOException ex) {
            Logger.getLogger(EntrySearch.class.getName()).log(Level.SEVERE, null, ex);
        }
        
    }

Yazdığımız program bu kadar kolay kütüphane bizim için her şeyi yapıyor zaten 🙂
Eğer texti ben kendim almak istiyorum derseniz regex’lere göz atın derim güzel bir deneme oluyor 🙂

Yorum bırakın Cevabı iptal et