Merhabalar arkadaşlar bugun ki yazımızda basit fakat çok işinize yarayabilecek bir konu olan ‘web crawler’ denemesi yapacağız.
Öncelikle Jsoup kütüphanesini indirmemiz gerekiyor.Aşağıdaki link’ten indirebilirsiniz;
https://jsoup.org/download (jsoup-1.9.2.jar) dosyasını indirip açtığınız projedeki library kısmına Add JAR derseniz işleminiz hallolacaktır.
Şimdi parse edeceğimiz site ekşisözlük.com 🙂 Bu sitede arama yaptırıp daha sonra çıkan entryleri console üzerinde yazdıracağız.Çok basit bir işlem hemen koda geçelim.
Şekilden bakarsak bizim ilk entrymiz class=”content” div lerinin altında bizde bunu kullanarak çekeceğiz gerekli bilgileri.
public static void main(String[] args) { /* Consoldan aramamızı alıyoruz. */ Scanner reader = new Scanner(System.in); System.out.println("Aramak istediğiniz entry nedir ?"); String input = reader.nextLine(); /* Parse edeceğimiz bölüm */ String url = "https://eksisozluk.com/?q="+input; try { Document doc = Jsoup.connect(url).get();//urldeki tüm bilgileri çekiyoruz Elements links = doc.getElementsByClass("content");//content classlarını eledik for(int i=0 ; i<links.size(); i++){ System.out.println(links.get(i).text()+"\n");//yazdırdık } } catch (IOException ex) { Logger.getLogger(EntrySearch.class.getName()).log(Level.SEVERE, null, ex); } }
Yazdığımız program bu kadar kolay kütüphane bizim için her şeyi yapıyor zaten 🙂
Eğer texti ben kendim almak istiyorum derseniz regex’lere göz atın derim güzel bir deneme oluyor 🙂