JetCrawl (LLM Web Crawler) Nedir ve Nasıl Kullanılır?


JetCrawl, büyük dil modellerini (LLM) otomatik ve periyodik şekilde eğitmek için web sitelerinden veri toplayan ve yapılandırılmış içerik elde etmeyi sağlayan gelişmiş bir web tarayıcısıdır. Bu rehber, JetCrawl’u nasıl kullanabileceğinizi, temel işlevlerini ve verimli bir şekilde nasıl yapılandırılacağını adım adım açıklamaktadır. Eğer web sayfalarından otomatik bilgi çekmek ve analiz etmek istiyorsanız, JetCrawl size güçlü ve esnek bir çözüm sunar.


URL Girişi:

  • Jetlink paneline giriş yaptıktan sonra Jetbot > İçeriği Düzenle bölümüne gidilir.
  • Açılan bölümde LLM Bilgi Bankası açılır.

    Image Placeholder

  • + butonuna tıklanarak yeni bir bilgi bankası kütüphanesi oluşturulur.
  • Açılan modülde ikinci sekmeye geçilerek URL sayfasına gelinir.
Image Placeholder
  • Bu ekranda ilk olarak açıklayıcı bir bilgi bankası İçerik Adı girilir. 
  • Daha sonra taranacak URL'ler URL Listesine girilir, + butonuna tıklayarak birden fazla URL taraması gerçekleştirebilirsiniz. 

    Image Placeholder

    💡 İpucu: İlgili URL'in tüm alt URL'lerini eğitmek isterseniz linkin sonuna "*" koymanız yeterlidir.

  • Eğer ilgili URL'in altındaki bir URL'den tarama yapılmasını istemiyorsanız "Bu URL listesini hariç tut" seçeneğine ilgili linkleri yerleştirebilir + butonuna tıklayarak birden fazla URL kısıtı koyabilirsiniz.
  • Periyodik olarak güncellenmesini istediğiniz zaman aralığı da girilerek işlem tamamlanır, dilerseniz tek seferlik de tarama yapabilirsiniz.

    Image Placeholder

  • Son olarak "Kaydet" butonuna tıklanarak işlem tamamlanır.
Eğitim:

URL'lerin büyüklüğüne göre tarama işlemi Kaydet dediğinizde başlar ve daha sonra "Eğitime Hazır" hale geldikten sonra "LLM Eğitimini Başlat" butonuna tıklayarak ilgili tarama sonucu çıkan metinleri LLM bilgi bankanıza eğitebilirsiniz.

Image Placeholder

Taranmış Verileri İnceleme & Güncelleme:

  • LLM'e eğitilmiş ve taranmış verileri görüntülemek için ilgili LLM kütüphanesinde "Crawl" butonuna tıklanır.
    Image Placeholder
  • Açılan modülde hangi URL'lerin tarandığını, taranan linklerdeki metin içeriğini ve bu metin içeriğinin karakter sayısını görüntüleyebilirsiniz.
Image Placeholder

  • Eğer tarama sonrası metin içeriklerinde düzenleme yapılmak istenirse içerik düzenlenerek "Değişiklikleri Kaydet" butonuna tıklandığında işlem gerçekleştirilebilir, daha sonrasında tekrar "LLM Bilgi Bankasını Eğit" butonu ile güncelleme işlemi tamamlanır.

  • Eğer istenmeyen bir URL tarandıysa, eğitime dahil olmaması için "X" butonuna tıklanarak içerik kaldırılır ve "Değişiklikleri Kaydet" butonuna tıklandığında işlem gerçekleştirilebilir, daha sonrasında tekrar "LLM Bilgi Bankasını Eğit" butonu ile güncelleme işlemi tamamlanır.

Not: Taranan tüm linklerdeki metinlerin karakter sayısı bu ekranlardan izlenebilir ve LLM bilgi bankası karakter kotanızı ana sayfadan görüntüleyebilirsiniz. Karakter kotanızı artırmak için Jetlink ekibi ile iletişime geçebilirsiniz.