• 27-12-2023, 13:18:50
    #1
    Üyeliği durduruldu
    Link: https://github.com/lorey/mlscraper

    MLScraper, web sayfalarından yapılandırılmış verileri çıkarmak için kullanılan güçlü bir Python kütüphanesidir. Web sayfalarını otomatik olarak ayrıştırmak ve çıkarmak için makine öğrenimi ve doğal dil işleme tekniklerini kullanır. MLScraper, web içeriği çıkarma, veri madenciliği ve duygu analizi dahil olmak üzere çeşitli veri kazıma ve analiz görevleri için kullanılabilir.
    Özellikler
    MLScraper aşağıdaki özelliklere sahiptir:
    Otomatik ayrıştırma: MLScraper, web sayfalarının yapısını otomatik olarak analiz edebilir ve yararlı verileri çıkarabilir. Statik ve dinamik sayfalar da dahil olmak üzere çeşitli web sayfası türlerini işleyebilir.
    Güçlü seçiciler: MLScraper, HTML etiketlerine, CSS seçicilere, XPath ve diğer yöntemlere dayalı olarak verileri bulmak ve çıkarmak için esnek ve güçlü seçiciler sağlar.
    Akıllı tanıma: MLScraper, metin, sayılar, tarihler vb. gibi veri türlerini otomatik olarak tanımlayabilen yerleşik akıllı tanıma algoritmalarına sahiptir.
    Verimli performans: MLScraper, büyük miktarda web sayfası verisini hızlı bir şekilde işlemek için verimli paralel işleme tekniklerini kullanır.
    Kurulum ve Kullanım
    MLScraper'ı kurmak çok basittir, sadece pip komutunu kullanın:

    pip install mlscraper
    MLScraper'ı kullanmanın temel adımları aşağıdaki gibidir:
    1. Adım: MLScraper kitaplığını içe aktarın

    from mlscraper.html import Page
    from mlscraper.samples import Sample, TrainingSet
    from mlscraper.training import train_scraper
    Site Verilerini Alın
    url = 'https://www.r10.net'
    resp = requests.get(url)
    
    training_set = TrainingSet()
    page = Page(resp.content)
    
    # Mark the desired data content
    sample = Sample(page, {'page_home': '12345', 'creation': 'May 24, 2019'})
    training_set.add_sample(sample)
    3. Adım: Eğitin

    scraper = train_scraper(training_set)
    Adım 4: Scraperlenecej web sayfasının URL'sini belirtin ve scraperi gerçekleştirin
    resp = requests.get('http://www.r10.com')
    result = scraper.get(Page(resp.content))
    print(result)
    Artıları ve Eksileri

    MLScraper'ın avantajları şunları içerir:
    1. Çeşitli web sayfası türlerini işlemek için güçlü otomatik ayrıştırma yeteneği.
    2. Kolay veri bulma ve çıkarma için esnek ve güçlü seçiciler sağlar.
    3. Veri türlerini otomatik olarak tanımlamak için yerleşik akıllı tanıma algoritmaları.
    4. Paralel işleme teknolojisi verimli performans sağlar.
    MLScraper'ın dezavantajları şunlardır:

    1. Karmaşık web sayfası yapıları için seçicilerin manuel olarak ayarlanması gerekebilir.
    2. Dinamik web sayfaları için ek yapılandırma ve işleme gerekebilir.
  • 27-12-2023, 13:21:16
    #2
    Teşekkürler hocam. Siz bu haberleri - yeni gelişmeleri nerden öğreniyorsunuz
  • 27-12-2023, 13:22:52
    #3
    Üyeliği durduruldu
    farabi adlı üyeden alıntı: mesajı görüntüle
    Teşekkürler hocam. Siz bu haberleri - yeni gelişmeleri nerden öğreniyorsunuz


    Meslek sırrı
  • 28-12-2023, 13:17:30
    #4
    valla hocam süpersiniz denedim harika çalışıyor ✌
  • 03-07-2024, 19:55:20
    #5
    hocam bende "ModuleNotFoundError: No module named 'mlscraper.html'" hatası var. Python dizinini kontrol ettiğimde belirtilen dosyanın olmadığını gördüm. Nasıl çözebilirim bilginiz var mı? Sizde şuan çalışıyor mu