Bu Python Kütüphanesi ile Siteleri Tarayabileceksiniz

27-12-2023, 13:18:50

Kişisel Rütbe

Link: https://github.com/lorey/mlscraper

MLScraper, web sayfalarından yapılandırılmış verileri çıkarmak için kullanılan güçlü bir Python kütüphanesidir. Web sayfalarını otomatik olarak ayrıştırmak ve çıkarmak için makine öğrenimi ve doğal dil işleme tekniklerini kullanır. MLScraper, web içeriği çıkarma, veri madenciliği ve duygu analizi dahil olmak üzere çeşitli veri kazıma ve analiz görevleri için kullanılabilir.
Özellikler
MLScraper aşağıdaki özelliklere sahiptir:
Otomatik ayrıştırma: MLScraper, web sayfalarının yapısını otomatik olarak analiz edebilir ve yararlı verileri çıkarabilir. Statik ve dinamik sayfalar da dahil olmak üzere çeşitli web sayfası türlerini işleyebilir.
Güçlü seçiciler: MLScraper, HTML etiketlerine, CSS seçicilere, XPath ve diğer yöntemlere dayalı olarak verileri bulmak ve çıkarmak için esnek ve güçlü seçiciler sağlar.
Akıllı tanıma: MLScraper, metin, sayılar, tarihler vb. gibi veri türlerini otomatik olarak tanımlayabilen yerleşik akıllı tanıma algoritmalarına sahiptir.
Verimli performans: MLScraper, büyük miktarda web sayfası verisini hızlı bir şekilde işlemek için verimli paralel işleme tekniklerini kullanır.
Kurulum ve Kullanım
MLScraper'ı kurmak çok basittir, sadece pip komutunu kullanın:

pip install mlscraper

MLScraper'ı kullanmanın temel adımları aşağıdaki gibidir:
1. Adım: MLScraper kitaplığını içe aktarın

from mlscraper.html import Page
from mlscraper.samples import Sample, TrainingSet
from mlscraper.training import train_scraper

Site Verilerini Alın

url = 'https://www.r10.net'
resp = requests.get(url)

training_set = TrainingSet()
page = Page(resp.content)

# Mark the desired data content
sample = Sample(page, {'page_home': '12345', 'creation': 'May 24, 2019'})
training_set.add_sample(sample)

3. Adım: Eğitin

scraper = train_scraper(training_set)

Adım 4: Scraperlenecej web sayfasının URL'sini belirtin ve scraperi gerçekleştirin

resp = requests.get('http://www.r10.com')
result = scraper.get(Page(resp.content))
print(result)

Artıları ve Eksileri

MLScraper'ın avantajları şunları içerir:

Çeşitli web sayfası türlerini işlemek için güçlü otomatik ayrıştırma yeteneği.
Kolay veri bulma ve çıkarma için esnek ve güçlü seçiciler sağlar.
Veri türlerini otomatik olarak tanımlamak için yerleşik akıllı tanıma algoritmaları.
Paralel işleme teknolojisi verimli performans sağlar.

MLScraper'ın dezavantajları şunlardır:

Karmaşık web sayfası yapıları için seçicilerin manuel olarak ayarlanması gerekebilir.
Dinamik web sayfaları için ek yapılandırma ve işleme gerekebilir.

27-12-2023, 13:21:16

#2

farabi

Teşekkürler hocam. Siz bu haberleri - yeni gelişmeleri nerden öğreniyorsunuz

27-12-2023, 13:22:52

#3

Saitama

Kişisel Rütbe

farabi adlı üyeden alıntı: mesajı görüntüle

Teşekkürler hocam. Siz bu haberleri - yeni gelişmeleri nerden öğreniyorsunuz

Meslek sırrı

28-12-2023, 13:17:30

#4

rhnkrl

valla hocam süpersiniz denedim harika çalışıyor ✌

03-07-2024, 19:55:20

#5

yusufakman1919

hocam bende "ModuleNotFoundError: No module named 'mlscraper.html'" hatası var. Python dizinini kontrol ettiğimde belirtilen dosyanın olmadığını gördüm. Nasıl çözebilirim bilginiz var mı? Sizde şuan çalışıyor mu