Böyle bir data'dan para kazanılınır mı ? - R10.net
  • 11-09-2020, 03:29:14
    #1
    Merhaba,

    Yaklaşık 2 haftadan beri 3.7 milyon adet film ve dizi altyazıları üzerinde çalışıyorum. Altyazılarda herhangi bir tarih- film adı bilgisi yok. Hepsi imdb'nin id yapılandırılmasına göre gidilmiş.Bende oturup Java ve Python kullanaraktan bunları ayıkladım.
    Film bilgileri tutan bir db oluşturdum ve film diline göre bunları tuttum. Net olarak elimde 3.624.123 adet film ve dizi altyazısı var.
    Altyazılar bana geldiğine xml formatında ve oldukça eski bir yapıdaydı.Örnek vermek gerekirse :

    <s id="1">
    <time id="T1S" value="00:00:22,701"/>
    <w id="1.1">I</w>
    <w id="1.2">'m</w>
    <w id="1.3">just</w>
    <w id="1.4">trying</w>
    <w id="1.5">to</w>
    <w id="1.6">pay</w>
    <time id="T1E" value="00:00:24,067"/>
    <time id="T2S" value="00:00:24,067"/>
    <w id="1.7">this</w>
    <w id="1.8">really</w>
    <w id="1.9">hi</w>
    <w id="1.10">water</w>
    <w id="1.11">bill</w>
    <w id="1.12">right</w>
    <w id="1.13">now</w>
    <w id="1.14">,</w>
    <w id="1.15">so</w>
    <w id="1.16">...</w>
    <time id="T2E" value="00:00:26,900"/>

    </s>

    Görebildiğiniz gibi tüm altyazıları yukarıdaki şekildeydi. Bunları .srt uzantılı yapıya çevirdim. Yeni format tipi

    1
    00:00:22,701 --> 00:00:24,067
    I'm just trying to pay

    2
    00:00:24,067 --> 00:00:26,900
    this really hi water billl right now, so...

    şeklinde yaptım. Aynı şekilde JSON formatında da tutuyorum.

    3.7 milyon altyazının ne yazık ki hepsi ingilizce değil. Sadece 494.000 adeti ingilizce. 30.000 adet türkçe altyazıda bulunmaktadır. Yıl olarak 1940 - 2019 tarihleri arasında film ve diziler dahil. Genellikle popüler olan tüm dizi ve filmler var. Ama ara ara yokladığımda elbette belli filmler yok. Altyazı konusunda hiç bir bilgim yok. Altyazı indirme sitelerini incelediğimde farklı farklı .srt'lerin özellikleri olduğunu gördüm ama bendekilerin hepsi sabit.

    DB'de tuttuğum tablo yapım :

    |movie_id | movie_name | movie_genre | movie_vote | movie_year | movie_rating | movie_img | movie_subtitle_path | language |

    Bu tabloyu imdb'den aldığım bilgileri doldurdum. Altyazı isimlendirilmesinde şu kuralı takip ettim. Film adı + yıl + dil +dosya uzantısı -->game.of.thrones.thebells.en.2018.srt
    Film ve dizi adları aynı tabloda tutuluyor.
    Eğer bir dizi ise movie_name isimli tabloda şu şekilde olucaktır --> Game of Thrones ## The Bells
    Eğer bir film ise --> Inception


    Bu konuda görüşlerinizi bekliyorum.

    Edit : düzeltme
  • 11-09-2020, 04:14:19
    #2
    Torrent film sitelerine yükleyerek upload başı kazanç elde edebilirsiniz.