Yurtdisinda döküman yönetimi üzerine bir firmada calismaktayim. Orada bazi müsterilerin istekleri üzerine bir seyler denerken bildiklerimi paylasayim.
Bir müsteri bize TIF formatinda faturalarin oldugunu ve bunu pdf cevirip arsiv olarak saklamak istediklerini söylediler. Bu islerde biz genellikle KOFAX kullaniyoruz ancak sanirim kücük yerlerin kaldirabilecegi ücretler pek yok. Ben kofax'a alternatif olarak bir calisma yaptim. Google un tesseract ocr i ile deneme yaptim ve gayet iyi calisiyor pdf e cevirme isinde.
Peki bunlari neden söyledigime gelince; bu pdf ler search able pdf ler yani tesseract ocr ilgili resmi (senini durumun icin pdf oluyor), cesitli ciktilarda verebilir ve yine yazi olarak alabilirsin (html cevirmek de mümkün tabi ki eger fatura gibi bi seyse cerceveler vs bozulacaktir ama metni alabilirsin). Tesseract OCR kullanarak pdf, resim lerden metinleri alabilirsin. Diger uygulamalarinda ise her uygulama icin bir tane alt modül ile dökümanin metin icerigi alinmali ve bunlar belli özellikle indexlenmeli. Döküman sayisi ve icerigi büyükse o zaman "yer" sorunu yasayacaksiniz. O yüzden de farkli bir indexleme türüyle yol almaniz gerekecek. Mesela kelime bazinda indexleme yerine, sayisal bazda indexleme olur. Tüm dökümanlarda gecen kelimeler bi havuza atilir ve her kelimenin bir indexi olur. Böylece bir dökümanin icerigi saklandiginda buradaki sayisal index üzerinden gidilir. Bu hem hizli olur hem de daha az yer kaplar.
Istediginiz sey cok kolay degil yani bir cok sorunlar da cikacaktir. Bir de el yazisi ile yazilmis dökümanlar varsa is daha da zorlasacak cünkü OCR in de bir siniri var.

Hazir sisteme gelince; biz opentext isvicre'de distribütörüyüz ve ayni zamanda türkiye'de de 2 subemiz var. Benim calistigim yazilim departmaninda da ek araclar gelistiriyoruz. Opentext'in edocs DM isimli ürününde full-text search özelligi var bu da sizin istediginiz sekilde dökümanlarin icerisinde arama yapiyor. Tabi bu olay yukarida anlattigim mantikla calisiyor asagi yukari. Hazir ürün almak isterseniz edocs DM'i satin alabilirsiniz. Fiyatlar konusunda hic bir fikrim yok ancak özelden bana mesaj yollarsaniz size türkiye'deki iletisim adreslerini verebilirim onlarla konusabilirsiniz.
kolay gelsin



mehmetuken adlı üyeden alıntı: mesajı görüntüle
Hocam şimdi resimin içindeki text i okuyamayız özel bi şekilde ocr metodlarıyla onuda yazıya çevirmek gerekir yazı el yazısıyla yapamaz filan ama text olan içerikler için yapılabilir istediğiniz şey.
bu kisim cok dogru degil. Ben daha önce aldigim döküman analiz dersinde bazi calismalar yaptik. Elbette cok verimli seyler degildi, daha cok tarihi dökümanlar üzerinde bazi islemler yaptik ve bunla ilgili cok güzel calisan sistemler de mevcut. Ayrica isvicre postahanesi mektuplarin üzerindeki adres okumalarini tamamen dijital yapmaktalar. Yani zarfin üzerinde yazan ad-soyad ve adres kisimlari el yazili ve bunlar dijitale cevrilerek adreslere gönderiliyor. O yüzden yapamaz olayi dogru degil. Hatta tesseract da yapabilir ancak yapamadigi kisimlar da olacaktir, güvenli bir sistem olacaksa, özel sistem gelistirilmesi lazim.
Mesela machine learning ile on binlerce el yazisiyla yazilmis 0 dan 9 a kadar olan sayilari programa ögrettik, daha sonra farkli kisilerin yazdigi 0-9 arasi sayilari verdigimizde hatirladigim kadariyla %87 civari tanimayi basarmistik. Tabi ki tanimayla ilgili feature lari (kasitli olarak ingilizce yazdim bu kelimeyi) iyi tespit etmek gerekiyor. Feature lar spesifik hale geldikce taninma daha iyi olur. Ancak cümleler daha zor cünkü kelimeler birbirlerine gecmis olabiliyor o yüzden de onlari ayirmak gerekiyor vs.
master tezim de bu sekilde tanimayla ilgili (yüz-omuz-üst vücut) oldugu icin bu konularda biraz bilgim var, sorusu olan varsa burdan sorabilir cevaplamaya calisirim.