Yurtdisinda döküman yönetimi üzerine bir firmada calismaktayim. Orada bazi müsterilerin istekleri üzerine bir seyler denerken bildiklerimi paylasayim.
Bir müsteri bize TIF formatinda faturalarin oldugunu ve bunu pdf cevirip arsiv olarak saklamak istediklerini söylediler. Bu islerde biz genellikle KOFAX kullaniyoruz ancak sanirim kücük yerlerin kaldirabilecegi ücretler pek yok. Ben kofax'a alternatif olarak bir calisma yaptim. Google un tesseract ocr i ile deneme yaptim ve gayet iyi calisiyor pdf e cevirme isinde.
Peki bunlari neden söyledigime gelince; bu pdf ler search able pdf ler yani tesseract ocr ilgili resmi (senini durumun icin pdf oluyor), cesitli ciktilarda verebilir ve yine yazi olarak alabilirsin (html cevirmek de mümkün tabi ki eger fatura gibi bi seyse cerceveler vs bozulacaktir ama metni alabilirsin). Tesseract OCR kullanarak pdf, resim lerden metinleri alabilirsin. Diger uygulamalarinda ise her uygulama icin bir tane alt modül ile dökümanin metin icerigi alinmali ve bunlar belli özellikle indexlenmeli. Döküman sayisi ve icerigi büyükse o zaman "yer" sorunu yasayacaksiniz. O yüzden de farkli bir indexleme türüyle yol almaniz gerekecek. Mesela kelime bazinda indexleme yerine, sayisal bazda indexleme olur. Tüm dökümanlarda gecen kelimeler bi havuza atilir ve her kelimenin bir indexi olur. Böylece bir dökümanin icerigi saklandiginda buradaki sayisal index üzerinden gidilir. Bu hem hizli olur hem de daha az yer kaplar.
Istediginiz sey cok kolay degil yani bir cok sorunlar da cikacaktir. Bir de el yazisi ile yazilmis dökümanlar varsa is daha da zorlasacak cünkü OCR in de bir siniri var.
Hazir sisteme gelince; biz opentext isvicre'de distribütörüyüz ve ayni zamanda türkiye'de de 2 subemiz var. Benim calistigim yazilim departmaninda da ek araclar gelistiriyoruz. Opentext'in edocs DM isimli ürününde full-text search özelligi var bu da sizin istediginiz sekilde dökümanlarin icerisinde arama yapiyor. Tabi bu olay yukarida anlattigim mantikla calisiyor asagi yukari. Hazir ürün almak isterseniz edocs DM'i satin alabilirsiniz. Fiyatlar konusunda hic bir fikrim yok ancak özelden bana mesaj yollarsaniz size türkiye'deki iletisim adreslerini verebilirim onlarla konusabilirsiniz.
kolay gelsin
bu kisim cok dogru degil. Ben daha önce aldigim döküman analiz dersinde bazi calismalar yaptik. Elbette cok verimli seyler degildi, daha cok tarihi dökümanlar üzerinde bazi islemler yaptik ve bunla ilgili cok güzel calisan sistemler de mevcut. Ayrica isvicre postahanesi mektuplarin üzerindeki adres okumalarini tamamen dijital yapmaktalar. Yani zarfin üzerinde yazan ad-soyad ve adres kisimlari el yazili ve bunlar dijitale cevrilerek adreslere gönderiliyor. O yüzden yapamaz olayi dogru degil. Hatta tesseract da yapabilir ancak yapamadigi kisimlar da olacaktir, güvenli bir sistem olacaksa, özel sistem gelistirilmesi lazim.
Mesela machine learning ile on binlerce el yazisiyla yazilmis 0 dan 9 a kadar olan sayilari programa ögrettik, daha sonra farkli kisilerin yazdigi 0-9 arasi sayilari verdigimizde hatirladigim kadariyla %87 civari tanimayi basarmistik. Tabi ki tanimayla ilgili feature lari (kasitli olarak ingilizce yazdim bu kelimeyi) iyi tespit etmek gerekiyor. Feature lar spesifik hale geldikce taninma daha iyi olur. Ancak cümleler daha zor cünkü kelimeler birbirlerine gecmis olabiliyor o yüzden de onlari ayirmak gerekiyor vs.
master tezim de bu sekilde tanimayla ilgili (yüz-omuz-üst vücut) oldugu icin bu konularda biraz bilgim var, sorusu olan varsa burdan sorabilir cevaplamaya calisirim.
Hocam cok guzel anlamitmissiniz yapilamazdan kastim bu kadar kucuk olcekli bir is icin bir genellemeydi tensorflow ve tesseract ocr ile yapilabilir ornekler uzerinde bende calistim ama sadece sizin de dediginiz gibi 0-9 kadar tanimasi icin binlerce ornekler ile traning yapmissiniz tamami el yazisiyla yazilmis bir metni okumak icin cok buyuk bi traning ve saglam ekran kartli makineler gerekecektir. Maliyet acisindan dusununce kucuk bi isletme icin fazla kacacaktir. Yorumunuz ve konu hakkinda bilginiz cok iyi cok begendim. İyi calismalar kolay gelsin.