Dissertation/ Thesis
Načítání dat z tištěných dokladů ; Data extraction from document scans
العنوان: | Načítání dat z tištěných dokladů ; Data extraction from document scans |
---|---|
المؤلفون: | Macháč, Bohuslav |
المساهمون: | Kolomazník, Jan, Krajíček, Václav |
بيانات النشر: | Univerzita Karlova, Matematicko-fyzikální fakulta |
سنة النشر: | 2011 |
المجموعة: | Charles University: CU Digital repository / Univerzita Karlova: Digitální repozitář UK |
مصطلحات موضوعية: | OCR, digitální zpracování obrazu, rozpoznávání textu, digital image processing, text recognition |
الوصف: | V této práci jsem vyvinul aplikaci schopnou extrahovat data z naskenovaných dokumentů. Pro optické rozpoznávání znaků jsem použil externí OCR engine Tesseract, který lze snadno vyměnit. Pro jednotlivé doklady používám šablony s informacemi o datových oblastech a jejich datových typech. Pokusil jsem se automatizovat většinu kroků nutných pro extrakci dat a vytvoření nové datové šablony. Uživatel má možnost opravit nebo změnit výsledky těchto kroků. Pro výstup z aplikace jsem implementoval komponenty, které exportují data do formátů XML, HTML a do obyčejného textu. Další komponenty mohou být snadno přidány, aby přizpůsobily aplikaci různým použitím. ; In this work I developed an application capable of extracting data from scanned documents. For optical character recognition, I used external OCR engine Tesseract, but it can be easily changed. I use document templates, which have informations about data areas and its data types. I tried to automatize most of the steps which are required to extract data or create new data template. User can improve or change results of these steps. For export from application I implemented components, which export data to XML, HTML or plain text. Another components can be easily added, to adapt application for various uses. ; Department of Software and Computer Science Education ; Katedra softwaru a výuky informatiky ; Faculty of Mathematics and Physics ; Matematicko-fyzikální fakulta |
نوع الوثيقة: | bachelor thesis |
وصف الملف: | application/pdf |
اللغة: | unknown Czech |
Relation: | http://hdl.handle.net/20.500.11956/38691; 108971; 001371385; 990013713850106986 |
الاتاحة: | https://hdl.handle.net/20.500.11956/38691 |
رقم الانضمام: | edsbas.3CE24CAC |
قاعدة البيانات: | BASE |
الوصف غير متاح. |