Academic Journal
МЕТОД РАСПОЗНАВАНИЯ СТРУКТУРЫ ТАБЛИЦЫ В ЭЛЕКТРОННЫХ ТАБЛИЧНЫХ ДОКУМЕНТАХ
العنوان: | МЕТОД РАСПОЗНАВАНИЯ СТРУКТУРЫ ТАБЛИЦЫ В ЭЛЕКТРОННЫХ ТАБЛИЧНЫХ ДОКУМЕНТАХ |
---|---|
المؤلفون: | КЛИМЕНКОВ С.В., ТКЕШЕЛАШВИЛИ Н.М., ДЕРГАЧЕВ А.М. |
بيانات النشر: | Закрытое акционерное общество Научно-исследовательский институт "Центрпрограммсистем" |
سنة النشر: | 2016 |
المجموعة: | CyberLeninka (Scientific Electronic Library) / Научная электронная библиотека «Киберленинка» |
مصطلحات موضوعية: | АВТОМАТИЧЕСКАЯ ОБРАБОТКА ДОКУМЕНТОВ,РАСПОЗНАВАНИЕ СТРУКТУРЫ,ЭЛЕКТРОННЫЕ ТАБЛИЦЫ |
الوصف: | Одним из популярных средств хранения деловой информации являются электронные таблицы. К сожалению, информация в них плохо структурирована. Определение структуры таблицы необходимо для корректного извлечения из нее данных в процессе автоматической обработки. В работе предложен метод распознавания структуры таблицы, основанный на визуальном подходе. Он опирается на тот факт, что в момент создания электронной таблицы заголовки, данные и агрегатные ячейки представляются таким образом, чтобы человек мог без проблем отличить их друг от друга. В разработанном методе типы данных и свойства форматирования ячеек представляются в виде набора битовых карт, рассматриваемых как графическое представление таблицы. Полагаясь на визуальные различия, позволяющие человеку отличать одни структурные элементы таблицы от других, а также на статистические зависимости внутри битовых карт, метод определяет ориентацию таблицы, расположение заголовков и данных и формирует структуру в виде набора объектов. Для определения направления таблицы используется метод Хафа. Для проверки корректности распознавания был выбран набор тестовых электронных таблиц, содержащих деловую информацию. Метод показал высокую точность: из более чем 100 тестовых файлов, содержащих более 20 000 строк, корректность распознавания составила 92 %.Spreadsheets are one of the most popular means to collect and represent big amount of business data. Unfortunately, the structure of spreadsheets in most cases is not defined. As a result, processing tools can not retrieve data automatically, without human interaction. When spreadsheets are being created, people make visual formatting to properly present headers, data and aggregation cells. The proposed method recognizes a spreadsheet structure based on visual elements distinction in a cell formatting as well as people do. The developed software based on this method takes the spreadsheet as an input and produces an output based on a simple object notation form. The method contains several steps. Firstly, a working area is ... |
نوع الوثيقة: | text |
وصف الملف: | text/html |
اللغة: | unknown |
الاتاحة: | http://cyberleninka.ru/article/n/metod-raspoznavaniya-struktury-tablitsy-v-elektronnyh-tablichnyh-dokumentah http://cyberleninka.ru/article_covers/16966203.png |
رقم الانضمام: | edsbas.51E93F3E |
قاعدة البيانات: | BASE |
الوصف غير متاح. |