Главная      Учебники - Разные     Лекции (разные) - часть 22

 

Поиск            

 

Перечень сокращений, символов и специальных терминов 8

 

             

Перечень сокращений, символов и специальных терминов 8


Содержание

................................................................................................................................... 6

Перечень сокращений, символов и специальных терминов .......................................... 8

Введение................................................................................................................................ 9

1 Оптическое распознавание текста................................................................................ 10

1.1 Понимание изображения документа..................................................................... 10

1.1.1 Анализ проекционных профилей.................................................................. 11

1.1.2 Преобразование Хафа..................................................................................... 11

1.1.3 Кластеризация ближайших соседей.............................................................. 12

1.1.4 Корреляция строк............................................................................................ 12

1.1.5 Другие методы................................................................................................. 13

1.2 Логический анализ разметки................................................................................. 13

1.3 Оптическое распознавание символов................................................................... 14

1.4 Применение нейронных сетей для оптического распознавания символов...... 17

1.4.1 Перцептрон...................................................................................................... 17

1.4.1.1 Классификация перцептронов............................................................... 20

1.4.1.2 Обучение перцептронов......................................................................... 22

1.4.1.2.1 Обучение с пощрением.................................................................... 23

1.4.1.2.2 Обучение без поощрения................................................................. 24

1.4.1.2.3 Метод обратного распространения ошибки.................................. 25

1.4.1.3 Ограничения перцептронов................................................................... 25

1.4.1.4 Применение перцептронов для оптического распознавания символов 27

1.4.2 Сети Джордана и Элмана............................................................................... 28

1.4.2.1 Применение сетей Джордана и Элмана для OCR................................ 29

1.4.3 Сети Хопфилда и Хэмминга.......................................................................... 30

1.4.3.1 Архитектура сети Хопфилда.................................................................. 31

1.4.3.2 Обучение сетей Хопфилда...................................................................... 33

1.4.3.3 Процесс работы сетей Хопфилда и Хэмминга..................................... 37

1.4.3.3.1 Синхронный режим работы сети................................................... 40

1.4.3.3.2 Асинхронный режим работы сети................................................. 41

1.4.3.4 Ограничения сетей Хопфилда и Хэмминга.......................................... 43

1.4.3.5 Применение сетей Хопфилда и Хэмминга для оптического распознавания символов................................................................................................................................ 43

1.4.4 Сети Ворда....................................................................................................... 44

1.4.5 Сети Кохонена................................................................................................. 44

1.4.6 RBF-сети........................................................................................................... 45

1.5 Выводы..................................................................................................................... 46

2 Неокогнитрон.................................................................................................................. 47

2.1 Архитектура неокогнитрона.................................................................................. 47

2.2 Обучение неокогнитрона....................................................................................... 52

2.3 Выводы..................................................................................................................... 55

3 Модульная система распознавания текста................................................................... 56

3.1 Выводы..................................................................................................................... 59

4 Программная реализация............................................................................................... 60

4.1 Генерация обучающих последовательностей....................................................... 60

4.2 Обучение сети и распознавание текста................................................................ 63

4.3 Выводы..................................................................................................................... 66

5 Экспериментальное исследование разработанной системы распознавания текста 67

5.1 Выводы..................................................................................................................... 69

6 Организационно-экономическая часть......................................................................... 70

Введение......................................................................................................................... 70

6.1 Описание продукта................................................................................................. 70

6.2 Анализ рынка сбыта............................................................................................... 71

6.3 Конкурентоспособность......................................................................................... 71

6.4 Маркетинг................................................................................................................ 72

6.5 План работ............................................................................................................... 73

6.6 Организационный план......................................................................................... 74

6.7 Расчет договорной цены........................................................................................ 78

6.8 Оценка экономической целесообразности проведения работ............................ 81

Выводы по главе «Организационно-экономическая часть»..................................... 81

7 Экологическая безопасность и безопасность жизнедеятельности ............................ 83

Введение......................................................................................................................... 83

7.1 Требования к производственным процессам и оборудованию.......................... 83

7.2 Требования к отоплению, вентиляции и кондиционированию воздуха.......... 86

7.3 Требования к организации рабочих мест............................................................. 87

7.4 Требования к естественному и искусственному освещению............................. 90

7.5 Требования к шуму и вибрации............................................................................. 92

7.6 Требования к организации режима труда и отдыха............................................ 92

7.7 Организация оптимального рабочего места программиста............................... 95

7.8 Расчет освещенности.............................................................................................. 96

Выводы по главе «Экологическая безопасность и безопасность жизнедеятельности» 99

Заключение........................................................................................................................ 101

Литература......................................................................................................................... 102


Объем расчетно-пояснительной записки составил 103 страницы, из которых специальная часть – 59 страниц, организационно-экономическая часть – 12 страниц и экологическая безопасность и безопасность жизнедеятельности – 17 страниц. Число страниц приложения с исходным текстом программы составило 123 страницы. Число иллюстраций в расчетно-пояснительной записке – 10, таблиц – 4.

В рамках дипломного проекта была разработана система распознавания текста СиРТ.

В первом разделе дипломного проекта был проведен анализ принципов построения систем оптического распознавания текста и обзор существующих архитектур нейронных сетей и их применимости для решения задач распознавания символов.

Во втором разделе детально рассматривается архитектура нейронной сети «неокогнитрон» и процесс обучения этой сети.

В третьем разделе дипломного проекта содержится описание модульной системы распознавания текста. Предложены различные комбинации модулей для изменения функциональности системы.

В четвертом разделе дипломного проекта описана программная реализация предложенной системы и её пользовательский интерфейс

В пятом разделе дипломного проекта программная реализация предложенной системы подвергается экспериментальному исследованию, приведены результаты этого исследования.

Далее, в восьмой и девятой главах представлены разделы по организационно-экономической части и части экологии безопасности жизнедеятельности. Здесь приведен бизнес-план по внедрению данного проекта, рассчитана его оценочная стоимость. В части безопасности жизнедеятельности спроектировано оптимальное рабочее место программиста.

В конце пояснительной записки приведено приложение с текстом разработанного программного продукта, а также обучающая и тестирующая последовательности в полном объёме.

Перечень сокращений, символов и специальных терминов

OCR – Optical Character Recognition, Оптическое Распознавание Символов;

ПО – программное обеспечение;

СОПО — свободное и открытое программное обеспечение — ПО, которое распространяется с условием передачи каждому пользователю прав на запуск/использование ПО, адаптацию/модификацию ПО, распространение ПО и распространение модифицированных версий ПО. СОПО гарантирует передачу этих прав каждому пользователю и делает невозможным отчуждение этих прав. Открытость подразумевает гарантию предоставления исходного кода программы;

СиРТ — Система Распознавания Текста — название разработанной в рамках проекта системы;

ИНС — искусственная нейронная сеть.

Введение

Оптическое распознавание символов (Optical Character Recognition, OCR) – это механическое или электронное преобразование изображения рукописного или отпечатанного текста (обычно полученного путём сканирования) в текст, поддающийся обработке текстовыми процессорами.

Оптическое распознавание текста — более общее понятие, которое включает в себя не только распознавание собственно символов, но и анализ разбивки страниц и выделение нетекстовых элементов (рисунки, таблицы). Часто под OCR подразумевают распознавание текста и называют системы распознавания текста OCR-системами.

Проблема OCR становится всё более актуальной в связи с активным внедрением цифровой вычислительной техники и широким использованием текстовых процессоров. Уже существует ряд систем, способных распознавать печатный текст с достаточно высокой эффективностью, однако проблема распознавания рукописного текста остаётся предметом активных научных исследований в областях распознавания образов, искусственного интеллекта и машинного зрения. Однако некоторые решения, предлагаемые для распознавания рукописного текста, могут быть применены и для распознавания печатного текста. Целью данной работы является разработка новой системы распознавания текста, которая использует наиболее передовые алгоритмы распознавания образов, обладает гибкой структурой и может распространяться в качестве СОПО.

1 Оптическое распознавание текста

Проблема распознавания текста обычно решается в три этапа:

1) Выделение текста из изображения — включает в себя определение угла наклона страницы, выделение абзацев, удаление декоративной графики, определение таблиц и так далее

2) Распознавание символов текста — собственно OCR, включает в себя выделение характерных черт и классификацию образов

3) Распознавание слов текста — составление слов из распознанных символов

На каждом этапе для решения проблемы требуются разные средства, которые в совокупности образуют систему распознавания текста. В зависимости от специфики задачи (печатный или рукописный текст, язык текста и т.д.) разные средства применяются на разных этапах.

1.1 Понимание изображения документа

Большинство техник анализа изображения можно разделить на несколько групп, основываясь на используемых в них основных подходах:

1)Анализ проекционных профилей

2)Преобразование Хафа

3)Кластеризация связанных компонентов

4)Корелляция строк

5)Другие

Существуют также техники, основанные на градиентном анализе, анализе спектра Фурье, использовании морфологических преобразований и на обнаружении пустых строк.

Приведённые подходы применяются для определения угла наклона текста и декомпозиции страницы (деления страницы на регионы).

1.1.1 Анализ проекционных профилей

Этот подход отталкивается от предположения о том, что текст выстроен вдоль параллельных прямых линий. Принципиальная схема предполагает расчёт проекционного профиля по каждому углу наклона, определение функции премиума и выбор такого угла, который приводит её в оптимальное состояние. Подход требует относительно большое количество вычислительной мощности, поэтому было предложено несколько упрощённых вариантов, которые либо уменьшают время расчёта профилей, или оптимизируют стратегию поиска оптимума.

1.1.2 Преобразование Хафа

Эти техники основаны на наблюдении того, что текст отличается выравниванием символов, и что строки обычно параллельны друг другу. Для каждого чёрного пикселя изображения находится соответствующая кривая в параметрическом пространстве , пространстве Хафа, с помощью преобразования . Угловое разрешение метода зависит от разрешения оси . Сложность — линейна относительно числа преобразовывающихся точек и требуемого углового разрешения.

Срихари (Srihari) и Говиндараю (Govindaraju) применяют эту технику к бинарному изображению участка документа, который гарантированно содержит лишь текст, и только под одним углом наклона. Каждый чёрный пиксель отображается в пространство Хафа, и наклон определяется как угол в параметрическом пространстве, дающий максимальную сумму квадратов градиента по .

Для ускорения расчётов был предложен ряд вариантов, в которых происходит меньшее число отображений. Это достигается либо ограничением области анализа, либо ограничением пикселей неким подмножеством представителей.

1.1.3 Кластеризация ближайших соседей

Методы этого класса нацелены на использование общего предположения о том, что символы в строке выровнены и расположены близко друг к другу. Они характеризуется обработкой снизу вверх, которая начинается с множества объектов, связанных компонентов или представляющих их точек, и используют их взаимные расстояния и пространственные отношения для оценки угла наклона.

1.1.4 Корреляция строк

Делая предположение о том, что повёрнутые текстовые регионы представляют собой гомогенную горизонтальную структуру, эти подходы нацелены на оценку наклона путём измерения вертикального отклонения в изображении.

Акияма (Akiyama) и Хагита (Hagita) описывают быстрый метод определения наклона: документ делится на несколько вертикальных полос одинаковой ширины. Вычисляются горизонтальные проекционные профили полос, а также сдвиги, дающие лучшую корреляцию одной проекции с последующей. Наклон определяется как обратный тангенс отношения среднего сдвига и ширины полосы.

1.1.5 Другие методы

Также существуют методы, основанные на градиентном направленном анализе, преобразовании Фурье, на открытых и закрытых морфологических преобразованиях, техники основанные на размытии, техники классификации блоков и другие.

1.2 Логический анализ разметки

Логический анализ состоит в охарактеризовании блоков изображения и определении их отношений в соответствии с некоей априори известной моделью. Техники логического анализа обычно используют стандартные (SGML, ODA) или широко распространённые (RTF, PostScript) форматы представления разметки.

Основными техниками логического анализа являются

· Трансформация дерева — формирует дерево, отражающее логическую и геометрическую структуру документа

· Язык описания — структура документа представляется в виде описания на специальном языке

· Областные техники — методы разделения проблемы структурирования на несколько под-проблем, каждую из которых решает специализированная процедура, вносящая свой вклад в общую область данных

· Синтаксический подход — определяет структуру документа при помощи формальных грамматик (обычно — контекстно-независимых).

· Скрытые марковские модели

· Обучение — методы обучения необходимы для адаптации систем к различным условиям работы (все другие техники анализа подразумевают наличие фиксированных параметров и не включают в себя обучение)

· Интерактивные системы — методы, основанные на комбинации автоматического определения разметки и интерактивных запросов к пользователю, которые производятся для разрешения неясных ситуаций

1.3 Оптическое распознавание символов

Л.Н. Ясницкий выделяет три основных класса методов распознавания символов[5]:

· Шаблонный метод — основан на сравнении изображения символа с имеющимся в памяти шаблоном. Требует сложных преобразований и вычислений для компенсации деформации символов.

· Структурный метод — символ представляется графом, узлами которого являются детали символа (прямые линии, участки окружностей), а дугами — пространственные отношения между ними. Использует методы теории графов.

· Признаковый метод — основан на выделении неких признаков изображения символа. Набор признаков представляет из себя n-мерный вектор, который сравнивается с эталонными векторами для определения класса символа

Если рассматривать проблему глубже[1], то она состоит из двух частей: выделение характерных черт их классификация. В шаблонном методе обе части объединены в одну, но в остальных они чётко разделены. Для решения обеих частей проблемы обычно применяются разные методы. Методы выделения характерных черт:

· Моменты — использует такие понятия как контур, центр масс, момент вращения. Используются геометрические моменты, моменты Цернике, моменты Лежандра, моменты Чебышева

· Гистограммы

· Направленные черты — использует геометрические преобразования для выделения в изображении штрихов, имеющих схожие углы наклона. Множество штрихов становится множеством характерных черт

· Преобразование Хафа

· Скелетизация — преобразование линий изображения в векторный скелет. Длины и относительные углы наклона векторов являются характерными чертами

· Дескрипторы Фурье — представление контура изображения в частотной области

· Аппроксимация — аналог скелетизации, но вместо векторов используются кривые или контуры

· Топологические черты — выделение концов линий, перекрестий, развилок.

· Линейные преобразования — метод главных компонент, линейный дискриминантный анализ

· Ядра — методы преобразования сложных нелинейных задач в низкоуровневые линейные задачи с помощью ядер отображений

Методы классификации символов:

· Статистические — основаны на теории вероятности

· Нейросетевые — используют нейросети различной топологии для классификации набора выделенных характерных черт

· Метод опорных векторов — перевод исходных векторов в пространство более высокой размерности и поиск разделяющей гиперплоскости с максимальным зазором в этом пространстве

· Структурные — основаны на сравнении структуры изображения с шаблоном

· Смешанные — комбинация из нескольких методов

1.4 Применение нейронных сетей для оптического распознавания символов

Исходя из изложенного в предыдущем разделе, применение нейронных сетей при распознавании символов возможно только после решения задачи выделения характерных черт. После того, как черты выделены, их можно подать на вход нейронной сети и определить класс символа, характеризующегося этими чертами. Однако само определение того, какие именно черты следует искать, сколько их будет и в каком виде они будут подаваться на вход нейронной сети — задача нетривиальная. Так же нетривиальной является задача определения числа слоёв и числа нейронов в нейронной сети (для тех сетей, к которым эти понятия применимы). Поэтому применение большинства нейронных сетей для эффективного распознавания символов достаточно затруднительно.

1.4.1 Перцептрон

Перцептрон — математическая и компьютерная модель восприятия информации мозгом (кибернетическая модель мозга), предложенная Фрэнком Розенблаттом в 1957 году и реализованная в виде электронной машины «Марк-1» в 1960 году. Перцептрон стал одной из первых моделей нейросетей, а «Марк-1» — первым в мире нейрокомпьютером. Несмотря на свою простоту, перцептрон способен обучаться и решать довольно сложные задачи.

Перцептрон состоит из трёх типов элементов: поступающие от сенсоров сигналы передаются ассоциативным элементам, а затем реагирующим элементам. Таким образом, перцептроны позволяют создать набор «ассоциаций» между входными стимулами и необходимой реакцией на выходе. В биологическом плане это соответствует преобразованию, например, зрительной информации в физиологический ответ от двигательных нейронов. Согласно современной терминологии, перцептроны могут быть классифицированы как искусственные нейронные сети:

· с одним скрытым слоем;

· с пороговой передаточной функцией;

· с прямым распространением сигнала.

Элементарный перцептрон состоит из элементов 3-х типов: S-элементов, A-элементов и одного R-элемента (см. Рис. 1). S-элементы — это слой сенсоров, или рецепторов. В физическом воплощении они соответствуют, например, светочувствительным клеткам сетчатки глаза или фоторезисторам матрицы камеры. Каждый рецептор может находиться в одном из двух состояний — покоя или возбуждения, и только в последнем случае он передаёт единичный сигнал в следующий слой, ассоциативным элементам.

A-элементы называются ассоциативными, потому что каждому такому элементу, как правило, соответствует целый набор (ассоциация) S-элементов. A-элемент активизируется, как только количество сигналов от S-элементов на его входе превысило некоторую величину θ. Таким образом, если набор соответствующих S-элементов располагается на сенсорном поле в форме буквы «Д», A-элемент активизируется, если достаточное количество рецепторов сообщило о появлении «белого пятна света» в их окрестности, то есть A-элемент будет как бы ассоциирован с наличием/отсутствием буквы «Д» в некоторой области.

Сигналы от возбудившихся A-элементов, в свою очередь, передаются в сумматор R, причём сигнал от i-го ассоциативного элемента передаётся с коэффициентом wi. Этот коэффициент называется весом A—R связи.

Так же как и A-элементы, R-элемент подсчитывает сумму значений входных сигналов, помноженных на веса (линейную форму). R-элемент, а вместе с ним и элементарный перцептрон, выдаёт «1», если линейная форма превышает порог θ, иначе на выходе будет «−1». Математически функцию, реализуемую R-элементом, можно записать так:

(1)

Обучение элементарного перцептрона состоит в изменении весовых коэффициентов связей A—R. Веса связей S—A (которые могут принимать значения {−1; 0; +1}) и значения порогов A-элементов выбираются случайным образом в самом начале и затем не изменяются. (Описание алгоритма см. ниже.)

После обучения перцептрон готов работать в режиме распознавания или обобщения. В этом режиме перцептрону предъявляются не знакомые перцептрону объекты, и перцептрон должен установить, к какому классу они принадлежат. Работа перцептрона состоит в следующем: при предъявлении объекта возбудившиеся A-элементы передают сигнал R-элементу, равный сумме соответствующих коэффициентов . Если эта сумма положительна, то принимается решение, что данный объект принадлежит к первому классу, а если она отрицательна — то второму.

1.4.1.1 Классификация перцептронов

Понятие перцептрона имеет интересную, но незавидную историю. В результате неразвитой терминологии нейронных сетей прошлых лет, резкой критики и непонимания задач исследования перцептронов, а иногда и ложного освещения прессой, изначальный смысл этого понятия исказился. Сравнивая разработки Розенблатта и современные обзоры и статьи, можно выделить 4 довольно обособленных класса перцептронов:

· Перцептрон с одним скрытым слоем - это классический перцептрон, которому посвящена бо́льшая часть книги Розенблатта, и рассматриваемый в данной статье: у него имеется по одному слою S-, A- и R-элементов.

· Однослойный перцептрон - это модель, в которой входные элементы напрямую соединены с выходными с помощью системы весов. Является простейшей сетью прямого распространения — линейным классификатором, и частным случаем классического перцептрона, в котором каждый S-элемент однозначно соответствует одному A-элементу, S—A связи имеют вес +1 и все A-элементы имеют порог = 1. Однослойные перцептроны фактически являются формальными нейронами, то есть пороговыми элементами Мак-Каллока — Питтса. Они имеют множество ограничений, в частности, они не могут идентифицировать ситуацию, когда на их входы поданы разные сигналы («задача XOR», см. ниже).

· Многослойный перцептрон (по Розенблатту) - это перцептрон, в котором присутствуют дополнительные слои A-элементов. Его анализ провёл Розенблатт в третьей части своей книги.

· Многослойный перцептрон (по Румельхарту) - это перцептрон, в котором присутствуют дополнительные слои A-элементов, причём, обучение такой сети проводится по методу обратного распространения ошибки, и обучаемыми являются все слои перцептрона (в том числе S—A). Является частным случаем многослойного перцептрона Розенблатта.

В настоящее время в литературе под термином «перцептрон» понимается чаще всего однослойный перцептрон (англ. Single-layer perceptron), причём, существует распространённое заблуждение, что именно этот простейший тип моделей предложил Розенблатт. В противоположность однослойному ставят «многослойный перцептрон» (англ. Multilayer perceptron), опять же, чаще всего подразумевая многослойный перцептрон Румельхарта, а не Розенблатта. Классический перцептрон в такой дихотомии относят к многослойным.

1.4.1.2 Обучение перцептронов

Важным свойством любой нейронной сети является способность к обучению. В своей книге Розенблатт пытался классифицировать различные алгоритмы обучения перцептрона, называя их системами подкрепления.

Система подкрепления - это любой набор правил, на основании которых можно изменять с течением времени матрицу взаимодействия (или состояние памяти) перцептрона.

Описывая эти системы подкрепления и уточняя возможные их виды, Розенблатт основывался на идеях Д. Хебба об обучении, предложенных им в 1949 году, которые можно перефразировать в следующее правило, состоящее из двух частей:

· Если два нейрона по обе стороны синапса (соединения) активизируются одновременно (то есть синхронно), то прочность этого соединения возрастает.

· Если два нейрона по обе стороны синапса активизируются асинхронно, то такой синапс ослабляется или вообще отмирает.

1.4.1.2.1 Обучение с пощрением

Классический метод обучения перцептрона — это метод коррекции ошибки. Он представляет собой такой вид обучения с поощрением, при котором вес связи не изменяется до тех пор, пока текущая реакция перцептрона остается правильной. При появлении неправильной реакции вес изменяется на единицу, а знак (+/-) определяется противоположным от знака ошибки.

Допустим, мы хотим обучить перцептрон разделять два класса объектов так, чтобы при предъявлении объектов первого класса выход перцептрона был положителен (+1), а при предъявлении объектов второго класса — отрицательным (−1). Для этого выполним следующий алгоритм:

1. Случайным образом выбираем пороги для A-элементов и устанавливаем связи S—A (далее они изменяться не будут).

2. Начальные коэффициенты полагаем равными нулю.

3. Предъявляем обучающую выборку: объекты (например, круги либо квадраты) с указанием класса, к которым они принадлежат.

◦ Показываем перцептрону объект первого класса. При этом некоторые A-элементы возбудятся. Коэффициенты , соответствующие этим возбуждённым элементам, увеличиваем на 1.

◦ Предъявляем объект второго класса и коэффициенты тех A-элементов, которые возбудятся при этом показе, уменьшаем на 1.

4. Обе части шага 3 выполним для всей обучающей выборки. В результате обучения сформируются значения весов связей .

Теорема сходимости перцептрона, описанная и доказанная Ф. Розенблаттом (с участием Блока, Джозефа, Кестена и других исследователей, работавших вместе с ним), показывает, что элементарный перцептрон, обучаемый по такому алгоритму, независимо от начального состояния весовых коэффициентов и последовательности появления стимулов всегда приведет к достижению решения за конечный промежуток времени.

1.4.1.2.2 Обучение без поощрения

Кроме классического метода обучения перцептрона Розенблатт также ввёл понятие об обучении без поощрения, предложив следующий способ обучения:

Альфа-система подкрепления - это система подкрепления, при которой веса всех активных связей , которые ведут к элементу , изменяются на одинаковую величину , а веса неактивных связей за это время не изменяются.

Затем, с разработкой понятия многослойного перцептрона, альфа-система была модифицирована и её стали называть дельта-правило. Модификация была проведена с целью сделать функцию обучения дифференцируемой (например, сигмоидной), что в свою очередь нужно для применения метода градиентного спуска, благодаря которому возможно обучение более одного слоя.

1.4.1.2.3 Метод обратного распространения ошибки

Для обучения многослойных сетей рядом учёных, в том числе Д. Румельхартом, был предложен градиентный алгоритм обучения с поощрением, проводящий сигнал ошибки, вычисленный выходами перцептрона, к его входам, слой за слоем. Сейчас это самый популярный метод обучения многослойных перцептронов. Его преимущество в том, что он может обучить все слои нейронной сети, и его легко просчитать локально. Однако этот метод является очень долгим, к тому же, для его применения нужно, чтобы передаточная функция нейронов была дифференцируемой. При этом в перцептронах пришлось отказаться от бинарного сигнала, и пользоваться на входе непрерывными значениями.

1.4.1.3 Ограничения перцептронов

Сам Розенблатт выделил два фундаментальных ограничения для трёхслойных перцептронов (состоящих из одного S-слоя, одного A-слоя и R-слоя): отсутствие у них способности к обобщению своих характеристик на новые стимулы или новые ситуации, а также неспособность анализировать сложные ситуации во внешней среде путём расчленения их на более простые.

В 1969 году Марвин Минский и Сеймур Паперт опубликовали книгу «Перцептроны», где математически показали, что перцептроны, подобные розенблаттовским, принципиально не в состоянии выполнять многие из тех функций, которые хотели получить от перцептронов. К тому же, в то время была слабо развита теория о параллельных вычислениях, а перцептрон полностью соответствовал принципам таких вычислений. По большому счёту, Минский показал преимущество последовательных вычислений перед параллельным в определённых классах задач, связанных с инвариантным представлением. Его критику можно разделить на три темы:

1. Перцептроны имеют ограничения в задачах, связанных с инвариантным представлением образов, то есть независимым от их положения на сенсорном поле и относительно других фигур. Такие задачи возникают, например, если нам требуется построить машину для чтения печатных букв или цифр так, чтобы эта машина могла распознавать их независимо от положения на странице (то есть чтобы на решение машины не оказывали влияния перенос, поворот, растяжение-сжатие символов); или если нам нужно определить из скольких частей состоит фигура; или находятся ли две фигуры рядом или нет. Минским было доказано, что этот тип задач невозможно полноценно решить с помощью параллельных вычислений, в том числе — перцептрона.

2. Перцептроны не имеют функционального преимущества над аналитическими методами (например, статистическими) в задачах, связанных с прогнозированием. Тем не менее, в некоторых случаях они представляют более простой и производительный метод анализа данных.

3. Было показано, что некоторые задачи в принципе могут быть решены перцептроном, но могут потребовать нереально большого времени или нереально большой памяти.

1.4.1.4 Применение перцептронов для оптического распознавания символов

Как уже было сказано, перцептроны плохо подходят для решения OCR-задач. Для применения перцептрона в решении OCR-задачи, следует предварительно решить задачу пред-обработки изображений (выделения характерных черт). Однако даже после пред-обработки данных, перцептрон не способен учитывать взаимное положение характерных черт.

1.4.2 Сети Джордана и Элмана

Этот вид сетей получается из многослойного перцептрона, если на его вход подать помимо входного вектора выходной с задержкой на один или несколько тактов.

В первых рекуррентных сетях главной идеей было дать сети видеть свой выходной образ на предыдущем шаге. У такой сети только часть рецепторов принимает сигналы из окружающего мира, на другие рецепторы приходит выходной образ из предыдущего момента времени. Рассмотрим прохождение последовательности сигналов через сеть. Сигнал поступает на группу рецепторов соединенных с внешним миром (INPUT) и проходит в скрытый слой (HIDDEN). Преобразованный скрытым слоем сигнал пойдет на выходной слой (OUTPUT) и выйдет из сети, а его копия попадет на задержку. Далее в сеть, на рецепторы, воспринимающие внешние сигналы, поступает второй образ, а на контекстную группу рецепторов (CONTEXT) – выходной образ с предыдущего шага из задержки. Далее со всех рецепторов сигнал пойдет в скрытый слой, затем на выходной (см. рис.2).


Сети Элмана подобны сетям Джордана, однако в них контекстный слой получают сигналы не от выходного слоя, а от скрытого слоя.

1.4.2.1 Применение сетей Джордана и Элмана для OCR

Сети Джордана и Элмана способны учитывать не только входной сигнал в настоящий момент времени, но и предшествующие входные сигналы. Благодаря этому они гораздо лучше приспособлены для прогнозирования и других задач, в которых требуется учитывать предыдущую информацию. Однако распознавание символов не относится к такому классу задач, поэтому сети Джордана и Элмана не подходят для распознавания символов.

1.4.3 Сети Хопфилда и Хэмминга

Нейронная сеть Хопфилда — полносвязная нейронная сеть с симметричной матрицей связей. В процессе работы динамика таких сетей сходится (конвергирует) к одному из положений равновесия. Эти положения равновесия являются локальными минимумами функционала, называемого энергией сети (в простейшем случае — локальными минимумами отрицательно определённой квадратичной формы на n-мерном кубе). Сеть может быть использована как автоассоциативная память, как фильтр, а также для решения некоторых задач оптимизации. В отличие от многих нейронных сетей, функционирующих до получения ответа через определённое количество тактов, сети Хопфилда функционируют до достижения равновесия, когда следующее состояние сети в точности равно предыдущему: начальное состояние является входным образом, а при равновесии получают выходной образ.

Сеть Хэмминга — модификация сети Хопфилда. Вместо того, чтобы восстанавливать эталонный образ из представленного, она определяет расстояние Хэмминга между представленным образом и эталонными образами, после чего активизирует тот выходной нейрон, который соответствует эталонному образу наиболее близкому к представленному.

1.4.3.1 Архитектура сети Хопфилда

Нейронная сеть Хопфилда состоит из N искусственных нейронов. Каждый нейрон системы может принимать одно из двух состояний (что аналогично выходу нейрона с пороговой функцией активации):

(2)

Благодаря своей биполярной природе нейроны сети Хопфилда иногда называют спинами.

Взаимодействие спинов сети описывается выражением:

(3)

где элемент матрицы взаимодействий W, которая состоит из весовых коэффициентов связей между нейронами. В эту матрицу в процессе обучения записывается М «образов» — N-мерных бинарных векторов: .

Сеть Хопфилда с тремя нейронами представлена на Рис. 3.

Сеть Хэмминга состоит из двух слоев. Первый и второй слои имеют по m нейронов, где m – число образцов. Нейроны первого слоя имеют по n синапсов, соединенных со входами сети (образующими фиктивный нулевой слой). Нейроны второго слоя связаны между собой ингибиторными (отрицательными обратными) синаптическими связями. Единственный синапс с положительной обратной связью для каждого нейрона соединен с его же аксоном.


В сети Хопфилда матрица связей является симметричной = , а диагональные элементы матрицы полагаются равными нулю ( = 0), что исключает эффект воздействия нейрона на самого себя и является необходимым для сети Хопфилда, но не достаточным условием, устойчивости в процессе работы сети. Достаточным является асинхронный режим работы сети. Подобные свойства определяют тесную связь с реальными физическими веществами называемыми спиновыми стеклами.

1.4.3.2 Обучение сетей Хопфилда

Алгоритм обучения сети Хопфилда имеет существенные отличия в сравнении с такими классическими алгоритмами обучения перцептронов как метод коррекции ошибки или метод обратного распространения ошибки. Отличие заключается в том, что вместо последовательного приближения к нужному состоянию с вычислением ошибок, все коэффициенты матрицы рассчитываются по одной формуле, за один цикл, после чего сеть сразу готова к работе. Вычисление коэффициентов базируется на следующем правиле: для всех запомненных образов матрица связи должна удовлетворять уравнению

(4)

поскольку именно при этом условии состояния сети будут устойчивы - попав в такое состояние, сеть в нем и останется.

Некоторые авторы относят сеть Хопфилда к обучению без поощрения. Но это неверно, т.к. обучение без поощрения предполагает отсутствие информации о том, к каким классам нужно относить стимулы. Для сети Хопфилда без этой информации нельзя настроить весовые коэффициенты, поэтому здесь можно говорить лишь о том, что такую сеть можно отнести к классу оптимизирующих сетей (фильтров). Отличительной особенностью фильтров является то, что матрица весовых коэффициентов настраивается детерминированным алгоритмом раз и навсегда, и затем весовые коэффициенты больше не изменяются. Это может быть удобно для физического воплощения такого устройства, т.к. на схемотехническом уровне реализовать устройство с переменными весовыми коэффициентами на порядок сложнее.

В сети Хопфилда есть обратные связи и из-за этого нужно решать проблему устойчивости. Веса между нейронами в сети Хопфилда могут рассматриваться в виде матрицы взаимодействий . Было показано, что сеть с обратными связями является устойчивой, если ее матрица симметрична и имеет нули на главной диагонали. Имеется много устойчивых систем, например, все сети прямого распространения, а так же современные рекуррентные сети Джордана и Элмана, для которых не обязательно выполнять условие на симметрию. Но это происходит вследствие того, что на обратные связи наложены другие ограничения. В случае сети Хопфилда условие симметричности является необходимым, но не достаточным, в том смысле, что на достижение устойчивого состояния влияет еще и режим работы сети. Ниже будет показано, что только асинхронный режим работы сети гарантирует достижение устойчивого состояния сети, в синхронном случае возможно бесконечное переключение между двумя разными состояниями (такая ситуация называется динамическим аттрактором, в то время как устойчивое состояние принято называть статическим аттрактором).

Запоминаемые векторы должны иметь бинарный вид. После этого происходит расчет весовых коэффициентов по следующей формуле :

(5)

где - размерность векторов, – число запоминаемых выходных векторов; – номер запоминаемого выходного вектора; – i-я компонента запоминаемого выходного j-го вектора.

Это выражение может стать более ясным, если заметить, что весовая матрица W может быть найдена вычислением внешнего произведения каждого запоминаемого вектора с самим собой и суммированием матриц, полученных таким образом. Это может быть записано в виде

(6)

где – i-й запоминаемый вектор-строка.

Расчет этих весовых коэффициентов и называется обучением сети.

Как только веса заданы, сеть может быть использована для получения запомненного выходного вектора по данному входному вектору, который может быть частично неправильным или неполным. Для этого выходам сети сначала придают значения этого начального вектора. Затем сеть последовательно меняет свои состояния согласно формуле:

(7)

где F — функция активации, и - текущее и следующее состояния сети, до тех пор, пока состояния и не совпадут (или, в случае синхронного режима работы, не совпадут состояния с и одновременно с ). Именно этот процесс называется конвергенцией сети. Полученное устойчивое состояние Xi (статический аттрактор), или, возможно, в синхронном случае пара (динамический аттрактор), является ответом сети на данный входной образ.

Для сети Хэмминга на стадии инициализации весовым коэффициентам первого слоя и порогу активационной функции присваиваются следующие значения:

(8)

Здесь – i-ый элемент k-ого образца.

Весовые коэффициенты тормозящих синапсов во втором слое берут равными некоторой величине . Синапс нейрона, связанный с его же аксоном имеет вес +1.

1.4.3.3 Процесс работы сетей Хопфилда и Хэмминга

Так как сети с обратными связями имеют пути, передающие сигналы от выходов к входам, то отклик таких сетей является динамическим, т. е. после приложения нового входа вычисляется выход и, передаваясь по сети обратной связи, модифицирует вход. Затем выход повторно вычисляется, и процесс повторяется снова и снова. Для устойчивой сети последовательные итерации приводят к все меньшим изменениям выхода, пока в конце концов выход не становится постоянным. Для некоторых сетей процесс никогда не заканчивается, такие сети называют неустойчивыми. Проблема устойчивости будет рассмотрена в следующем разделе, а здесь мы рассмотрим основной цикл работы сети.

Как только веса заданы, сеть может быть использована для получения запомненного выходного вектора по данному входному вектору, который может быть частично неправильным или неполным. Для этого выходам сети сначала придают значения этого начального вектора. Затем сеть последовательно меняет свои состояния согласно формуле:

(9)

где - функция активации, и - текущее и следующее состояния сети, до тех пор, пока состояния и не совпадут (или, в случае синхронного режима работы, не совпадут состояния с и одновременно с X(t)). Именно этот процесс называется конвергенцией сети.

Это же можно описать так называемым локальным полем действующим на нейрон со стороны всех остальных нейронов сети:

(10)

После расчета локального поля нейрона это значение используется для расчета значения выхода через функцию активации, которая в данном случае является пороговой (с нулевым порогом). Соответственно, значение выхода нейрона i в текущий момент времени рассчитывается по формуле:

(11)

, где - весовой коэффициента между нейронами i и j, - значения выходов нейрона j в предыдущий момент времени.

Во время работы сети Хопфилда признаком нахождения решения является момент, когда достигается аттрактор, статический (когда на каждом следующем шаге повторяется устойчивое состояние ) или, возможно, динамический (когда до бесконечности чередуются два разных состояния ). Это конечное состояние сети и является ее реакцией на данный образ.

Обычно ответом является такое устойчивое состояние, которое совпадает с одним из запомненных при обучении векторов, однако при некоторых условиях (в частности, при слишком большом количестве запомненных образов) результатом работы может стать так называемый ложный аттрактор ("химера"), состоящий из нескольких частей разных запомненных образов, а также в синхронном режиме сеть может прийти к динамическому аттрактору. Обе эти ситуации в общем случае являются нежелательными, поскольку не соответствуют ни одному запомненному вектору - а соответственно, не определяют класс, к которому сеть отнесла входной образ.

Идея работы сети Хэмминга состоит в нахождении расстояния Хэмминга от тестируемого образа до всех образцов. Расстоянием Хэмминга называется число отличающихся битов в двух бинарных векторах. Сеть должна выбрать образец с минимальным расстоянием Хэмминга до неизвестного входного сигнала, в результате чего будет активизирован только один выход сети, соответствующий этому образцу.

Алгоритм функционирования сети Хэмминга следующий:

1. На входы сети подается неизвестный вектор , исходя из которого рассчитываются состояния нейронов первого слоя (верхний индекс в скобках указывает номер слоя):

(12)


После этого полученными значениями инициализируются значения аксонов второго слоя:

(13)

2. Вычислить новые состояния нейронов второго слоя:

(14)

и значения их аксонов:

(15)

Функция активации имеет вид порога, причем высота порога должна быть достаточно большой, чтобы любые возможные значения аргумента не приводили к насыщению.

3. Проверить, изменились ли выходы нейронов второго слоя за последнюю итерацию. Если да – перейди к шагу 2. Иначе – конец.

Для сети Хопфилда могут существовать две модификации отличающиеся по времени передачи сигнала: асинхронный и синхронный режимы.

1.4.3.3.1 Синхронный режим работы сети

Если работа сети моделируется на одном процессоре, то при синхронном режиме последовательно просматриваются нейроны, однако их состояния запоминаются отдельно и не меняются до тех пор, пока не будут пройдены все нейроны сети. Когда все нейроны просмотрены, их состояния одновременно (т.е. синхронно, отсюда и название) меняются на новые. Таким образом, достигается моделирование параллельной работы последовательным алгоритмом. При реально параллельном моделировании, этот режим фактически означает, что время передачи для каждой связи между элементами и одинаковое для каждой связи, что приводит к параллельной работе всех связей, они одновременно меняют свои состояния, основываясь только на предыдущем моменте времени. Наличие таких синхронных тактов, которые можно легко выделить и приводит к пониманию синхронного режима. При синхронном режиме возможно (хотя и далеко не всегда наблюдается) бесконечное чередование двух состояний с разной энергией - так называемый динамический аттрактор. Поэтому синхронный режим практически для сети Хопфилда не используется, и рассматривается лишь как основа для понимания более сложного асинхронного режима.

1.4.3.3.2 Асинхронный режим работы сети

Если моделировать работу сети как последовательный алгоритм, то в асинхронном режиме работы состояния нейронов в следующий момент времени меняются последовательно: вычисляется локальное поле для первого нейрона в момент t, определяется его реакция, и нейрон устанавливается в новое состояние (которое соответствует его выходу в момент t+1), потом вычисляется локальное поле для второго нейрона с учетом нового состояния первого, меняется состояние второго нейрона, и так далее - состояние каждого следующего нейрона вычисляется с учетом всех изменений состояний рассмотренных ранее нейронов.

По сути при последовательной реализации сети Хопфилда явно не видно в чем заключается асинхронность, но это видно если сеть Хопфилда реализовать с параллельными вычислениями. В этом случае асинхронный режим сети Хопфилда упрощен, и носит частный случай по сравнению с общим видом асинхронных сетей, где время передачи τij для каждой связи между элементами и свое, но постоянное. Чтобы рассмотреть работу сети при параллельной реализации, необходимо ввести понятие такта - как минимальное время за которое происходит передача сигнала по связи, т.е. при = 1. Тогда за промежуток времени между t и (t+1) происходит определенное количество тактов N. И именно в пределах времени из N тактов происходит асинхроность протекания сигналов и выполнения расчетов. То есть, например, когда нужно расчитать состояние нейрона №3 необходимо расчитать состояния нейрона №1 и состояния нейрона №2 и умножить это на соответствующие веса и . Но оказывается, для того чтобы рассчитать состояние нейрона №2 нам нужно знать обновленное состояние нейрона №1 и старое состояние нейрона №3, умножить их на веса и . Понятно, что физически не возможно рассчитать состояние нейрона №1 и состояние нейрона №2 за одно и то же время, так как состояние нейрона №2 зависит от состояния нейрона №1. Поэтому связь между нейроном №1 и нейроном №3 имеете время передачи = 2, и достигает нейрона №3 за два такта. Именное такое разное время передачи и позволяет говорить о сети Хопфилда как о сети с асинхронным режимом.

В асинхронном режиме невозможен динамический аттрактор - вне зависимости от количества запомненных образов и начального состояния, сеть непременно придет к устойчивому состоянию (статическому аттрактору).

1.4.3.4 Ограничения сетей Хопфилда и Хэмминга

К сожалению, у нейронной сети Хопфилда есть ряд недостатков.

· Относительно небольшой объем памяти, величину которого можно оценить выражением:

(16)

·
Попытка записи большего числа образов приводит к тому, что нейронная сеть перестает их распознавать.
То же справедливо и для сетей Хэмминга.

· Достижение устойчивого состояния не гарантирует правильный ответ сети. Это происходит из-за того, что сеть может сойтись к так называемым ложным аттракторам, иногда называемым "химерой" (как правило, химеры склеены из фрагментов различных образов).

1.4.3.5 Применение сетей Хопфилда и Хэмминга для оптического распознавания символов

Исходя из вышесказанного можно заключить, что сети Хопилда и Хэмминга не подходят для решения OCR-задач — ограниченный объём памяти не позволит запомнить необходимое количество символов. Сеть Хопфилда не подходит как таковая ещё и по той причине, что не имеет своей целью классификацию образа, в отличие от сети Хэмминга.

1.4.4 Сети Ворда

Сети Ворда по архитектуре подобны перцептронам, однако в них нейроны разделены на блоки, каждый из которых имеет свою собственную функцию активации, отличающуюся от функций активации других блоков. В плане решения OCR-задач сети Ворда принципиально не отличаются от перцептронов.

1.4.5 Сети Кохонена

Нейронные сети Кохонена — класс нейронных сетей, основным элементом которых является слой Кохонена. Слой Кохонена состоит из адаптивных линейных сумматоров («линейных формальных нейронов»). Как правило, выходные сигналы слоя Кохонена обрабатываются по правилу «победитель забирает всё»: наибольший сигнал превращается в единичный, остальные обращаются в ноль.

По способам настройки входных весов сумматоров и по решаемым задачам различают много разновидностей сетей Кохонена. Наиболее известные из них:

· Сети векторного квантования сигналов, тесно связанные с простейшим базовым алгоритмом кластерного анализа (метод динамических ядер или K-средних, то есть K-means)

· Самоорганизующиеся карты Кохонена (Self-Organising Maps, SOM)

· Сети векторного квантования, обучаемые с поощрением (Learning Vector Quantization)

Сети Кохонена применяются для отображения пространства входных образов размерности N в пространство выходных образов размерности M, где M < N (обычно M равно 2, чтобы пространство можно было представить на плоскости, тогда можно говорить о картах Кохонена). Поскольку сети Кохонена не решают ни задачу классификации образов, ни задачу выделения характерных черт, они бесполезны для процесса распознавания символов как такового (однако возможно применение сетей Кохонена для анализа разметки страницы).

1.4.6 RBF-сети

Сети радиальных базисных функций (Radial Basis Functions, RBF) – мощные средства интерполяции в многомерном пространстве. RBF – функция с критерием расстояния от центра. RBF применяются в нейронных сетях (обычно — многослойных перцептронах) вместо сигмоидной функции активации нейронов скрытого слоя. RBF-сети работают в два этапа. На первом этапе входные сигналы отображаются в RBF скрытого слоя. На втором этапе сигналы скрытого слоя преобразуются в выходные сигналы. Преобразование зависит от решаемой задачи: для решения регрессионных проблем выходные сигналы вычисляются как линейная комбинация сигналов скрытого слоя, при решении проблем классификации выходные сигналы также линейно комбинируются и пропускаются через сигмоидную функцию.

RBF-сети не страдают от проблем локального минимума, в отличие от многослойных перцептронов, благодаря тому, что в процессе обучения меняется лишь линейное отображение сигналов скрытого слоя на выходной слой. Однако RBF-сетям требуется хорошее покрытие пространства входных образов радиальными базисными функциями. Центры RBF определяются с учётом распределения входных данных, но без учёта предполагаемого результата. Поэтому может произойти напрасная трата ресурсов на тех областях пространства входных сигналов, которые не релевантны для обучения.

RBF-сети менее эффективны чем метод опорных векторов в задачах классификации, а в регрессионных задачах они конкурентноспособны лишь в случае малой размерности пространства входных данных.

1.5 Выводы

Большинство топологий нейронных сетей не походят для решения задачи оптического распознавания символов вообще, либо подходят только для решения половины задачи (классификации символов по характерным чертам).

2 Неокогнитрон

Для преодоления проблемы как распознавания, так и выделения характерных черт в изображениях, К. Фукушима (Kunihiko Fukushima) создал нейронную сеть «когнитрон», а затем развил заложенные в ней идеи в нейронной сети «неокогнитрон». Архитектура неокогнитрона схожа со строением зрительной коры головного мозга. Благодаря этому неоконитрон способен не только классифицировать образы (в частности — символы), но и выделять их характерные черты.

2.1 Архитектура неокогнитрона

Сеть состоит из первого (входного) этапа, ряда промежуточных этапов (около трёх) и конечного (выходного) этапа. На рис. 4 схематично изображён l -й этап.

На рис.4 приняты обозначения: — C-слой l -го этапа, — выходной сигнал нейрона n , лежащего в k -й плоскости C-нейронов С-слоя l -го этапа. Аналогично для V- и S-слоёв. На рис.5 изображены этапы l и l+1 .

Названия C-, S- и V- нейронов — от «Complex», «Simple» и «Virtual». Каждая плоскость представляет собой квадратную двумерную матрицу из нейронов соответственно C-, S- или V-типа.

Из каждой C-плоскости предыдущего этапа сигналы поступают в каждые V- и S-плоскости следующего этапа. Один V- или S-нейрон получает сигналы от всех C-плоскостей предыдущего этапа, но не от каждого нейрона в этих плоскостях. Сигналы приходят лишь от нейронов, попавших в рецептивную область V- или S-нейрона.

На рис. 6 можно видеть рецептивные области и передачу сигналов между плоскостями.


Сигналы из C-плоскости этапа l-1 в S-плоскость этапа l взвешиваются матрицей , а сигналы из C-плоскости в V-плоскость — матрицей . Размер матриц совпадает с размером рецептивной области.

Матрица изменяется в процессе обучения, матрица — фиксирована, её значения определяются монотонно убывающей функцией расстояния от центра и имеют вид сомбрэро, с наибольшим элементом — в центре и наименьшими элементами — у края.

Выходной сигнал V-нейрона n в слое l определяется так:

,

(17)

где - число C-плоскостей на предыдущем этапе, - смещение по x и y относительно центра рецептивной области, - радиус рецептивной области, - матрица весов связей от нейронов C-плоскости к нейрону V-плоскости, - выходной сигнал C-нейрона в позиции в С-плоскости предыдущего этапа.

V-нейрон получает выходные сигналы C-нейронов предыдущего этапа - это его возбуждающий вход . Выходной сигнал S-нейрона n в k -й плоскости слоя l определяется так:

,

(18)

где bSl (k) — вес тормозящей связи, а число θl — коэффициент скорости обучения. Вес тормозящей связи один на всю плоскость. Скорость обучения одинакова для всего этапа. Преобразованные в V-нейроне сигналы подаются на соответствующий S-нейрон, являясь его тормозящим входом (как уже говорилось, число V- и S‑нейронов точно совпадает и соответствие устанавливается 1:1).

Согласно (18) разница суммы взвешенных возбуждающих входов (от C-нейронов) и тормозящего входа взвешивается скоростью обучения ещё раз и подаётся на выход S-нейрона. Выходы S-нейронов в соответствующей рецептивной области подаются на вход соответствующего C-нейрона, чей выход определяется выражением

,

(19)

где - матрица весов связей от нейронов S-плоскости к нейрону C-плоскости, - радиус рецептивной области. Выходные сигналы нейронов S-плоскости подаются на соответствующую C-плоскость, и только на неё. Матрица в отличие от содержит как положительные, так и отрицательные значения — положительные значения располагаются в центре, а отрицательные — по краям, поэтому эта матрица характеризуется радиусом положительной области.

Первый этап отличается от рассмотренных выше промежуточных этапов тем, что вместо C-, V- и S-слоёв он содержит два слоя — I-слой и G-слой. Значения нейронов единственной плоскости I-слоя задаются извне, так как это входной слой. Выходной сигнал G-нейрона n в k -й G-плоскости вычисляется как

,

(20)

где - матрица весов G-слоя, - выходной сигнал нейрона I-слоя, - смещение относительно центра рецептивной области.

Нейроны G-плоскостей функционируют аналогично C-нейронам — G‑нейрон получают сигналы от попадающих в его рецептивную область I‑нейронов и суммирует, подавая эту сумму на свой выход. Матрица по форме аналогична матрице . Кроме того, матрица составлена так, что сумма всех её значений равна нулю. Для плоскости при взвешивании берётся сама матрица , а для плоскости — матрица со знаком «минус».

Выходные сигналы G-нейронов подаются на V- и S- нейроны следующего этапа. Из каждой плоскости S-слоя последнего этапа выбирается нейрон с наибольшим выходом, его сигнал является выходным сигналом сети и подаётся на соответствующую C-плоскость последнего слоя. Соответствие определяется классом, присвоенным плоскости в процессе обучения. У S-плоскостей классы могут повторяться (в общем случае в процессе обучения генерируется более одной S-плоскости для каждого класса образов), у C-плоскостей классы не повторяются (число C-плоскостей равно числу классов).

2.2 Обучение неокогнитрона

В процессе обучения меняются только весовые коэффициенты связей от C- к S-плоскостям нейронов. Само обучение происходит различным образом для различных слоёв[2].

Связи от G-слоя к слою обучаются автоматически: на вход сети подаётся изображение какой-либо фигуры (обычно используются прямоугольники или полукруги) с ровным краем и нероном-представителем назначается нейрон, лежащий на любой из точек этого края. При преобразовании в G-слое край (переход от цвета фона к цвету фигуры) преобразуется в линии, и плоскости слоя обучаются реагировать на эти линии. Обычно в этом слое создают 16 плоскостей, распознающих края 16-и различных ориентаций (8 базовых ориентаций + каждая ориентация имеет два варианта — слева направо и справа налево).

Веса увеличиваются на

,

(21)

где - увеличение веса нейрона в позиции матрицы весов от -й C-плоскости предыдущего слоя к -й S-плоскости слоя , - коэффициент скорости обучения, - значение матрицы в позиции , - выходной сигнал нейрона в позиции ( - центр, - смещение относительно центра) -й C-плоскости слоя .

Матрица статическая и генерируется специальной функцией так, чтобы в центре матрицы был кластер положительных значений, окружённый кольцом отрицательных значений.

Вес тормозящей связи от V-плоскости к S-плоскости вычисляется как

,

(22)

где - вес тормозящей связи от -й V-плоскости слоя к -й S-плоскости слоя , - номер плоскости в предыдущем C-слое (всего плоскостей), - смещение внутри области суммирования, - радиус области суммирования (рецептивной области).

Центр рецептивной области вычисляется как проекция обучаемого нейрона-представителя на C-плоскость (проекция вычисляется с учётом смещения и разряжения нейронов между слоями).

Нейрон-представитель выбирается либо тот, который был указан учителем (для слоя выделения краёв), либо тот, который реагирует на поступающие сигналы наиболее сильно.

Связи от слоя к слою и от слоя к слою обучаются методом обучения без поощрения: каждая плоскость обучается в той мере, в которой она реагирует на поступающие сигналы. Для каждой плоскости выбирается не более одного нейрона-представителя. Соответственно, если плоскость не реагирует на сигналы определённого типа, то нейрон-представитель для неё не выбирается, она не участвует в обучении и продолжает игнорировать сигналы этого типа. Это отличает неокогнитрон от многослойного перцептрона, в котором обучаются все нейроны.

Если ни одна из плоскостей не реагирует на поступающие сигналы, генерируются новые плоскости. При генерации они сразу обучаются реагировать на сигналы, вызвавшие их генерацию. Также новые плоскости генерируются в случаях, когда уже существующие плоскости игнорируют часть сигналов.

Связи от слоя к слою обучаются методом обучения с поощрением. Этот метод работает так же, как обучение предыдущих слоёв, но после генерации плоскости ей присваивается метка — класс образов, которые эта плоскость должна распознавать. Если плоскость даёт наибольший среди всех других плоскостей этого слоя отклик на образ, не соответствующий её классу, генерируется новая плоскость и обучается этому образу.

В обученной сети выходной сигнал самого активного нейрона во всём слое считается выходом всей сети, а класс соответствующей плоскости — классом, который сеть присвоила распознанному образу. Слой в вычислениях не участвует, а лишь используется для представления выходного сигнала (так же, как слой используется только для представления входных сигналов).

В процессе обучения и в процессе распознавания было предложено[3] использовать разные значения θl . Высокое значение — при обучении (чтобы сеть была более разборчива) и низкое значение — при распознавании (чтобы сеть реагировала на максимально возможное число стимулов).

2.3 Выводы

Проходя через несколько стадий обработки, на каждой из которых точка происхождения сигнала может смещаться благодаря наличию рецептивных областей и тому факту, что S-плоскости воспринимают «свои» сигналы из любой точки предыдущих C-плоскостей, а также потому, что сигналы подвергаются размытию в C-плоскостях. Это смещение позволяет неокогнитрону в определённой степени игнорировать деформацию символов.

3 Модульная система распознавания текста

Из изложенного выше становится ясно, что процесс распознавания текста включает в себя несколько слабо связанных стадий, на каждой из которых изображение подвергается разным преобразованиям и анализируется с помощью разных алгоритмов. Поэтому система распознавания текста естественным образом разбивается на отдельные модули. На рис. 7 представлена схема такой системы.

При условии, что интерфейсы между модулями определены достаточно гибко, можно менять реализации отдельных модулей, не затрагивая системы в целом.

Поток информации не обязательно должен быть линейным. Например, можно использовать альтернативные методы распознавания символов, если набор знаков, извлекаемый из документа, содержит большое число очень схожих символов (такая ситуация возникает при распознавании печатного текста). Часть такой нелинейной системы показана на рис. 8.

Определение угла наклона текста, анализ разметки, разделение текста на знаки и распознавание символов были описаны в предыдущих главах.

Группировка символов — процесс соединения двух или более символов в один. Эта процедура требуется для символов, состоящих из нескольких знаков, каждый из которых является символом сам по себе. Например, буква «Ы» может быть воспринята системой как два символа - «Ь» и «I». То же касается всех букв с надстрочными модификаторами («й», «ё», «ê» и другие).

Коррекция — использование словаря и фонетического анализатора для исправления неправильных сочетаний букв и несуществующих слов, которые возникают из-за ошибок распознавания на предыдущих этапах.

3.1 Выводы

Можно создать набор модулей, каждый из которых производит определённое преобразование данных, и собрать из них ту или иную систему распознавания текста, которая будет отвечать потребностям конкретного пользователя. При условии наличия хорошо продуманных интерфейсов между модулями, можно менять их реализации, меняя функциональность системы, не затрагивая при этом остальные её части.

4 Программная реализация

В качестве примера была создана программная реализация предложенной системы — СиРТ (Система Распознавания Текста). СиРТ представляет из себя несколько библиотек (по одной библиотеке на каждый модуль) и исполняемый файл, управляющий потоком информации между модулями. Международная версия СиРТ распространяется под названием «TRecS» (Text Recognition System), это же название используется в качестве внутреннего идентификатора. Всего было реализовано три модуля: разделение текста на знаки (библиотека TRecS_t2s), группировка знаков в строки и слова (библиотека TRecS_s2l) и распознавания символов (библиотека TRecS_net). Также была создана утилита TRecS_PatternGen, предназначенная для генерации обучающих последовательностей для нейронной сети. Модуль распознавания символов основан на неокогнитроне. Исходный текст программ находится в Приложении 1.

4.1 Генерация обучающих последовательностей

Поскольку печатный текст создаётся с помощью вполне определённых шрифтов, для обучения неокогнитрона можно использовать эти же шрифты. В случае совпадения шрифта обучающей последовательности с шрифтом распознаваемого текста эффективность распознавания резко повысится (так как неокогнитрон распознаёт образы обучающей последовательности с почти 100%-й вероятностью). Для остальных шрифтов эффективность распознавания будет меньше, однако способность неокогнитрона к абстрагированию должна позволить ему распознавать текст, напечатанный любым шрифтом.

TRecS_PatternGen — консольное приложение, работа которого управляется с командной строки. В соответствии с принятыми правилами составления консольных программ, вызов TRecS_PatternGen с параметром '--help' показывает справку:

>TRecS_PatternGen.exe --help

Usage:

TRecS_PatternGen.exe [OPTION...]

Help Options:

-?, --help Show help options

--help-all Show all help options

--help-gtk Show GTK+ Options

Application Options:

-o, --output-dir=DIRNAME Output patterns to this directory

-f, --font-name=FONT Description of a font to use (if none - all fonts will be used)

-w, --width=WIDTH Maximum character width (in pixels)

-h, --height=HEIGHT Maximum character height (in pixels)

-s, --startchar=CODE First character

--endchar=CODE Last character

--display=DISPLAY X display to use

После прочтения справки становится очевидным, что TRecS_PatternGen принимает следующие аргументы:

--output-dir=DIRNAME (или -o DIRNAME) – указывает, что программа должна сохранять образы обучающей последовательности в директорию DIRNAME. DIRNAME – это строка (если она содержит пробелы, её следует заключить в двойные кавычки), являющаяся абсолютным или относительным путём в файловой системе.

--font-name=FONT (или -f FONT) – указывает, что программа должна использовать шрифт FONT для генерации образов. FONT – это строка (если она содержит пробелы, её следует заключить в двойные кавычки), являющаяся текстовым представлением описания шрифта для Pango.

--width=WIDTH (или -w WIDTH) – указывает, что программа должна генерировать образы шириной WIDTH. WIDTH – число, ширина изображения в пикселях.

--height=HEIGHT (или -h HEIGHT) – указывает, что программа должна генерировать образы высотой HEIGHT. HEIGHT – число, высота изображения в пикселях.

--startchar=CODE (или -s CODE) – указывает код CODE для первого символа в обучающей последовательности. CODE – десятеричное число, являющееся кодом символа в Unicode.

--endchar=CODE – указывает код CODE для последнего символа в обучающей последовательности. CODE – десятеричное число, являющееся кодом символа в Unicode.

Последовательность состоит из N символов, где N – разница между кодом последнего символа и кодом первого символа.

TRecS_PatternGen рисует каждый символ (образ) последовательности так, чтобы он соответствовал заданной пользователем ширине.

Файлы образов имеют имена следующего вида:

<код>_<шрифт>.png ,

где код — это код символа в Unicode, а шрифт — название использованного для генерации шрифта. Изображения сохраняются в формате PNG (Portable Network Graphic).

4.2 Обучение сети и распознавание текста

Программа TRecS занимается как обучением сети, так и распознаванием текста. Режим работы меняется в зависимости от заданных программе аргументов коммандной строки. В соответствии с принятыми правилами составления консольных программ, вызов TRecS с параметром '--help' показывает справку:

>TRecS.exe --help

Usage:

TReCS.exe [OPTION...]

Help Options:

-?, --help Show help options

--help-all Show all help options

--help-gtk Show GTK+ Options

Application Options:

-l, --load-net=FILENAME Load network from file

-s, --save-net=FILENAME Save network to file after it is used

-m, --mode=MODE Mode: 0 - learning, 1 - recognition, 4 - recognition (verbose)

-p, --pattern-dir=DIRNAME Directory name (without trailing slash) containing patterns

-i, --input-file=FILENAME Input file (an image)

-o, --output-file=FILENAME Output file

-a, --layout-analyze Perform layout analyze (don't assume that input file contains only one character)

-f, --finish-init Assume that loaded network is a skeleton and finish its initialization

-v, --verbose Print a lot of info

--display=DISPLAY X display to use

После прочтения справки становится очевидным, что TRecS принимает следующие аргументы:

--load-net=FILENAME (или -l FILENAME) – указывает, что программа должна загрузить нейронную сеть из файла FILENAME. FILENAME – строка (если она содержит пробелы, её следует заключить в двойные кавычки), являющаяся относительным или абсолютным именем файла в файловой системе.

--save-net=FILENAME (или -s FILENAME) – указывает, что после завершения предписанных операций программа должна сохранить нейронную сеть в файл FILENAME. FILENAME – строка (если она содержит пробелы, её следует заключить в двойные кавычки), являющаяся относительным или абсолютным именем файла в файловой системе.

--mode=MODE (или -m MODE) – указывает, что программа должна работать в режиме MODE. MODE – число, означающее режим. 0 — режим обучения, 1 — режим распознавания, 4 — режим распознавания с сохранением промежуточной информации на диск в виде изображений.

--pattern-dir=DIRNAME (или -p DIRNAME) – указывает, что программа должна загружать образы из директории DIRNAME. DIRNAME – это строка (если она содержит пробелы, её следует заключить в двойные кавычки), являющаяся абсолютным или относительным путём в файловой системе.

--input-file=FILENAME (или -i FILENAME) – указывает, что программа должна загрузить изображение для распознавания из файла FILENAME. FILENAME – строка (если она содержит пробелы, её следует заключить в двойные кавычки), являющаяся относительным или абсолютным именем файла в файловой системе. Файл должен являться изображением и иметь один из форматов, поддерживаемых GDK.

--output-file=FILENAME (или -o FILENAME) – указывает, что программа должна сохранить распознанный текст в файл FILENAME. FILENAME – строка (если она содержит пробелы, её следует заключить в двойные кавычки), являющаяся относительным или абсолютным именем файла в файловой системе. Файл будет текстовым, текст будет представлен в кодировке UTF-8.

--layout-analyze (или -a) – указывает, что программа должна провести анализ разметки изображения (то есть предполагается, что изображение содержит более одного символа).

--finish-init (или -f) – указывает, что программа должна произвести инициализацию загруженной из файла нейронной сети. Это требуется при обучении (когда загружаемая сеть является лишь скелетом будущей сети).

--verbose (или -v) – указывает, что программа должна выводить в консоль дополнительную информацию о ходе процесса.

Для обучения необходимо задать аргументы —load-net, --finish-init, --mode=0, --pattern-dir и —save-net. Для распознавания текста нужно задать аргументы —load-net, --mode=1, --input-file и —output-file.

Информация о неокогнитроне хранится в XML-файлах (структура этих файлов приведена в Приложении 2). Эти файлы содержат информацию о топологии сети (число слоёв, размеры плоскостей) и информацию для генерации необучаемых весовых коэффициентов (аргументы для генерирующих веса функций).

Программа сохраняет отладочную информацию в поддиректорию output в директории, из которой она была запущена. Если этой директории нет, её надо создать. Отладочная информация включает в себя:

· Изображение показывающее на какие знаки было разделено изображение в процессе анализа разметки.

· Изображение показывающее на какие строки было разделено изображение в процессе анализа разметки.

· Изображение каждого знака.

· Состояние нейронов S- и C-плоскостей всех слоёв (если сеть работает в режиме 4).

· Изображение содержащее среднюю яркость строк исходного изображения.

· Текстовый файл содержащий среднюю яркость строк исходного изображения.

4.3 Выводы

Была создана программная реализация предложенной системы, способная производить минимально необходимый анализ разметки страницы, обучаться и распознавать символы. Также была создана программа для генерации обучающих и тестирующих последовательностей образов из шрифтов.

5 Экспериментальное исследование разработанной системы распознавания текста

Для генерации обучающей последовательности были использованы шрифты Comic Sans MS, Liberation Mono, Freemono, Arial и Times New Roman. Символы включали в себя точку, запятую, тире, все кириллические буквы от «а» до «я» обеих регистров (исключая буквы «й», «ы» и «ё») а также латинская буква «I» (список команд к TrecS_PatternGen — в Приложении 3). Всего 320 образов.

Для генерации проверочной последовательности были использованы шрифты Courier, DejaVu Serif, Tahoma, Verdana и Impact, также 320 образов.

В результате прогона проверочной последовательности система распознала верно 233 образов из 320 (73%). Полностью неправильно были распознаны 47 образов (14%), а для оставшиеся 40 (13%) – неправильно был определён регистр символа. Неправильное определение регистра происходит из-за того, что все образы растягиваются до размеров входного слоя сети, поэтому символы, различающиеся регистром но сходные по форме, подаются на сеть в виде сходных образов.

Обзор отладочной информации указывает на то, что большая часть неправильно распознанных символов приходится на образы, набранные шрифтом Impact. Это объясняется тем, что символы этого шрифта значительно отличаются по форме от символов шрифтов, использованных для обучающей последовательности. Как и все нейросети, неокогнитрон требует хорошего покрытия обучающей последовательностью пространства входных образов для корректного обучения.

В результате проверки обучающей последовательностью из 256 образов (без шрифта Impact) система корректно распознала 223 символа (87%), некорректно распознала 1 символ (перепутала «ъ» с «ь») и некорректно определила регистр у 32 символов (13%).

В результате распознавания трёх изображений одного и того же текста, набранного тремя разными шрифтами, система дала следующие результаты:

Times New Roman:

Люблю грозу в начале Мая.

Когда весенниич первьIич гром

Как-бьI резвяся и играя

Грохочет в небе голубом.

Courier:

ЛЮблЮ грозу В начале Мая,

Когда ВесеннИИЗ перВьIиЗ гром

КаК-бьI резВяся И Играя

Грохочет В небе голубом.

Liberation Mono:

Люблю грозу в начале Мая,

Когда весеннИИ- первЬIИ- гром

Как-бЬI резвяся И Играя

ГрохочеТ в небе голубом

Наибольшее число искажений регистра показал текст, набранный шрифтом Courier, поскольку этот шрифт не участвовал в обучении. Наименьшее число искажений регистра показал текст, набранный Times New Roman, поскольку этот шрифт относится к классу Serif и обладает дополнительными характерными чертами, позволяющими правильно отличать символы разного регистра по форме.

Однако функция определения регистра не входит в число функций модуля распознавания символов вообще и неокогнитрона — в частности. Вместо этого в системе должен существовать модуль пост-обработки текста, который в том числе исправляет регистр символов, анализируя их размеры друг относительно друга.

5.1 Выводы

Разработанная система способна распознавать текст, составленный как из образов обучающей последовательности, так и из образов проверочной последовательности.

Для корректного распознавания любых форм символов требуется значительно расширить разнообразие обучающей последовательности, чтобы она покрывала всё множество входных образов.

6 Организационно-экономическая часть

Введение

Система оптического распознавания текста служит для автоматического преобразования содержащих текст изображений в пригодную для обработки в текстовых процессорах форму.

В данной части дипломного проекта будет проведена оценка экономической целесообразности разработки такой системы, расчет стоимости самой разработки и конечной цены программного продукта, который появится на рынке.

6.1 Описание продукта

В 1974 году Рэй Карзвейл основал компанию Kurzweil Computer Products, Inc и возглавил разработку первой шрифто-независимой системы оптического распознавания символов — компьютерной программы, способной распознавать текст, напечатанный любым нормальным шрифтом. Он решил, что лучшим применением этой технологии будет создание читающей машины для слепых, которая бы позволила слепым людям понимать напечатанный текст, слушая как его для них читает вслух компьютер. Однако для этого устройства потребовалось изобрести две технологии — сканер и речевой интезатор. Тринадцатого Января 1976 первый продукт был показан на конференции, которую возглавлял Карзвейл и лидеры Национальной Федерации Слепых США. Устройство именуемое «Читающая Машина Карзвейла» занимало весь стол, но функционировало именно так как и предполагалось. В 1978 Kurzweil Computer Products, Inc начала продавать коммерческую версию компьютерной программы для оптического распознавания символов. LexisNexis стал первым клиентом и купил программу для преобразования в цифровую форму юридических и публицистических документов. Через два года Карзвейл продал свою компанию компании Xerox, которая заинтересовалась дальнейшей коммерциализацией аналого-цифрового преобразования текста. Сейчас Kurzweil Computer Products известна как Nuance.

Целью дипломного проектирования является создание программной системы для оптического распознавания текста. Система предназначена для преобразования содержащих текст изображений в текстовую форму, которая может быть использована в текстовых процессорах.

6.2 Анализ рынка сбыта

Потенциальными клиентами моего продукта являются работники научной сферы (поскольку система представляет определённый научный интерес), любые организации, чья работа связана с использованием как бумажных, так и цифровых текстовых документов, а также простые пользователи, обладающие необходимым для сканирования текста оборудованием.

6.3 Конкурентоспособность

На рынке уже существуют подобные системы, и проблема распознавания текста успешно решается уже более 20 лет. Однако большинство предложенных систем обладает определёнными недостатками:

1) Относительно высокая цена

2) Недостаточно гибкая интеграция со сторонними приложениями (в том числе — с текстовыми процессорами)

3) Практически полное отсутствие контроля за процессом работы системы

4) Невозможность обучения системы

Недостаток 1) присущ всем коммерческим системам (к коим относятся практически все успешные системы распознавания текста). Недостаток 2) также присущ только коммерческим системам — они расчитаны на использование совместно со строго определённым набором сторонних приложений (как правило — тоже коммерческих). Недостаток 3) выражается в отсутствии механизмов управления процессом распознавания и также присущ в основном коммерческим системам из-за их закрытости. Недостаток 4) присущ большинству систем, поскольку не все системы созданы на основе технических решений, поддерживающих концепцию обучения.

Разработанная система будет лишена перечисленных недостатков.

6.4 Маркетинг

Разработанная система является кросс-платформенной, а статус СПО позволяет использовать инфраструктуру СПО для рекламы и освещения системы в прессе. Это позволит заинтересовать системой как пользователей, так и потенциальных разработчиков. Не исключается возможность участия в разработке таких корпораций как Google, которая в последнее время интересуется системами распознавания текста.

6.5 План работ

Сроки выполнения работ не должны превышать 86 дней. В проекте занят один разработчик и один Ведущий инженер. Организационная структура представляет собой вырожденный случай иерархической структуры и изображена на рис 6.1.

Такая схема взаимодействия была выбрана из опыта ранее разработанных дипломных проектов. Руководителем проекта является ведущий инженер, ответственным исполнителем — инженер-программист 3й категории.

6.6 Организационный план

Выделим следующие этапы разработки:

1. Техническое задание

1.1. Постановка задачи – 2 дня

1.2. Выбор и обоснование критериев эффективности и качества разрабатываемой программы – 5 дней

1.3. Предварительный выбор методов решения задачи – 10 дней

1.4. Выбор языков программирования – 1 день

2. Эскизный проект

2.1. Предварительная разработка структуры входных и выходных

данных – 5 дней

2.2. Разработка общего описания алгоритма решения задачи – 5 дней

3. Технический проект

3.1. Разработка алгоритма решения задачи – 10

3.2. Определение формы представления входных и выходных

данных – 5 дней

4. Рабочий проект

4.1. Программирование и отладка программы – 25 дней

4.2. Разработка порядка и методики испытаний – 2 дня

5. Тестирование

5.1. Итоговое тестирование программного средства – 1

5.2. Корректировка программы и программной документации по результатам испытаний – 5 дней

6. Разработка документации

6.1. Руководство системного программиста – 1 день

6.2. Руководство программиста – 1 день

6.3. Руководство пользователя – 1 день

Итого: 79 дней.

Таблица 6.1 Расчёт трудоёмкости

103

14

55

58

111

114

Этап разработки

Продолж.

Исполнитель

Трудоёмк. ч/дн

1

Постановка задачи

2

Ведущий инженер

2

2

Выбор и обоснование критериев эффективности и качества разрабатываемой программы

5

Ведущий инженер

5

3

Предварительный выбор методов решения задачи

10

Ведущий инженер

10

Инженер-программист 3-й кат.

10

4

Выбор языков программирования

1

Ведущий инженер

1

Инженер-программист 3-й кат.

1

5

Предварительная разработка структуры входных и выходных данных

5

Ведущий инженер

2

Инженер-программист 3-й кат.

5

6

Разработка общего описания алгоритма решения задачи

5

Инженер-программист 3-й кат.

5

7

Разработка алгоритма решения задачи

10

Инженер-программист 3-й кат.

10

8

Определение формы представления входных и выходных данных

5

Ведущий инженер

3

Инженер-программист 3-й кат.

5

9

Программирование и отладка программы

25

Инженер-программист 3-й кат.

25

10

Разработка порядка и методики испытаний

2

Ведущий инженер

2

11

Итоговое тестирование программного средства

1

Ведущий инженер

1

Инженер-программист 3-й кат.

1

12

Корректировка программы и программной документации по результатам испытаний

5

Инженер-программист 3-й кат.

5

13

Руководство системного программиста

1

Инженер-программист 3-й кат.

1

14

Руководство программиста

1

Ведущий инженер

1

Инженер-программист 3-й кат.

1

15

Руководство пользователя

1

Ведущий инженер

1

Итого, дней:

79

Итого, человек/дней:

97

Представим этапы разработки в виде диаграммы Гранта на рис. 6.2.



6.7 Расчет договорной цены

Для расчета затрат и договорной цены воспользуемся постатейным калькуляционным счетом.

Статья 1. Материалы и покупные изделия

Для разработки мы будем использовать среду разработки Dev-C++. Этот программный продукт обойдется нам в 0 рублей.

Далее произведем расчет канцелярских принадлежностей.

Таблица 6.2 Сводная таблица материалов и покупных изделий

Наименование материала

Единица измерения

Кол-во

Цена за единицу, руб.

Сумма, руб.

1

Бумага для оргтехники, формат А4

Пачка, 500 листов

5

133

665

2

Бумага для оргтехники, формат А3

Пачка, 500 листов

1

266

266

3

Ручки шариковые

Упаковка, 20 штук

5

40

800

4

Скобы для степлера

Упаковка, 1000 штук

20

10

200

5

Дискета, 1.44''

Упаковка, 10 штук

10

90

900

6

CD-RW, Verbatim

Упаковка, 10 штук

2

282

564

7

USB Flash Dsik, 4Gb

Штука

5

395

1975

Итого:

5370

К итоговой сумме затрат прибавим 15% в качестве транспортно-заготовительных расходов:

5370 + 5370*15% = 6175,5 руб.

Итого, по первой статье имеем 6175,5 руб.

Статья 2. Спецоборудование

В спецоборудовании необходимости нет, поэтому по этой статье затрат не предусмотрено.

Статья 3. Основная заработная плата исполнителей

Для расчета заработной платы необходимо вычислить дневную заработную плату каждого сотрудника и умножить на количество дней занятости сотрудника в проекте.

Таблица 6.3 Затраты по заработной плате

Исполнитель

Ставка, руб/месяц

Трудоёмкость ч/дн

Оплата за день, руб

Итого

Ведущий инженер

20000

28

2045

57260

Инженер-программист 3-й кат.

12000

69

1182

81558

Итого:

138818

Итого, затраты на основную заработную плату составят 138818 рублей.

Статья 4. Дополнительная заработная плата

Дополнительная заработная плата работникам составляет 20% от всей статьи «Основная заработная плата», рассчитаем ее:

ДЗП = 138818 * 20% = 27763,6 руб.

Итого, на дополнительную заработную плату понадобится 27763,6 рублей.

Статья 5. Единый Социальный Налог (ЕСН)

ЕСН составляет 26% от всего фонда заработной платы.

Фонд заработной платы = Основная З/П + Дополнительная З/П

138818 + 27763,6 = 166581,6

ЕСН = 166581,6 * 26% = 43311,216

Статья 6. Оплата услуг сторонних организаций

Привлечение сторонних организаций не предусмотрено.

Статья 7. Командировки сотрудников

Командировки во время проекта не предусмотрены.

Статья 8. Накладные расходы.

Дипломный проект представляет собой НИР и накладные расходы берем из расчета 250% от основной заработной платы.

Получим:

138818 * 250% = 347045 руб.

Итого, накладные расходы составят 347045 рублей.

Таблица 6.4 Расходы по всем статьям

Статья

Сумма, руб.

1

Материалы и покупные издения

5370

2

Спецоборудование

0

3

Основная заработная плата

138818

4

Дополнительная заработная плата

27763,6

5

Единый социальный налог

43311,22

6

Оплата услуг сторонних организаций

0

7

Командировки сотрудников

0

8

Накладные расходы

347045

Итого, по всем статьям

562307,82

Таким образом, стоимость разработки составит 562307,82 руб.

Договорная цена программного изделия равна сумме оптовой цены предприятия и налога на добавленную стоимость. Оптовая цена предприятия составляется из суммы стоимости продукта и прибыли от его продаж. Себестоимость определяется суммой расходов по всем статьям. Прибыль определяется на уровне 25% от себестоимости.

ДС = 562307,82 * 25% = 140576,955 руб.

Таким образом оптовая цена предприятия составляет:

ОЦП = 562307,82 + 140576,955 = 702884,775 руб.

Произведем расчет НДС=18%:

НДС = 140576,955 * 18% = 25303,8519

Следовательно, с учетом НДС, договорная цена составит:

702884,775 + 25303,8519 = 728188,6269

Итого, договорная цена программного изделия равна 728188,6269 рублей.

6.8 Оценка экономической целесообразности проведения работ

Разработанный продукт превосходит аналоги, поскольку имеет более низкую стоимость, предоставляет возможность дешёвой модификации системы для достижения совместимости со сторонними продуктами, предоставляет возможность дёшево реализовывать механизмы контроля за процессом работы системы, позволяет обучать систему, адаптируя её к определённым условиям работы. Кроме того пользователь может осуществлять поддержку системы самостоятельно или прибегать к услугам одной из сторонних организаций, предоставляющих поддержку на разных условиях.

Выводы по главе «Организационно-экономическая часть»

В организационно-экономической части дипломного проекта приведено краткое содержание основных разделов бизнес-плана, анализ рынка сбыта и конкурентоспособность, а так же маркетинговая стратегия для реализации программного продукта. Приведена организационная схема выполнения проекта: для выполнения необходима группа из одного человека, проект должен быть выполнен в течение 79 рабочих дней.

Стоимость разработки составит 562307,82 рублей, а договорная цена – 728188,6269 рублей.

Экономическая целесообразность доказана, так как данная система значительно дешевле аналогов, легко модифицируема и адаптируема, а также не требует больших затрат на поддержку.

7 Экологическая безопасность и безопасность жизнедеятельности

Введение

В данном разделе дипломного проекта освещаются основные вопросы безопасности жизнедеятельности и экологии труда, будет проведен анализ вредоносных факторов и спроектировано оптимальное рабочее место программиста.

7.1 Требования к производственным процессам и оборудованию

1. Производственные процессы при работе на ПЭВМ (ПК) должны соответствовать требованиям ГОСТ 12.3.002-75 "ССБТ. Процессы производственные. Общие требования безопасности".

2. При выполнении работ на ПК согласно ГОСТ 12.0.003-74 "ССБТ. Опасные и вредные производственные факторы. Классификация" могут иметь место следующие факторы:

- повышенная температура поверхностей ПК;

- повышенная или пониженная температура воздуха рабочей зоны;

- выделение в воздух рабочей зоны ряда химических веществ;

- повышенная или пониженная влажность воздуха;

- повышенный или пониженный уровень отрицательных и положительных аэроионов;

- повышенное значение напряжения в электрической цепи, замыкание;

- повышенный уровень статического электричества;

- повышенный уровень электромагнитных излучений;

- повышенная напряженность электрического поля;

- отсутствие или недостаток естественного света;

- недостаточная искусственная освещенность рабочей зоны;

- повышенная яркость света;

- повышенная контрастность;

- прямая и отраженная блесткость;

- зрительное напряжение;

- монотонность трудового процесса;

- нервно-эмоциональные перегрузки.

3. Рабочие места с ПЭВМ должны размещаться в изолированных помещениях.

4. При выполнении работы со значительным умственным напряжением рабочие места (с ПЭВМ) необходимо изолировать друг от друга специальной перегородкой высотой 1,5-2 м.

5. Шкафы, сейфы, стеллажи для хранения дисков, дискеток, комплектующих деталей, запасных блоков и др. необходимо располагать в подсобных помещениях, где должны находиться рабочий стол и радиомонтажный стол.

6. Все виды оборудования должны иметь гигиенический сертификат, включающий, в том числе, оценку визуальных параметров.

7. Конструкция оборудования, его дизайн, эргономические параметры должны обеспечивать надежное и комфортное считывание отображаемой информации.

8. Конструкция ПК должна обеспечивать возможность фронтального наблюдения экрана путем поворота корпуса в горизонтальной плоскости вокруг вертикальной оси в пределах +-30 градусов и в вертикальной плоскости вокруг горизонтальной оси в пределах +-30 градусов с фиксацией в заданном положении. Дизайн оборудования должен предусматривать окраску корпуса в спокойные мягкие тона с диффузным рассеиванием света, с коэффициентом отражения 0,4-0,6, без блестящих деталей, способных создавать блики.

9. Для обеспечения надежного считывания информации при соответствующей степени комфортности ее восприятия должны быть определены оптимальные и допустимые диапазоны визуальных эргономических параметров.

10. Визуальные эргономические параметры ПК и пределы их изменений, в которых должны быть установлены оптимальные и допустимые диапазоны значений, представлены в таблице 3.10.1.

Таблица 3.10.1.

Наименование параметров

Пределы значений параметров

минимальные (не менее)

Максимальные (не более)

Яркость знака (яркость фона). кд/м3 (измеренная в темноте).

35

120

Внешняя освещенность экрана, ПК

100

250

Угловой размер знака, угл. мин.

16

60

* Примечания

1. Оптимальным диапазоном значений визуального эргономического параметра называется диапазон, в пределах которого обеспечивается безошибочное считывание информации при времени реакции человека (оператора), превышающем минимальное, установленное экспериментально для данного типа ПК, не более, чем в 1,2 раза.

2. Допустимым диапазоном значений визуального эргономического параметра называется диапазон, при котором обеспечивается безошибочное считывание информации, а время реакции человека (оператора) превышает минимальное, установленное экспериментально для данного типа ПК, не более, чем в 1,5 раза.

3. Угловой размер знака - угол между линиями, соединяющими крайние точки знака по высоте и глаз наблюдателя.

Угловой размер знака определяется по формуле:

a = arctg(h/2l),

где h - высота знака,

l - расстояние от знака до глаза наблюдателя.

4. Данные, приведенные в таблице, подлежат корректировке по мере введения в действие новых стандартов, регламентирующих требования и нормы на визуальные параметры ПК.

11. При проектировании и разработке ПК сочетания визуальных эргономических параметров и их значения, соответствующие оптимальным и допустимым диапазонам, полученные в результате испытаний в специализированных лабораториях, аккредитованных в установленном порядке, и подтвержденные соответствующими протоколами, должны быть внесены в техническую документацию на ПК.

12. При работе с ПК необходимо обеспечивать значения визуальных параметров в пределах оптимального диапазона; разрешается кратковременная работа при допустимых значениях визуальных параметров. Оптимальные и допустимые значения визуальных эргономических параметров должны быть указаны в технической документации ПК для режимов работы пользователей. При отсутствии в технической документации на ПК данных об оптимальных и допустимых диапазонах значений эргономических параметров эксплуатация ПЭВМ (ПК) не допускается.

13. Конструкция ПК должна предусматривать наличие регулировок яркости и контраста, обеспечивающих возможность изменения этих параметров от минимальных до максимальных значений.

14. Конструкция клавиатуры должна предусматривать:

- исполнение в виде отдельного устройства с возможностью свободного перемещения;

- опорное приспособление, позволяющее изменить угол наклона поверхности клавиатуры в пределах от 5 до 15 градусов;

- высоту среднего ряда клавиш не более 30 мм;

- выделение цветом, размером, формой и местом расположения функциональных групп клавиш;

- минимальный размер клавиш - 13 мм, оптимальный - 15 мм;

- клавиши с углублением в центре и шагом 19+-1 мм;

- расстояние между клавишами не менее 3 мм;

- одинаковый ход для всех клавиш с минимальным сопротивлением нажатию 0,25 Н и максимальным - не более 1,5 Н;

- звуковую обратную связь от включения клавиш с регулировкой уровня звукового сигнала и возможности ее отключения.

7.2 Требования к отоплению, вентиляции и кондиционированию воздуха

1. Для предотвращения неблагоприятного воздействия на работающих в производственных зданиях и рабочих помещениях вредных факторов, а именно: повышенной (или пониженной) температуры, повышенной относительной влажности и скорости движения воздуха, запыленности, загазованности - следует предусматривать системы отопления, теплоснабжения, вентиляции и кондиционирования воздуха.

2. Устройство, содержание и эксплуатация систем должны соответствовать требованиям:

- СНиП 2.04.05-91 "Отопление, вентиляция и кондиционирование воздуха";

- ГОСТ 12.4.021-75 "ССБТ. Системы вентиляционные. Общие требования";

- "Правилам технической эксплуатации теплоиспользующих установок и тепловых сетей".

3. Отопительные приборы размещают в местах, доступных для осмотра, ремонта, очистки на расстоянии 100 мм от поверхностей стен.

Не допускается размещать отопительные приборы в нишах стен.

4. Вентиляция и кондиционирование воздуха должны обеспечивать соответственно допустимые и оптимальные нормы микроклиматических параметров на рабочих местах, оснащенных ПК, и содержание вредных веществ в воздухе рабочей зоны не выше ПДК.

Концентрация вредных веществ в приточном воздухе не должна превышать 0,3 ПДК.

5. Вентиляция производственных зданий в районах с расчетной температурой наружного воздуха минус 40 град. С и не ниже должна быть с искусственным побуждением,

6. Расчет воздухообмена следует проводить по теплоизбыткам от машин, людей, солнечной радиации и искусственного освещения.

7.3 Требования к организации рабочих мест

1. Рабочие места должны соответствовать требованиям ГОСТ 12.2.032-78 "ССБТ. Рабочее место при выполнении работ сидя. Общие эргономические требования" и ГОСТ 12.2.061-81 "ССБТ. Оборудование производственное. Общие требования безопасности к рабочим местам".

2. Работа с применением персональных ПЭВМ (ПК) сопряжена со значительными зрительными и нервно-психологическими нагрузками, что повышает требования к организации труда пользователей ПК.

3. Конструкция рабочей мебели должна обеспечивать возможность индивидуальной регулировки, соответственно росту работающего, и создавать удобную позу. Часто используемые предметы труда и органы управления должны находиться в оптимальной рабочей зоне.

4. Конструкция рабочего стола должна обеспечивать оптимальное размещение на рабочей поверхности используемого оборудования с учетом его количественных и конструктивных особенностей, а также характера выполняемой работы.

5. Высота рабочей поверхности стола должна регулироваться в пределах 680-800 мм, при отсутствии такой возможности его высота должна быть не менее 725 мм.

6. На поверхности рабочего стола для документов необходимо предусматривать размещение специальной подставки, расстояние которой от глаз должно быть аналогичным расстоянию от глаз до клавиатуры.

7. Модульными размерами рабочей поверхности стола, на основании которых должны рассчитываться конструктивные размеры, следует считать: ширину 800, 1000, 1200 и 1400 мм, глубину 800 и 1000 мм при нерегулируемой его высоте, равной 725 мм.

8. Под столешницей рабочего стола должно быть свободное пространство для ног с размерами по высоте не менее 600 мм, по ширине 500 мм, по глубине 650 мм.

9. Конструкция рабочего стула должна обеспечивать поддержание рациональной рабочей позы при работе, что позволит изменять позу для снижения статического напряжения мышц шейно-плечевой области и спины для предупреждения развития утомления.

10. Тип рабочего стула должен выбираться в зависимости от характера выполняемой работы.

11. Рабочий стул должен быть подъемно-поворотным и с регулируемым углом наклона сиденья и спинки, а также расстоянием спинки от переднего края сиденья. При этом регулировка каждого параметра должна быть независимой, легко осуществляемой и иметь надежную фиксацию.

12. Рабочее кресло должно иметь подлокотники. Ширина и глубина поверхности сиденья должна составлять не менее 400 мм. Высота опорной поверхности спинки должна быть не менее 300 мм, ширина - не менее 380 мм. Радиус ее кривизны в горизонтальной плоскости 400 мм. Угол наклона спинки должен изменяться в пределах 90-110° к плоскости сидения.

13. Материал покрытия рабочего кресла должен обеспечивать возможность легкой очистки от загрязнений. Поверхности сидения и спинки должны быть полумягкими, с нескользящим, неэлектризующим и воздухопроницаемым покрытием.

14. На рабочем месте необходимо оборудовать подставку для ног. Ее длина должна составлять 400 мм, ширина 350 мм. Необходимо предусматривать регулировку высоты подставки в пределах до 150 мм и угла ее наклона до 20 градусов. Поверхность подставки должна быть рифленой и иметь по переднему краю бортик высотой 10 мм.

15. При организации рабочих мест для работы на ПЭВМ необходимо предусматривать:

- пространство по глубине не менее 850 мм с учетом выступающих частей оборудования для нахождения человека-оператора;

- пространство для ног глубиной и высотой не менее 150 мм и шириной не менее 530 мм;

- расположение устройств ввода-вывода информации, обеспечивающее оптимальную видимость экрана;

- легкую досягаемость органов ручного управления в зоне моторного поля: по высоте - 900-1300 мм, по глубине - 400-500 мм;

- расположение экрана ПЭВМ в месте рабочей зоны, обеспечивающее устройство зрительного наблюдения в вертикальной плоскости под углом +30 градусов от нормальной линии взгляда оператора, а также устройство использования ПЭВМ (ввод-вывод информации при корректировке основных параметров технологического процесса, отладка программ и др.), одновременно с выполнением основных производственных операций (наблюдение за зоной обработки на станке с программным управлением и др.);

- возможность поворота экрана вокруг горизонтальной и вертикальной осей.

16. Клавиатуру следует располагать на поверхности стола на расстоянии 100-300 мм от края, обращенного к пользователю, или на специальной регулируемой по высоте рабочей поверхности, отделенной от основной столешницы.

7.4 Требования к естественному и искусственному освещению

Помещения с ПЭВМ (ПК) должны иметь естественное и искусственное освещение.

1. Естественное освещение должно осуществляться через боковые светопроемы ориентированные преимущественно на север и северо-восток. Величина коэффициента естественной освещенности (КЕО) должна соответствовать нормативным уровням по СНиП 23-05-95 "Естественное и искусственное освещение" и создавать КЕО не ниже 1,2% в зонах с устойчивым снежным покровом и не ниже 1,5% на остальной территории.

2. Искусственное освещение следует осуществлять в виде системы комбинированного освещения. В качестве источников света рекомендуется применять люминесцентные лампы типа ЛБ.

3. Освещенность на поверхности стола в зоне размещения рабочего документа должна быть 300-500 лк. Местное освещение не должно создавать бликов на поверхности экрана и увеличивать освещенность экрана более 300 лк

4. Общее освещение следует выполнять в виде сплошных или прерывистых линий светильников, расположенных сбоку от рабочих мест, параллельно линии зрения пользователя при разном расположении ПК. При периметральном расположении компьютеров линии светильников должны располагаться локализованно над каждым рабочим столом ближе к его переднему краю.

5. Для освещения помещений с ПК необходимо применять светильники серии ЛПО 36 с зеркализованными решетками, укомплектованными высокочастотными пускорегулирующими аппаратами ВЧ ПРА.

6. При отсутствии светильников серии ЛПО 36 с ВЧ ПРА и без ВЧ ПРА в модификации "Кососвет" допускается применение светильников общего освещения серий:

ЛПО 13 - 2 х 40/Б-01; (4 х 40/Б-01)

ЛСП 13 - 2 х 40-06; (2 х 65-06)

ЛСО 05 - 2 х 40-001; (2 х 40-003)

ЛСО 04 - 3 х 36-008;

ЛПО 34 - 4 х 36-002; (4 х 58-002)

ЛПО 31 - 2 х 40-002, а также их отечественных и зарубежных аналогов.

7. Применение светильников без рассеивателей и экранизирующих решеток не допускается.

8. Показатель ослепленности для источников общего искусственного освещения не должен превышать 20.

9. Яркость светильников общего освещения в зоне углов излучения от 50 до 90° с вертикалью в продольной и поперечной плоскостях должна составлять не более 200 кд/м2, защитный угол должен быть не менее 40°.

10. Соотношение яркости между рабочими поверхностями не должно превышать 3:1 - 5:1, а между рабочими поверхностями и столами или оборудованием 10:1

11. Светильники местного освещения должны иметь не просвечивающийся отражатель с запретным углом не менее 40°.

12. В качестве источников искусственного освещения должны применяться преимущественно люминесцентные лампы типа ЛБ. Допускается использование ламп накаливания в местном освещении.

13. Чистку стекол оконных рам и светильников осуществлять не реже двух раз в год.

7.5 Требования к шуму и вибрации

1. Производственные помещения, в которых для работы используются ПЭВМ (ПК) не должны граничить с помещениями, в которых уровни шума и вибрации превышают нормируемые значения (печатные, механические цеха).

2. В помещениях, оборудованных ПК, при выполнении основной работы на ПК уровень шума на рабочем месте не должен превышать 50 дБ"А" (Санитарные нормы 2.2.4/2.1.8.562-96 "Шумы на рабочих местах, в помещениях жилых, общественных зданий и на территории жилой застройки".

3. Уровни вибрации в производственных помещениях при работе на ПК согласно санитарных норм СН 2.2.4/2.1.8.566-96 "Производственная вибрация, вибрация в помещениях жилых и общественных зданий" не должны превышать следующих значений (по виброскорости) на частотах 2, 4, 8, 16, 31, 5, 63 Гц соответственно 79, 73, 67, 67, 67, 67 дБ, корректированные значения и их уровни в дБ "А" - 72 дБ.

7.6 Требования к организации режима труда и отдыха

1. Режимы труда и отдыха при работе на ПЭВМ (ПК) должны организовываться в зависимости от вида и категории трудовой деятельности.

2. Различают 3 группы деятельности:

- группа А - работа по считыванию информации с предварительным запросом,

- группа Б - работа по вводу информации,

- группа В - творческая работа в режиме диалога с ЭВМ.

При выполнении разных групп работ в течение смены за основную принимают такую, которая занимает не менее 50% времени рабочего дня.

3. Для групп трудовой деятельности различают 3 категории тяжести и напряженности работы:

- для группы А - до 20.000 знаков - I категория

до 40.000 знаков - II категория

до 60.000 знаков - III категория

Набор более 60.000 знаков не допускается.

- для группы Б - до 15.000 знаков - I категория

до 30.000 знаков - II категория

до 40.000 знаков - III категория

Набор более 40.000 знаков не допускается.

- для группы В - до 2 часов - I категория

до 4 часов - II категория

до 6 часов - III категория

Набор более 6 часов не допускается.

4. Продолжительность обеденного перерыва определяется действующим законодательством о труде и Правилами внутреннего трудового распорядка предприятия.

5. Для обеспечения оптимальной работоспособности и сохранения здоровья пользователей на протяжении рабочей смены должны устанавливаться регламентированные перерывы.

6. Время регламентированных перерывов в течение рабочей смены устанавливается в зависимости от ее продолжительности, вида и категории трудовой деятельности.

7. Суммарное время регламентированных перерывов (в мин.) принимается:

- для групп А, Б и В: категория I - 30 мин (при 8-ми часовом рабочем дне) и 70 мин (при 12-ти часовом рабочем дне);

категория II - 50 и 90 мин. соответственно;

категория III - 70 и 120 мин. соответственно.

8. Продолжительность непрерывной работы с ПК не должна превышать 2 часов.

9. При работе с ПК в ночную смену (с 22 часов) независимо от категории и вида трудовой деятельности продолжительность регламентированных перерывов должна увеличиваться на 60 минут.

10. При 8-ми часовой смене регламентированные перерывы следует устанавливать:

- для I категории работ - через 2 часа от начала работы и через 1,5 - 2 часа после обеденного перерыва продолжительностью 15 минут каждый;

- для II категории работ через 2 часа от начала смены и через 1,5 - 2 часа после обеда продолжительностью 15 мин. каждый или по 10 минут через каждый час работы;

- для III категории работ через 1,5 - 2 часа от начала смены и через 1,5 - 2 часа после обеда продолжительностью 20 минут каждый или по 15 минут через каждый час работы.

11. При 12-ти часовой смене регламентированные перерывы должны устанавливаться в первые 8 часов работы аналогично перерывам при 8-ми часовой смене, а в течение последних 4 часов работы, независимо от категории и вида работ, каждый час продолжительностью 15 минут.

12. Во время регламентированных перерывов с целью сохранения высокой работоспособности целесообразно выполнять комплекс упражнений.

13. С целью уменьшения отрицательного влияния монотонности целесообразно чередование операций осмысленного текста и числовых данных, чередование редактирования текстов и ввода данных (изменение содержания работы).

14. В случаях возникновения у работающих с ПК зрительного дискомфорта и других неблагоприятных субъективных ощущений при соблюдении санитарно-гигиенических, эргономических требований следует применять индивидуальный подход в ограничении времени работ с ПЭВМ, коррекцию длительности перерывов для отдыха или проводить смену деятельности на другую, не связанную с использованием ПЭВМ.

15. Работающим на ПЭВМ с высоким уровнем нервного напряжения во время регламентированных перерывов и в конце рабочего дня показан отдых в комнатах психологической разгрузки.

7.7 Организация оптимального рабочего места программиста

В соответствии с ГОСТ 12.2032-78 спроектируем оптимальное рабочее место программиста. Выберем конкретные размеры рабочей мебели.

СТОЛ

1. Высота рабочей поверхности стола составляет 725 мм при отсутствии возможности регулирования высоты.

2. Модульными размерами рабочей поверхности стола для ПЭВМ, на основании которых должны рассчитываться конструктивные размеры, следует считать: ширину 1200 мм, глубину 1000 мм при нерегулируемой высоте, равной 725 мм.

3. Рабочий стол имеет пространство для ног высотой 650 мм, шириной 1000 мм, глубиной на уровне колен 900 мм и на уровне вытянутых ног – 900 мм.

СТУЛ

4. Рабочий стул является подъемно-поворотным и регулируемым по высоте и углам наклона сиденья и спинки, а также расстоянию спинки до переднего края сиденья.

5. Ширина и глубина поверхности сиденья не менее 400 мм.

6. Поверхность сиденья с закругленным передним краем.

7. Угол наклона спинки в вертикальной плоскости в пределах 30°.

8. Стул имеет упор в поясничной области, поддерживающий естественный изгиб позвоночника.

9. Подголовник стула слегка наклонен вперед (5-7°).

ПРОЧЕЕ

10. Рабочее место оборудовано подставкой для ног, имеющей ширину 300 мм, глубину 400 мм, регулировку по высоте в пределах до 150 мм и по углу наклона опорной поверхности подставки до 20 градусов. Поверхность подставки рифленая и имеет по переднему краю бортик высотой 10 мм.

11. Клавиатура расположена на поверхности стола на расстоянии 150 мм от края, обращенного к пользователю.

12. Экран видеомонитора находится на расстоянии 600-700 мм от глаз пользователя (на рис.1. – 650 мм).

13. Уровень глаз при вертикально расположенном экране монитора приходится на центр или 2/3 высоты экрана. Линия взора перпендикулярна центру экрана.

7.8 Расчет освещенности

Воспользуемся методом коэффициента использования светового потока, для определения светового потока от ламп общего освещения.

Для определения количества светильников определим световой поток, падающий на поверхность по формуле:

, где

– рассчитываемый световой поток, Лм;

– нормированная минимальная освещенность, Лк. Принимаем равной 750 Лк при газоразрядных лампах, для комбинированного освещения;

– площадь освещаемого помещения, в нашем случае 42 м2 ;

– отношение средней освещенности к минимальной, принимаем равным 1.1;

– коэффициент запаса, учитывающий уменьшение светового потока лампы в результате загрязнения светильников в процессе эксплуатации. Для люминесцентных ламп в помещениях с низким количеством выделения пыли принимаем равным 1.5;

– количество светильников;

– коэффициент использования, (выражается отношением светового потока, падающего на расчетную поверхность, к суммарному потоку всех ламп, и исчисляется в долях единицы. Зависит от характеристик светильника, размеров помещения, окраски стен и потолка, характеризуемых коэффициентами отражения от стен , потолка и от пола . Значение этих коэффициентов определяется по таблице зависимостей коэффициентов отражения от характера поверхности:

=50% – побеленные стены при не занавешенных окнах;

=70% – побеленный потолок;

=10% – рабочая поверхность темного цвета.

Значение определим по таблице коэффициентов использования различных светильников. Для этого вычислим индекс помещения по формуле:

, где

=4м – высота помещения;

=0.8м – высота рабочей поверхности;

=0.2м – высота свеса светильника;

– расчетная высота подвеса, ;

– ширина помещения;

– длина помещения.

Подставив значения получим:

Зная индекс помещения , , и по таблицам находим . В качестве светильника выберем: ЛВ003 – 2 х 20 – 001.

Освещенность для систем комбинированного освещения состоит из суммы общей освещенности и местной освещенности:

Поскольку для газоразрядных ламп наименьшее и наибольшее значение освещенности должны приниматься в диапазоне: Возьмем значение общей освещенности равным 200 Лк.

При расчете люминесцентного освещения первоначально намечают число рядов светильников . Которое подставляется в формулу для расчета вместо . Тогда под подразумевается световой поток светильников одного ряда.

Рекомендуемое отношение расстояний между светильниками к расчетной высоте не должно превышать 0.6, получаем =1.8м.

Тогда число рядов светильников N можно получить из формулы:

Мы выбираем =4 и подставляя его в формулу получаем:

Определим число светильников в ряду:

, где

– световой поток одного светильника. Для определения необходимо выбрать светильник.

В этом светильнике применяются две лампы ЛБ – 20 со световым потоком 1900 Лм каждая. Тогда, получаем что суммарный световое поток светильника будет равен F1 = 3800 Лм.

Габаритные размеры светильника (мм): 1275 х 310 х 115

Определим число светильников в ряду:

т.е. два светильника.

Для расчета местного освещения воспользуемся точечным методом.

Для определения светового потока Fл от лампы местного освещения, создающей на рабочей поверхности освещенность , будем использовать формулу:

, где

– коэффициент запаса, принимаем =1.3.

– коэффициент, учитывающий влияние отраженного света и удаленных светильников. Например, светильников местного освещения соседних рабочих мест. Принимаем равным 1.1.

= 550 Лк – нормированная местная освещенность.

– условная освещенность. Условная освещенность, создаваемая условной лампой со световым потоком = 1000 Лм, зависит от светораспределения светильника и определяется по графикам пространственных изолюкс.

При h=0.4м (высота подвеса светильника над уровнем рабочей поверхности) и d=0.3м (расстояние от следа светильника на уровень рабочей поверхности до расчетной точки) находим ε = 400. Тогда, подставляя все значения в формулу получаем:

лк

Необходимо выбрать лампу для местного освещения с таким световым потоком. Допускается отклонение светового потока выбранной лампы от расчетного от –10% до +20%. Исходя из полученного значения выбираем лампу местного освещения МО24 - 100 с мощностью 100.

Выводы по главе «Экологическая безопасность и безопасность жизнедеятельности»

В данном разделе дипломного проекта были рассмотрены вопросы, касающиеся организации оптимального рабочего места программиста.

На основании анализа литературы по данной проблеме и проведенных расчетов, были получены оптимальные параметры рабочего места и помещения.

Соблюдение условий, определяющих оптимальную организацию рабочего места и рабочего графика программиста, позволит сохранить хорошую работоспособность в течение всего рабочего дня, повысит как в количественном, так и в качественном отношениях производительность и безопасность труда.

Заключение

В рамках дипломного проекта была разработана система оптического распознавания текста СиРТ.

В частности, был проведен обзор существующих топологий нейронных сетей и их применимости для решения задач оптического распознавания символов. Была рассмотрена архитектура сети «неокогнитрон», которая предназначена для распознавания любых графических образов и основана на модели человеческого зрения.

Была предложена архитектура модульной системы распознавания текста, в которой каждый этап распознавания реализуется отдельным компонентом, а связь между компонентами (в том числе — обратная связь) осуществляется управляющей программой.

Предложенная система была реализована в виде программы и набора библиотек на языке программирования C с использованием набора кросс-платформенных библиотек Glib. Объём программы составил около 226 килобайт (6122 строки). Данная система может быть использована как в качестве самостоятельного приложения для распознавания текста, так и в качестве встраиваемого компонента для других программ, добавляя в эти программы возможность распознавания текста. Разработанная система является свободным и открытым программным обеспечением (распространяется под лицензией GPLv3), что позволяет использовать её как для личных, так и для научных или коммерческих целей без существенных ограничений и практически бесплатно.

Исследование разработанной системы показало, что она способна корректно распознавать любые символы, которые покрываются обучающей последовательностью. Существует масса возможностей для дальнейшего развития системы, включая реализацию дополнительных модулей, оптимизацию процесса вычислений и введение обратной связи.

Литература

1. Mohamed Cheriet, Nawwaf Kharma, Cheng-Lin Liu, Ching Y. Suen. Character Recognition Systems: A Guide for Students and Practitioners. - Wiley-Interscience: Ноябрь, 2007. - 360 с.

2. Kunihiko Fukushima. Neocognitron for handwritten digit recognition. Neurocomputing 51 (2003) 161 – 180

3. Kunihiko Fukushima, Masashi Tanigawa. Use of different thresholds in learning and recognition. Neurocomputing 11 (1996) 1-17

4. Kunihiko Fukushima, Ken-ichi Nagahara, Hayaru Shouno. Training Neocognitron to Recognize Handwritten Digits in the Real World. Proceedings of the 2nd AIZU International Symposium on Parallel Algorithms / Architecture Synthesis (1997) 292 -298

5. Ясницкий Л.Н. Метод фиктивных канонических областей в механике сплошных сред. – М.: Наука, Гл. ред.физ-мат.лит., 1992. – 128с.

6. Экология и безопасность жизнедеятельности. Методические указания по дипломному проектированию. 1999г

7. Основы научной организации труда на предприятии / Под общ. ред. И.А. Полякова. – М.: 1987.

8. Оценка освещения рабочих мест. Методические указания МУ ОТ РМ 01-98/МУ 2.2.4 706-98. – М.: Апрохим, 1998.

9. Положение о порядке проведения аттестации рабочих мест по условиям труда / М-во труда и соц. развития РФ; сост. М. Ф. Маркова и др. – М.: «ОБТ», 1997. – 108с.

10. Шепеленко С.Г. Организация, нормирование и оплата труда на предприятии. – М.: Март, 2004. – 158с.

11. Методические указания по организационно-экономической части дипломных проектов, -М: МИРЗА, 1991.