Разделы

scan

Сканирование архива: как оцифровываются архивные документы

Перевод в электронный вид исторических документов и формирование баз данных на основе архивных описей – один из сложнейших видов оцифровки, требующий особого оборудования, технологий и внимательного отношения к оригиналам документов.

Как и во всех остальных отраслях государственной и коммерческой деятельности, оцифровка фондов в государственных и муниципальных архивах служит решению сразу нескольких задач: наведению порядка в фондовом учете, упрощению поиска документов, снижению нагрузки на сотрудников и времени при отработке запросов пользователей, сохранению ветхих оригиналов, переходу к предоставлению архивных услуг в электронном виде, в том числе платных услуг.

Работы по переводу архивных фондов в электронный вид начались еще на рубеже тысячелетий. За прошедшее с тех пор время российскими архивами оцифрованы сотни тысяч исторических документов и описей. Но все равно это лишь малая часть Архивного Фонда РФ.

Два подхода

1. Если условно представить фонды архивного учреждения в виде пирамиды, то основной ее объем будут составлять непосредственно документы, и лишь малую часть на вершине – научно-справочный аппарат (описи), обеспечивающий навигацию по фондам и поиск требуемых дел и документов.


Многие учреждения используют оцифровку для решения разовых, узких задач. По аналогии с внедрением множества программных продуктов под каждую мелкую задачу, такая оцифровка называется «лоскутной». Например, в связи с юбилеем значимой для субъекта РФ личности ожидается увеличение интереса исследователей к архивным документам. Архив получает финансирование, сканирует эти фонды и переводит в формат базы данных 2–3 соответствующие описи.

Например, в связи с юбилеем значимой для субъекта РФ личности ожидается увеличение интереса исследователей к архивным документам. Архив получает финансирование, сканирует эти фонды и переводит в формат базы данных 2–3 соответствующие описи.

Этот путь – несистемный подход, позволяющий отчитаться о выполненной работе в короткий промежуток времени, но никак не отражающийся на общей эффективности работы архива, так как суммарный объем переведенных в электронный вид документов составляет доли процента от фондов учреждений. Многие архивы идут этим путем исключительно из-за недостатка финансирования. Но большинство все-таки понимает, что необходимы долгосрочные, плановые работы.

2. Поэтому многие добиваются длительных программных бюджетов и следуют другой стратегии, гораздо более перспективной с точки зрения развития архивных услуг и онлайн-сервисов. Эту стратегию поддерживает и Федеральное архивное агентство (Росархив).


Приоритет в ней отдается переводу в электронный вид всего научно-справочного аппарата. Этот путь позволяет перейти к полноценному автоматизированному учету фондов, в том числе к созданию единых информационных систем для региональных архивов.

Кроме того, появляется возможность простого и удобного поиска по фондам, что облегчает внутреннюю деятельность и позволяет перейти к предоставлению архивных услуг в электронном виде.

Документы сканируются в текущем режиме при поступлении запросов от пользователей. Для этого архиву достаточно иметь хотя бы один профессиональный сканер. А вот для оцифровки больших по объему массивов, описей, а также особо ценных документов по прежнему привлекаются эксперты из организаций, специализирующихся на сканировании и ретроконверсии.

Специфика оцифровки архивных документов

Теперь рассмотрим чуть подробнее некоторые особенности сканирования и индексирования архивных документов и описей. В отличие, к примеру, от тиражируемых книг, в архивах почти каждый документ уникален. Огромная ответственность ложится на оператора сканирования, который должен увидеть особое состояние документа (ветхость, повреждения, уход текста в корешок, особую сшивку и т.д.) и оперативно настроить оборудование, либо передать документ на реставрацию.

Один из часто сканируемых видов архивных фондов – межевые дела. Это стандартный архивный документ с толстым корешком. Однако среди его листов встречаются вложения формата до А0. Расшивать дела нельзя, протяжную технику не применишь. Исполнитель должен обладать другим классом оборудования – широкоформатными сканерами планетарного типа (пример).

Очень высокое значение приобретает опыт исполнителя, которого привлекают к работам в учреждении. Как показала многолетняя практика, частая перенастройка оборудования, необходимость в режиме реального времени отслеживать качество оригиналов и получаемых электронных образов не под силу новичкам в оцифровке. Если конкурс выиграла такая компания, велики риски значительно увеличить сроки проекта или получить некачественный ресурс (поэтому нужно обязательно досконально проверять подготовленные электронные образы при сдаче работ).

Оборудование

Особенности документов предъявляют симметрично высокие требования и к оборудованию. Для архивных документов можно использовать исключительно бесконтактную сканирующую технику – планетарные сканеры.

Причем сканер должен обладать высочайшими характеристиками разрешения, цветопередачи и контрастности, так как велико наличие неконтрастных, угасающих текстов и изображений. Какое оборудование пользуется популярностью на рынке планетарных сканеров, можно узнать из нашего обзора 2014 года.

Первый такой сканер был разработан ЭЛАР в рамках проекта оцифровки фонда 350 «Ревизские сказки и исповедальные ведомости» Российского государственного архива древних актов. Для того, чтобы сканировать ветхие оригиналы высотой до 50 см и весом до 50 кг, сканер оснащен моторизированной колыбелью. Безопасный уровень силы прижатия к стеклу контролируется несколькими сенсорами.

Особая структура, толщина, вес архивных документов иногда приводят к необходимости разработки специальной техники. Так, в большинстве государственных архивов среди востребованных фондов генеалогической направленности имеются дела толщиной более 30 см и весом до 60 кг: например, материалы переписей населения (переписные книги), документы церковных приходов о рождении и пр. Долгое время, несмотря на востребованность, эти фонды не сканировались по причине отсутствия оборудования. Подходящие сканеры появились на рынке только в конце 2013 г., но сегодня уже завоевали популярность.

Индексирование

Чтобы вести учет и иметь возможность искать документы, их надо проиндексировать – заполнить карточки в АИС. Большинство архивных документов и описей выполнены вручную или с помощью печатной машинки, то есть не поддаются качественному программному распознаванию. Требуется ручная ретроконверсия.

Снова появляются дополнительные требования к исполнителю. Во-первых, он должен обладать достаточным штатом, чтобы выполнить работу в срок. В наиболее масштабных на сегодня проектах по оцифровке архивных фондов участвовало до 700 операторов индексирования. Держать такой постоянный штат невыгодно, поэтому крупные и опытные компании именно для крупных региональных архивных проектов часто привлекают местное население. Впервые такая технология была применена при оцифровке метрических книг для проекта «Поколения Пермского края». Через Центр занятости были временно трудоустроены несколько сот человек. Причем работали они на дому, через специальное приложение.

Классический пример – в старинном документе указана дата 37 мая. Обученный и здравомыслящий оператор, естественно, не стал вносить неверные данные, а уточнил дату по соседним листам метрической книги.

Главный вопрос – как добиться 100% качества? Ведь в ФИО, датах, номерах ошибаться нельзя. На помощь приходят жесткая система контроля качества и технологии. Например, метод двойного ввода, когда информация попадает в Базу данных только после одинакового внесения 2 операторами.

Но все равно остается проблема мертвых языков и написания. При ретроконверсии таких документов на первый план выходит опыт руководителей групп индексирования, которым часто приходится решать и сложные нестандартные задачи.

Описи

А теперь о главном. Как уже отмечалось в начале статьи, перспективной стратегией оцифровки архивных фондов является перевод в электронный вид полного НСА. Это – наиболее сложная работа. Методическими рекомендациями Росархива установлены правила ведения баз данных по архивным описям. Поэтому описи необходимо индексировать по широкому набору полей.

Сложность оцифровки архивных описей учтена, в том числе, в 44-ФЗ «О контрактной системе». Согласно ч. 2 ст. 56 закона, «оказание услуг, связанных с необходимостью допуска подрядчиков, исполнителей к учетным базам данных музеев, архивов, библиотек» является основанием для проведения конкурса с ограниченным участием (участие ограничено результатами предквалификационного отбора). То есть только после подтверждения претендентом своих компетенций и опыта выполнения аналогичных проектов.

Дмитрий Шулинин, UserGate: Выиграли те, кто полагался на SIEM собственной разработки
Безопасность

Описи, как и документы, могут быть ветхими и написаны на одном из мертвых языков. Описи могут иметь очень сложную структуру и содержать персональные данные. Отличается формат описей для обычной и научно-технической документации, а также объектов нефондового учета. Сформированную базу данных надо заносить в программный комплекс «Архивный фонд» и т.д.

Без глубокого понимания процессов архивной деятельности, знания нормативной и методологической базы осуществить качественный перевод НСА в электронный вид не получится. Поэтому необходимо доверять оцифровку только проверенным компаниям, доказавшим на деле свое умение обращаться с архивными фондами. А оценить бюджет можно, заказав бесплатную экспертизу.

Павел Притула