<Писатель Дмитрий Шеин ведет беседу о работе в Центральном Архиве Министерства Обороны (ЦАМО)
http://litl-bro.livejournal.com/5673.html
litl_bro 29-06-2009 10:26 - Re: не раскрыты два фрагмента
>Возможность автоматизировать сканирование, и , главное, - распознавание этого массива (в том числе с учетом качества этих документов)<
Это даже не обсуждается.
1. Документы хранятся сшитыми в виде архивных дел. Толщина одного дела... ну, дела объемом около 600 листов мне попадались. Успехов в сканировании, да - это дело просто раскрыть где-нибудь посередине так, чтобы оно прижалось к стеклу сканера (а иначе половина листа в "сгиб" уйдет) - задача для титана. Расшить? Это можно... только расшитые дела исследователям не выдаются.
Да, забыл сказать - общее количество дел периода Великой Отечественной войны в ЦАМО ЕМНИП 8 миллионов. Дел, подчеркиваю. Не документов.
2. Технические проблемы самого сканирования. Есть документы, представляющие собой где-нибудь пятую-шестую копию через очень сильно юзаную копирку на изначально небелой бумаге. Очертания букв скорее угадываются, нежели читаются. Есть документы, написанные/напечатанные на папиросной бумаге, весь "оборот" на "лице", все "лицо" на "обороте". Есть документы, написанные на упаковочной бумаге тупым твердым карандашом. Успехов в сканировании, да.
Про карты (размером так три на пять метров) даже не упоминаю - неинтересно.
3. Распознавание. Желающие могут скачать pdf какой-либо из директив на проведение учебных сборов, достать из этого pdf-а tiff любой страницы (300 dpi плюс игра level-ами в Фотожабе для повышения читаемости), бросить его в файнридер - и заплакать. И это - хорошо читаемый машинописный документ. А есть документы, читаемые плохо. Есть рукописные. Намек понятен?
>Систематизация этой здоровущей базы (оценка объемов работы по сравнению с сканом БД Мемориал)<
Все гораздо хуже. Потому что в БД "Мемориал" корректность набора полностью возложена на пользователя, искал данные по прибалту Петеру Будсу (а он в учетных документах как "Петр Буц" значится) - сам себе злобный антропоморфный дендромутант, никто бесплатного рая и не обещал. А с архивом нужно учитывать, что поиск по фамилии "Константинов" может означать также Г.К.Жукова (условная фамилия для переписки на осень 1943-го года), что "Першотравневый" и "Первомайский" - это один и тот же населенный пункт, что "Гитлер-Зее" сейчас называется несколько иначе и т.д. Само построение адекватной поисковой машины - это задача на десятилетия работы. А без поисковой машины все эти терабайты сканов никому не нужны - никто не станет всю жизнь перекачивать к себе десятки, сотни и тысячи терабайт на предмет "посмотрел, понял, что не то, потер, скачал следующее".