Правда и ложь о Катыни
Вы хотите отреагировать на этот пост ? Создайте аккаунт всего в несколько кликов или войдите на форум.

Правда и ложь о Катыни

Форум против фальсификаций катынского дела
 
ФорумПорталГалереяПоискПоследние изображенияРегистрацияВход

 

 Сложности работы с архивными документами

Перейти вниз 
АвторСообщение
Ненец84

Ненец84


Количество сообщений : 1756
Дата регистрации : 2009-07-08

Сложности работы с архивными документами Empty
СообщениеТема: Сложности работы с архивными документами   Сложности работы с архивными документами Icon_minitimeПн Июл 13, 2009 8:37 am

<Писатель Дмитрий Шеин ведет беседу о работе в Центральном Архиве Министерства Обороны (ЦАМО)

http://litl-bro.livejournal.com/5673.html
litl_bro 29-06-2009 10:26 - Re: не раскрыты два фрагмента
>Возможность автоматизировать сканирование, и , главное, - распознавание этого массива (в том числе с учетом качества этих документов)<
Это даже не обсуждается.
1. Документы хранятся сшитыми в виде архивных дел. Толщина одного дела... ну, дела объемом около 600 листов мне попадались. Успехов в сканировании, да - это дело просто раскрыть где-нибудь посередине так, чтобы оно прижалось к стеклу сканера (а иначе половина листа в "сгиб" уйдет) - задача для титана. Расшить? Это можно... только расшитые дела исследователям не выдаются.
Да, забыл сказать - общее количество дел периода Великой Отечественной войны в ЦАМО ЕМНИП 8 миллионов. Дел, подчеркиваю. Не документов.
2. Технические проблемы самого сканирования. Есть документы, представляющие собой где-нибудь пятую-шестую копию через очень сильно юзаную копирку на изначально небелой бумаге. Очертания букв скорее угадываются, нежели читаются. Есть документы, написанные/напечатанные на папиросной бумаге, весь "оборот" на "лице", все "лицо" на "обороте". Есть документы, написанные на упаковочной бумаге тупым твердым карандашом. Успехов в сканировании, да.
Про карты (размером так три на пять метров) даже не упоминаю - неинтересно.
3. Распознавание. Желающие могут скачать pdf какой-либо из директив на проведение учебных сборов, достать из этого pdf-а tiff любой страницы (300 dpi плюс игра level-ами в Фотожабе для повышения читаемости), бросить его в файнридер - и заплакать. И это - хорошо читаемый машинописный документ. А есть документы, читаемые плохо. Есть рукописные. Намек понятен?

>Систематизация этой здоровущей базы (оценка объемов работы по сравнению с сканом БД Мемориал)<
Все гораздо хуже. Потому что в БД "Мемориал" корректность набора полностью возложена на пользователя, искал данные по прибалту Петеру Будсу (а он в учетных документах как "Петр Буц" значится) - сам себе злобный антропоморфный дендромутант, никто бесплатного рая и не обещал. А с архивом нужно учитывать, что поиск по фамилии "Константинов" может означать также Г.К.Жукова (условная фамилия для переписки на осень 1943-го года), что "Першотравневый" и "Первомайский" - это один и тот же населенный пункт, что "Гитлер-Зее" сейчас называется несколько иначе и т.д. Само построение адекватной поисковой машины - это задача на десятилетия работы. А без поисковой машины все эти терабайты сканов никому не нужны - никто не станет всю жизнь перекачивать к себе десятки, сотни и тысячи терабайт на предмет "посмотрел, понял, что не то, потер, скачал следующее".
Вернуться к началу Перейти вниз
 
Сложности работы с архивными документами
Вернуться к началу 
Страница 1 из 1
 Похожие темы
-
» Финал истории с документами " Пакета № 1".
» И с такими документами поляки уходили на фронт?!
» Возобновление работы сайта "Правда о Катыни"
» Эксгумация Катыни. Археологические и эксгумационные работы
» Кладбища немецких солдат и офицеров в Калинине в 1941 году

Права доступа к этому форуму:Вы не можете отвечать на сообщения
Правда и ложь о Катыни :: Для начала :: Общий форум :: Документы-
Перейти: