Форум портала

Форум портала "Архивы России" (http://forum.rusarchives.ru/index.php)
-   Архивные документы в Сети (http://forum.rusarchives.ru/forumdisplay.php?f=38)
-   -   Проект по метрическим книгам, возобновление работ (http://forum.rusarchives.ru/showthread.php?t=5801)

Елена Суслова 20.12.2013 06:56

Спасибо за советы, к сожалению, все ветки просматривать не получается в силу занятости.
По поводу предупреждений об ошибках я думала, без этого не получится. Так как быстро устранить то, что создалось технически не выйдет. Пытаемся понять технологию появления повторных записей, может если подскажут разработчики, то удастся их выявить программно?
Приведу пример: Откроем расширенный поиск по Документам. В нем не работает поиск по всем полям кроме Источника информации, пишем там ГАПК, ищем. Получаем список всех дел, визуально одинаковых не видно, но их 60 штук.
Но проблема не в этом. Открываем ф. 37.Оп.6. Д.102б, получаем список из 9 строк. На первый взгляд это МК за разные годы, но по мере открывания, можно увидеть, что заголовок одинаковый и у одних записей есть привязка к образам (страницам), у других нет. Существует еще привязка по идентификатору к записям персон, так вот выявить где она есть, а где нет пока сложно. Если ее точно нет, то хорошо, а вдруг есть, тогда могут потеряться персоны...
Предположительно, пустые записи появлялись при ошибочном введении и исправлении информации операторами, так ли это - знают только разработчики.

vam 20.12.2013 07:30

Указания на ошибки, замечания всегда звучали в адрес проекта.
Статистикой, конечно, никто не занимался, но она полностью раскрывает проблему.
Мне кажется, что немного зациклились на Концепции, это же не Сколково, где миллиарды на входе - нули на выходе, и это все необходимо обосновать.
Структуру (если я правильно понял проблему) лучше сохранить архивную: Фонд - опись - дело.

Елена Суслова 20.12.2013 08:31

Еще несколько слов о планах.
Сейчас идет работа по 3 уровням:
1. Дело (Ф. Оп. Д.) - оно может быть описано (создана запись в БД с перечнем МК в деле), отсканировано и выложено на сайте, проиндексировано на уровне персон.
2. Метрические книги (Ф.Оп.Д., привязка к н.п., приходу), так же либо только описание, сканы, либо индексация по персонам.
3. Список проиндексированных персон (поля в соответствии с источником - МК), для отбора есть список имен и список населенных пунктов, которые использовались при наполнении базы.
На этих уровнях можно выводить разную статистику, например по кол-ву рождений, смертей и браков, по кол-ву одинаковых фамилий и по полу, по кол-ву встречающихся в МК населенных пунктов. Это делать не сложно и этот вопрос еще будет обсуждаться со специалистами, какая информация поможет при поиске.

KommE 20.12.2013 11:46

Уважаемый vam, а не кажется ли Вам, что предлагая сохранить «Структуру (если я правильно понял проблему) лучше сохранить архивную: Фонд - опись – дело», Вы заранее обрекаете поиск на объем всех листов, схлопнутых в один файл дела?

Трудозатраты и качество поиска будут обречены на необходимость дополнительных инструментов, налагаемых на схлопнутый файл всех листов. С тем, чтобы выявить объект поиска (например, фамилию).

Вот и Елена пишет: «Мне кажется не совсем верным сканировать полистно все дело (нумерация отсканированных страниц сквозная по всему делу, в котором несколько МК), поэтому так много повторных записей, к части есть изображения, к части нет».

vam 22.12.2013 16:19

Значит я неправильно понял проблему, и структуру никак не связывал с поиском.
Конечно поиск необходимо сделать до листа.
Тем более, что ЭЛАР реализовал поиск до листа с маркером записи.
В деле, как правило, несколько документов (РС, МК), они могут быть за разные годы.
Кроме того, полистно отсканировано и индексировано большое количество дел, и, как я понял, схлопывать дела в один файл никто не предлагает.

KommE 23.12.2013 01:14

С листа? Может быть, с документа, а затем – с листа?

Если с документа, то должно появиться его наименование? Как в EAD Кодированном архивном описании? Кстати, в международном стандарте отсутствует понятие «маркер записи». Таким образом, Исполнитель государственного заказа, вводя нестандартное описание архивной коллекции/фонда, заведомо что сделал?..

Елена Суслова 23.12.2013 12:37

Проектирование систем всегда начинается с обдумывания поиска, т.е. с использования массива информации. Удобство, быстрое получение результатов поиска, дополнительная статистика – отсюда набор полей и структура.
Я догадываюсь, почему единицей сканирования было выбрано дело, сейчас, как я говорила, в папке с номером Дела находятся ВСЕ листы дела – отдельные файлы. Но это еще ничего, т.к. выделить документ (МК или РС) набором файлов просто, правда не автоматически, надо найти и указать первый лист МК и последний.
Проблема будет с теми сканами, которые сохранены - 1 дело - 1 PDF файл (так сканируются сейчас дела в ГАПК), по сути, придется один файл разбить на много файлов (на листы или документы).

Если кто-то сканирует таким же образом – вы создаете массу проблем при дальнейшем использовании. Документ должен быть выделен сразу при сканировании, иначе при описании будут сложности. Он может лежать постранично в папке (Ф.Оп.Д.ЛЛ.Заголовок документа) или объединен в одном многостраничном PDF файле с подобным названием.

Если я непонятно объяснила, звоните или пишите на электронку.
Понятно, что у ЭЛАР свои технологии (ПО для индексации БД) и в принципе такое сохранение дел удобно, но эти технологии они забирают с собой, после выхода из проекта, они не являются собственностью Заказчика.
Вопрос? как заполнять БД дальше... особенно индексировать... по-моему, комментарии излишни.

vam 24.12.2013 08:01

Цитата:

Сообщение от KommE (Сообщение 15531)
С листа? Может быть, с документа, а затем – с листа?

Если с документа, то должно появиться его наименование? Как в EAD Кодированном архивном описании? Кстати, в международном стандарте отсутствует понятие «маркер записи». Таким образом, Исполнитель государственного заказа, вводя нестандартное описание архивной коллекции/фонда, заведомо что сделал?..

Спасибо за информацию о международном стандарте, но я не исполнитель государственного заказа, поэтому со мной можно общаться попроще.
Документ, например, ревизская сказка может быть на 100 листах и более, а на одном листе может быть не один десяток фамилий
Элементарный архивный поиск всегда подразумевает ссылку на лист.
Под маркером записи я имел в виду выделенный текст по ссылке.
На ОБД-Мемориал он реализован - никакие международные стандарты не помешали. Кстати, неплохой сервис для поиска в рукописном документе.

KommE 28.12.2013 01:13

Уважаемый Vam, Вы пишите: «На ОБД-Мемориал он реализован - никакие международные стандарты не помешали. Кстати, неплохой сервис для поиска в рукописном документе.»

Сервис? Ничего ж себе! Обратили внимание на реплику Елены: «…но эти технологии они забирают с собой, после выхода из проекта, они не являются собственностью Заказчика»?

Это сервис? А может правильнее – монополия, мамона?

«Хочу узнать, что такое служить мамоне, когда все работаем, зарабатывая деньги, и мало кто из нас имеет такие накопления, которые являются мамоной. В смысле, с какой суммы начинается мамона?

- А сказано, богатство. Потому что для одного богатство - это средство, а для другого богатство - это цель. Страсть. А цель, должна быть Бог. Вот и все. Если у человека цель - богатство, то это есть грех, цель должна быть Бог. А богатства, как физическая сила, талант, способности, должны служить тому, чтобы человек приблизился к Богу, а не для того, чтобы богатство как таковое иметь. Тут все ясно, как Божий день. Человек идет на работу, получает за это жалованье. Бог труды любит. Человек что, разве мамоне служит?
Мамона, это служение чему-то, кроме Бога. Именно богатству, потому что на самом деле, богатство может быть разное».

http://radonezh.ru/radio/text/14604.html

vam 30.12.2013 22:59

В отношении духовных ценностей с Вами согласен.
Если уйдет ПО для индексации, будет создана какая-то замена, а это уже антимонополия.


Часовой пояс GMT +4, время: 11:10.

Powered by vBulletin® Version 3.8.6
Copyright ©2000 - 2021, Jelsoft Enterprises Ltd. Перевод: zCarot
© Портал "Архивы России", 2008-2015