Форум портала

Форум портала "Архивы России" (http://forum.rusarchives.ru/index.php)
-   Автоматизированные архивные технологии (http://forum.rusarchives.ru/forumdisplay.php?f=32)
-   -   Организация архива, хранение цифрового материала (http://forum.rusarchives.ru/showthread.php?t=5332)

Amba 24.02.2013 19:46

Организация архива, хранение цифрового материала
 
Здравствуйте! Необходимо организовать хранение материалов газеты в цифровом виде? Есть номера газет в цифровом виде за много лет. Формат PDF. Проблема в том что все они находятся сейчас на разных носителях и тяжело работать с таким архивом. Какими нормативно-правовыми актами необходимо руководствоваться для создания подобного рода архива? Конечно можно скопировать все файлы на один жесткий диск, упорядочить в папки по годам – но хотелось бы знать как это правильно делается.

Нонна 24.02.2013 20:30

http://forum.rusarchives.ru/showthre...F0%EE%E5%EA%F2

Tasha 25.02.2013 01:03

Цитата:

Сообщение от Amba (Сообщение 13701)
...хотелось бы знать как это правильно делается.

Я бы рекомендовала подумать о следующем:
  • Предпочтительно собрать материалы на одном носителе, которым может быть, например, жесткий диск компьютера, портативный жёсткий диск. картридж с лентой и т.д.
  • Хранить несколько полных копий, причём как минимум одну - в географически удаленном месте, с тем, чтобы в случае ЧП не потерять ресурс. Отдельно желательно создать рабочие копии. Копий должно быть не менее трёх (лучше больше).
  • Желательно продумать способ контроля целостности массива файлов. Например, можно рассчитать и потом сверять контрольные суммы.
  • Следует регулярно проверять читаемость съёмных носителей, по прошествии половины гарантированного срока службы и/или в случае морального устаревания носителя - перезаписывать.
  • Если графические образы распознаваемы, подумайте о том, чтобы сделать PDF-файлы со вторым слоем в виде распознанного текста, чтобы по ним можно было вести поиск по тексту. Тот же ABBYY Finereader это умеет.
  • Если PDF-файлы будут распознаны, то сложив их на компьютере и установив какое-нибудь средство индексирования, можно получить возможность поиска по всему массиву, что превратит это "хозяйство" в ценный ресурс.
  • Помните, что для удобства пользования PDF-файлы и/или отдельные страницы из них, при желании, несложно объединить в сборники.
  • Напишите собственную инструкцию.

Посмотрите ГОСТ Р 54989-2012/ISO/TR 18492:2005 «Обеспечение долговременной сохранности электронных документов», см. http://www.pk6.eos.ru/upload/pk6/fil...-2005_1red.pdf

Посмотрите также стандарт “Системы электронного документооборота. Управление документацией. Информация, сохраняемая в электронном виде. Рекомендации по обеспечению достоверности и надежности”,
http://www.pk6.eos.ru/upload/pk6/fil...15801-2009.pdf

Amba 19.03.2013 23:45

"Если PDF-файлы будут распознаны, то сложив их на компьютере и установив какое-нибудь средство индексирования"
Да, распознаны! но к сожалению не слышал про средства индексирования для PDF, какие посоветуете?

Tasha 20.03.2013 08:22

Цитата:

Сообщение от Amba (Сообщение 13985)
... к сожалению не слышал про средства индексирования для PDF, какие посоветуете?

Я использую для этой цели ABBYY Finereader. Подаю PDF-файл на вход блока распознавания, и сохраняю результат тоже в виде - уже двухслойного - PDF-файла.

Amba 01.04.2013 13:54

Здравствуйте! Что значит двухслойный pdf? (получается сканированное изображение и распознанный текст?).
У меня уже преобразовано в текстовый вариант, фото вставлено отдельно. Это позволяет производить поиск в отдельном файле. Единственное возник вопрос, т.к. файлов, получается, по 52 на год, архив за 10 лет, то следовательно выходит файлов 520 отдельных файлов – Как наладить поиск среди них? Т.е. хочу искать текст, например незнания статей, фамилии, и т.п. которые содержатся в статьях, которые находятся в файлах. Объединить все в один файл, помогло бы, но нужна довольно мощная машина, да и она может тормозить от таких объёмов, должен быть другой выход. Как быть?

Tasha 01.04.2013 16:13

Цитата:

Сообщение от Amba (Сообщение 14082)
Что значит двухслойный pdf? (получается сканированное изображение и распознанный текст?)

Да, два слоя - это графический слой и слой распознанного текста. Такой файл воспринимается как обычный графический PDF, но при этом работает поиск по тексту и выделение/копирование текста.

Цитата:

Сообщение от Amba (Сообщение 14082)
Как наладить поиск среди них?

Есть несколько вариантов, например:
- Использовать СЭД, электронный архив или иную систему (возможно, облачную), которая индексирует содержимое файлов,
- Поставить у себя на компьютере средство индексации и поиска (типа Google Desktop),
- Слить PDF-файлы, оптимизировав их размер (фактически, за счет качества графики) - но не в один файл, а в несколько файлов, таких, чтобы компьютер с ними "справлялся"
- Освоить имеющуюся в Acrobat-е возможность искать по всем PDF-файлам в каталоге, а не только по текущему файлу

Amba 01.04.2013 23:39

Tasha - спасибо!
Будем юзать

Amba 11.04.2013 15:44

Использовать СЭД, электронный архив или иную систему (возможно, облачную), которая индексирует содержимое файлов, - есть ли бесплатные программы в этой области? Какие посоветуете?
- Поставить у себя на компьютере средство индексации и поиска (типа Google Desktop), - опробовал, не совсем нравятся настройки программы. Нет возможности принудительного запуска индексации. Необходимо каждый раз задавать каталог поиска (а то ищет по всему компьютеру) работники не одобрили. Google давно закрыл этот проект, нет возможности поддержки, да и попросту на сервере не возможно скачать плагины для этой программы.
- Освоить имеющуюся в Acrobat-е возможность искать по всем PDF-файлам в каталоге, а не только по текущему файлу – освоено, очень порадовали результаты.

Хочется специальную программу с понятым интерфейсом, возможностью фиксирования каталога поиска, не только автоматической индексацией но и принудительной, ну и конечно же бесплатную с поддержкой русского языка.

Tasha 11.04.2013 16:13

Цитата:

Сообщение от Amba (Сообщение 14148)
Хочется специальную программу с понятым интерфейсом, возможностью фиксирования каталога поиска, не только автоматической индексацией но и принудительной, ну и конечно же бесплатную с поддержкой русского языка.

Если есть желание поэкспериментировать, то можно посмотреть, например, вот эти ссылки:

Effective File Search
http://www.sowsoft.com/search-ru.htm

Архивариус 3000
http://www.likasoft.com/ru/document-search/

Windows Desktop Search и др.
http://orenkomp.ru/novosti/programmy...pyutere-2.html
http://www.yachaynik.ru/windows-sekr...-na-kompiutere

Персональный поиск "Яндекса"
Copernic Desktop Search
Everything Search Engine
http://cianet.info/viewtopic.php?f=11&t=4803


Часовой пояс GMT +4, время: 17:11.

Powered by vBulletin® Version 3.8.6
Copyright ©2000 - 2020, Jelsoft Enterprises Ltd. Перевод: zCarot
© Портал "Архивы России", 2008-2015