Электронный архив – это организованная информационная система для долговременного хранения, описания, поиска и выдачи цифровых объектов (сканов документов, текстов, таблиц, изображений, аудио/видео, служебных файлов). В информатике электронный архив рассматривают через призму моделей данных, форматов файлов, кодирования, индексации, алгоритмов поиска, оценок объёмов и пропускной способности, резервирования и контроля целостности. Эти навыки напрямую пересекаются с заданиями ЕГЭ: информационные объёмы, кодирование и скорость передачи, файловые структуры, фильтрация и сортировка таблиц, формальные правила именования и работы с данными.
Логические уровни:
Данные – бинарные объекты (файлы) и метаданные (описательные поля).
Схема описания – набор обязательных и необязательных атрибутов (название, дата, автор, раздел, формат, контрольная сумма, версии).
Индекс и поиск – структуры данных (таблицы, деревья, инвертированные индексы), позволяющие находить документы по полям/условиям.
Хранилище – файловая система/объектное хранилище; уровни доступа; резервные копии.
Службы – импорт (в т.ч. OCR для сканов), контроль целостности (хеши), версии, журналы операций.
Ключевые сущности:
Объект (файл).
Метаданные (поля описания).
Коллекция/фонд (логическая группировка).
Версия (эволюция содержимого).
Ссылка/идентификатор (устойчивый URL/UUID).
Текст: TXT/CSV/JSON/XML – легко индексируются, компактны; для табличных данных – CSV/TSV.
Изображения: TIFF/PNG/JPEG; для архива предпочтительны форматы без потерь (TIFF/PNG).
Документы: PDF/A (архивный профиль PDF) – фиксирует шрифты и метаданные, оптимален для долгого хранения.
Аудио/видео: lossless/профили с документированными кодеками (FLAC/PCM; для видео – подробные профили и контрольные листы).
Контрольные суммы: MD5/SHA-256/SHA-512 – для проверки неизменности файла (интегритет).
Сжатие: ZIP/7z – контейнеры; важно фиксировать версии и алгоритмы.
Важные для ЕГЭ величины:
Объём файла = (количество элементов) × (бит на элемент) / 8.
Разрешение скана: пикселей по ширине = ширина (в дюймах) × DPI; по высоте аналогично.
Цвет/глубина: 1 бит (ч/б), 8 бит (оттенки серого), 24 бита (цвет RGB).
Минимальный набор полей (пример):
id (уникальный идентификатор, UUID),
title (заголовок),
date (ISO-8601: YYYY-MM-DD),
creator (автор/подразделение),
type (вид документа),
pages (для многостраничных),
checksum (SHA-256),
tags (ключевые слова).
Правила:
Даты – только ISO (YYYY-MM-DD), числа – с фиксированным форматом.
Коды и категории – из ограниченного словаря (справочники).
Для поиска по текстам сканов – подключать OCR и хранить распознанный слой (например, PDF с «прозрачным» текстом).
Шаблон имени файла, устойчивый к сортировке:
markdown
КопироватьРедактировать
YYYY-MM-DD__DEPT__TYPE__SEQNNN__TITLE.ext
где YYYY-MM-DD – дата, DEPT – подразделение, TYPE – тип, SEQNNN – порядковый номер с ведущими нулями. Такой шаблон обеспечивает корректный лексикографический (=хронологический) порядок.
Версии: __v001, __v002 в конце имени или хранение версий в метаданных/системе контроля версий (предпочтительно – на уровне системы).
Архитектуры:
Локальная ФС (NTFS/ext4/ZFS) – просто, быстро; для одиночных узлов.
Объектное хранилище (S3-совместимое) – горизонтально масштабируется, хорошее долговременное хранение.
NAS/NFS/SMB – сетевое хранилище.
Надёжность:
RAID для отказоустойчивости «на месте», но не замена бэкапу.
Стратегия 3-2-1: 3 копии, 2 разных носителя/типа, 1 – вне площадки.
WORM/Immutable классы хранилищ – защита от перезаписи/шифровальщиков.
Доступ и безопасность:
Роли (RBAC), принцип наименьших привилегий.
Шифрование канала (TLS) и покоя (at-rest) при необходимости.
Журналы доступа и операций (аудит).
Контроль целостности и дедупликация
Хеши (SHA-256) фиксируются при загрузке и проверяются периодически (scrubbing).
Дедупликация – устранение дублей по хешу/содержимому, экономит место (важно для массовых сканов и повторяющихся вложений).
Периодичность проверок зависит от объёма и SLA (например, выборочная проверка всех объектов раз в N дней).
Типы запросов:
По точному совпадению (id, type, date).
По диапазонам (даты, размер, число страниц).
По подстроке/полнотекстовый (по title, ocr_text, tags).
Индексы: B-деревья (по полям), инвертированные списки (по словам/термам).
Сортировка: стабильная, по нескольким ключам (например, date ↓, затем title ↑).

Единые форматы и профили. Для документов – PDF/A; для сканов – TIFF/PNG; тексты – UTF-8.
Нормализованные метаданные. ISO-даты, справочники, чёткие правила заполнения.
Именование с ведущими нулями. Чтобы сортировка по имени совпадала с хронологией.
Планируем объёмы. Считаем DPI, глубину цвета, коэффициенты сжатия, годовой прирост.
Резервирование и проверка. 3-2-1, периодические проверки хешей, тест восстановления.
Доступ и аудит. Роли, логи, ограничение внешних интерфейсов, SFTP вместо FTP.
Поиск под задачи. Индексы под реальные запросы, полнотекст по OCR там, где нужно.
Варианты ЕГЭ требуют:
точно считать объёмы (бит/байт, DPI, глубина цвета, коэффициент сжатия);
оценивать время передачи по каналу с заданной пропускной способностью;
работать с таблицами/CSV (фильтр, сортировка, подсчёты);
понимать файловые структуры (каталоги, имена, расширения, кодировки);
применять логические условия и аккуратные вычисления без «магических» допущений.
Упражнение 1. Оценка объёма архива сканов
Условие. Нужно оцифровать 12 000 страниц формата A4 в оттенках серого (8 бит/пиксель) с разрешением 300 DPI. Формат хранения – PNG, средний коэффициент сжатия по отношению к «сырым» данным 4:1. Сколько гигабайт займёт архив? Считайте: A4 = 8,27″ × 11,69″.
Решение.
Пикселей по ширине: 8,27 × 300 = 2481 px.
По высоте: 11,69 × 300 = 3507 px.
Пикселей на страницу: 2481 × 3507 = 8 700 867.
Байт на страницу (8 бит на пиксель): 8 700 867 байт ≈ 8,2978 МиБ.
Учтём сжатие 4:1 → ≈ 2,074 МиБ на страницу.
Всего: 12 000 × 2,074 МиБ ≈ 24 888 МиБ ≈ 24,31 ГиБ.
Ответ: примерно 24,3 ГиБ (имеет смысл планировать 30–35 ГиБ с запасом).
Упражнение 2. Шаблон именования и сортировка
Условие. Выберите такой шаблон имени файла, чтобы сортировка по имени совпадала с хронологией:
A) DD.MM.YYYY__SEQ.txt
B) YYYY-M-D__SEQ.txt
C) YYYY-MM-DD__SEQNNN.txt
D) YY-MM-DD__SEQ.txt
Разбор.
A) Дата в формате DD.MM.YYYY ломает лексикографический порядок (сначала дни).
B) YYYY-M-D без ведущих нулей – строки «2025-1-9» и «2025-01-10» сортируются неправильно.
C) YYYY-MM-DD с ведущими нулями + SEQNNN с ведущими нулями – корректно.
D) YY может привести к неоднозначности столетия.
Ответ: C.
Упражнение 3. Фильтрация и подсчёт по метаданным (CSV)
Условие. В файле docs.csv строки вида
id;date;dept;type;pages
Даны записи:
1;2024-12-01;HR;Order;3
2;2024-11-30;HR;Order;5
3;2024-12-02;Fin;Invoice;2
4;2024-12-02;HR;Order;4
5;2024-12-03;Fin;Invoice;10
6;2024-12-01;IT;Act;7
Найдите:
а) число документов за декабрь 2024;
б) суммарные страницы HR-документов типа Order за декабрь 2024.
Решение.
а) Записи с датами 2024-12-01, 2024-12-02, 2024-12-02, 2024-12-03, 2024-12-01 → всего 5.
б) HR/Order в декабре: id 1 (3 стр.) и id 4 (4 стр.) → 7.
Ответ: а) 5, б) 7.
Упражнение 4. План резервного копирования (RPO/RTO и вместимость)
Условие. Полный объём архива – 180 ГБ. Требуется RPO ≤ 15 минут. Ежедневный полный бэкап в 02:00, инкрементальные одинакового среднего размера 1,2 ГБ.
а) Какую частоту инкрементов выбрать, чтобы уложиться в RPO?
б) Сколько инкрементов будет за сутки и какой суммарный объём займут инкременты за сутки?
в) Каков ориентировочный объём бэкапов за 7 дней при ежедневном полном (каждый 180 ГБ) + инкременты?
Решение.
а) Частота не реже, чем раз в 15 минут.
б) За сутки: 24×60 / 15 = 96 инкрементов; объём: 96 × 1,2 = 115,2 ГБ.
в) За 7 дней: полные – 7 × 180 = 1260 ГБ; инкременты – 7 × 115,2 = 806,4 ГБ.
Итого: 2066,4 ГБ ≈ 2,02 ТБ.
Ответ: а) 1 инкремент в 15 минут; б) 96 шт., 115,2 ГБ; в) ≈ 2,02 ТБ.
Упражнение 5. Проверка целостности и оценка времени
Условие. Необходимо вычислить и сверить SHA-256 для архива объёмом 600 ГиБ. Скорость чтения/хеширования – стабильно 400 МиБ/с. Оцените время проверки. Дополнительно: в архиве обнаружено 50 копий одного и того же файла по 2,5 ГиБ; при дедупликации хранится одна копия, остальные – ссылки. Сколько места экономим?
Решение.
Хеширование: 600 ГиБ = 600 × 1024 = 614 400 МиБ.
Время: 614 400 / 400 = 1536 с ≈ 25 мин 36 с.
Дедупликация: сохраняем 1 копию, экономим 49 × 2,5 ГиБ = 122,5 ГиБ.
Ответ: ~25 мин 36 с; экономия ≈122,5 ГиБ.
Электронный архив в информатике – это строго определённые данные (форматы, кодировки), нормализованные метаданные, предсказуемые имена файлов, индексируемые структуры для поиска, рассчитанные объёмы и надёжная схема резервирования с контролем целостности. Освоив эти принципы, вы уверенно решите задачи на объёмы, скорости, таблицы и алгоритмы поиска/сортировки, а также получите практический навык организации данных «по-взрослому»: так, чтобы их было легко найти, проверить и восстановить через годы.