БЕСПЛАТНАЯ ПОДГОТОВКА К ЕГЭ ПО ПРОФИЛЬНОЙ МАТЕМАТИКЕ
Подготовься к ЕГЭ-2026 по профильной математике самостоятельно с помощью сервиса "1С:Репетитор"!
Понятная теория и эффективные тренажеры с объяснением! Вы успеете подготовиться к экзамену! Начните занятия прямо сейчас!
design_arrow

Электронный архив

Электронный архив – это организованная информационная система для долговременного хранения, описания, поиска и выдачи цифровых объектов (сканов документов, текстов, таблиц, изображений, аудио/видео, служебных файлов). В информатике электронный архив рассматривают через призму моделей данных, форматов файлов, кодирования, индексации, алгоритмов поиска, оценок объёмов и пропускной способности, резервирования и контроля целостности. Эти навыки напрямую пересекаются с заданиями ЕГЭ: информационные объёмы, кодирование и скорость передачи, файловые структуры, фильтрация и сортировка таблиц, формальные правила именования и работы с данными.

Модель электронного архива

Логические уровни:

  1. Данные – бинарные объекты (файлы) и метаданные (описательные поля).

  2. Схема описания – набор обязательных и необязательных атрибутов (название, дата, автор, раздел, формат, контрольная сумма, версии).

  3. Индекс и поиск – структуры данных (таблицы, деревья, инвертированные индексы), позволяющие находить документы по полям/условиям.

  4. Хранилище – файловая система/объектное хранилище; уровни доступа; резервные копии.

  5. Службы – импорт (в т.ч. OCR для сканов), контроль целостности (хеши), версии, журналы операций.

Ключевые сущности:

  • Объект (файл).

  • Метаданные (поля описания).

  • Коллекция/фонд (логическая группировка).

  • Версия (эволюция содержимого).

  • Ссылка/идентификатор (устойчивый URL/UUID).

Форматы и представление данных

Текст: TXT/CSV/JSON/XML – легко индексируются, компактны; для табличных данных – CSV/TSV.
Изображения: TIFF/PNG/JPEG; для архива предпочтительны форматы без потерь (TIFF/PNG).
Документы: PDF/A (архивный профиль PDF) – фиксирует шрифты и метаданные, оптимален для долгого хранения.
Аудио/видео: lossless/профили с документированными кодеками (FLAC/PCM; для видео – подробные профили и контрольные листы).
Контрольные суммы: MD5/SHA-256/SHA-512 – для проверки неизменности файла (интегритет).
Сжатие: ZIP/7z – контейнеры; важно фиксировать версии и алгоритмы.

Важные для ЕГЭ величины:

  • Объём файла = (количество элементов) × (бит на элемент) / 8.

  • Разрешение скана: пикселей по ширине = ширина (в дюймах) × DPI; по высоте аналогично.

  • Цвет/глубина: 1 бит (ч/б), 8 бит (оттенки серого), 24 бита (цвет RGB).

Метаданные и индексация

Минимальный набор полей (пример):

  • id (уникальный идентификатор, UUID),

  • title (заголовок),

  • date (ISO-8601: YYYY-MM-DD),

  • creator (автор/подразделение),

  • type (вид документа),

  • pages (для многостраничных),

  • checksum (SHA-256),

  • tags (ключевые слова).

Правила:

  • Даты – только ISO (YYYY-MM-DD), числа – с фиксированным форматом.

  • Коды и категории – из ограниченного словаря (справочники).

  • Для поиска по текстам сканов – подключать OCR и хранить распознанный слой (например, PDF с «прозрачным» текстом).

Именование и версионирование

Шаблон имени файла, устойчивый к сортировке:

markdown

КопироватьРедактировать

YYYY-MM-DD__DEPT__TYPE__SEQNNN__TITLE.ext

где YYYY-MM-DD – дата, DEPT – подразделение, TYPE – тип, SEQNNN – порядковый номер с ведущими нулями. Такой шаблон обеспечивает корректный лексикографический (=хронологический) порядок.

Версии: __v001, __v002 в конце имени или хранение версий в метаданных/системе контроля версий (предпочтительно – на уровне системы).

Хранение и доступ

Архитектуры:

  • Локальная ФС (NTFS/ext4/ZFS) – просто, быстро; для одиночных узлов.

  • Объектное хранилище (S3-совместимое) – горизонтально масштабируется, хорошее долговременное хранение.

  • NAS/NFS/SMB – сетевое хранилище.

Надёжность:

  • RAID для отказоустойчивости «на месте», но не замена бэкапу.

  • Стратегия 3-2-1: 3 копии, 2 разных носителя/типа, 1 – вне площадки.

  • WORM/Immutable классы хранилищ – защита от перезаписи/шифровальщиков.

Доступ и безопасность:

  • Роли (RBAC), принцип наименьших привилегий.

  • Шифрование канала (TLS) и покоя (at-rest) при необходимости.

  • Журналы доступа и операций (аудит).

Контроль целостности и дедупликация

  • Хеши (SHA-256) фиксируются при загрузке и проверяются периодически (scrubbing).

  • Дедупликация – устранение дублей по хешу/содержимому, экономит место (важно для массовых сканов и повторяющихся вложений).

  • Периодичность проверок зависит от объёма и SLA (например, выборочная проверка всех объектов раз в N дней).

Поиск и извлечение

Типы запросов:

  • По точному совпадению (id, type, date).

  • По диапазонам (даты, размер, число страниц).

  • По подстроке/полнотекстовый (по title, ocr_text, tags).

Индексы: B-деревья (по полям), инвертированные списки (по словам/термам).
Сортировка: стабильная, по нескольким ключам (например, date ↓, затем title ↑).

Информатика–схема работы электронного архива

Правила построения электронного архива (краткий чек-лист)

  1. Единые форматы и профили. Для документов – PDF/A; для сканов – TIFF/PNG; тексты – UTF-8.

  2. Нормализованные метаданные. ISO-даты, справочники, чёткие правила заполнения.

  3. Именование с ведущими нулями. Чтобы сортировка по имени совпадала с хронологией.

  4. Планируем объёмы. Считаем DPI, глубину цвета, коэффициенты сжатия, годовой прирост.

  5. Резервирование и проверка. 3-2-1, периодические проверки хешей, тест восстановления.

  6. Доступ и аудит. Роли, логи, ограничение внешних интерфейсов, SFTP вместо FTP.

  7. Поиск под задачи. Индексы под реальные запросы, полнотекст по OCR там, где нужно.

Связь с ЕГЭ по информатике

Варианты ЕГЭ требуют:

  • точно считать объёмы (бит/байт, DPI, глубина цвета, коэффициент сжатия);

  • оценивать время передачи по каналу с заданной пропускной способностью;

  • работать с таблицами/CSV (фильтр, сортировка, подсчёты);

  • понимать файловые структуры (каталоги, имена, расширения, кодировки);

  • применять логические условия и аккуратные вычисления без «магических» допущений.

Практика: 5 упражнений в стиле ЕГЭ 

Упражнение 1. Оценка объёма архива сканов

Условие. Нужно оцифровать 12 000 страниц формата A4 в оттенках серого (8 бит/пиксель) с разрешением 300 DPI. Формат хранения – PNG, средний коэффициент сжатия по отношению к «сырым» данным 4:1. Сколько гигабайт займёт архив? Считайте: A4 = 8,27″ × 11,69″.

Решение.
Пикселей по ширине: 8,27 × 300 = 2481 px.
По высоте: 11,69 × 300 = 3507 px.
Пикселей на страницу: 2481 × 3507 = 8 700 867.
Байт на страницу (8 бит на пиксель): 8 700 867 байт ≈ 8,2978 МиБ.
Учтём сжатие 4:1 → ≈ 2,074 МиБ на страницу.
Всего: 12 000 × 2,074 МиБ ≈ 24 888 МиБ24,31 ГиБ.
Ответ: примерно 24,3 ГиБ (имеет смысл планировать 30–35 ГиБ с запасом).

Упражнение 2. Шаблон именования и сортировка

Условие. Выберите такой шаблон имени файла, чтобы сортировка по имени совпадала с хронологией:
A) DD.MM.YYYY__SEQ.txt
B) YYYY-M-D__SEQ.txt
C) YYYY-MM-DD__SEQNNN.txt
D) YY-MM-DD__SEQ.txt

Разбор.
A) Дата в формате DD.MM.YYYY ломает лексикографический порядок (сначала дни).
B) YYYY-M-D без ведущих нулей – строки «2025-1-9» и «2025-01-10» сортируются неправильно.
C) YYYY-MM-DD с ведущими нулями + SEQNNN с ведущими нулями – корректно.
D) YY может привести к неоднозначности столетия.
Ответ: C.

Упражнение 3. Фильтрация и подсчёт по метаданным (CSV)

Условие. В файле docs.csv строки вида
id;date;dept;type;pages
Даны записи:

  1. 1;2024-12-01;HR;Order;3

  2. 2;2024-11-30;HR;Order;5

  3. 3;2024-12-02;Fin;Invoice;2

  4. 4;2024-12-02;HR;Order;4

  5. 5;2024-12-03;Fin;Invoice;10

  6. 6;2024-12-01;IT;Act;7

Найдите:
а) число документов за декабрь 2024;
б) суммарные страницы HR-документов типа Order за декабрь 2024.

Решение.
а) Записи с датами 2024-12-01, 2024-12-02, 2024-12-02, 2024-12-03, 2024-12-01 → всего 5.
б) HR/Order в декабре: id 1 (3 стр.) и id 4 (4 стр.) → 7.
Ответ: а) 5, б) 7.

Упражнение 4. План резервного копирования (RPO/RTO и вместимость)

Условие. Полный объём архива – 180 ГБ. Требуется RPO ≤ 15 минут. Ежедневный полный бэкап в 02:00, инкрементальные одинакового среднего размера 1,2 ГБ.
а) Какую частоту инкрементов выбрать, чтобы уложиться в RPO?
б) Сколько инкрементов будет за сутки и какой суммарный объём займут инкременты за сутки?
в) Каков ориентировочный объём бэкапов за 7 дней при ежедневном полном (каждый 180 ГБ) + инкременты?

Решение.
а) Частота не реже, чем раз в 15 минут.
б) За сутки: 24×60 / 15 = 96 инкрементов; объём: 96 × 1,2 = 115,2 ГБ.
в) За 7 дней: полные – 7 × 180 = 1260 ГБ; инкременты – 7 × 115,2 = 806,4 ГБ.
Итого: 2066,4 ГБ2,02 ТБ.
Ответ: а) 1 инкремент в 15 минут; б) 96 шт., 115,2 ГБ; в) ≈ 2,02 ТБ.

Упражнение 5. Проверка целостности и оценка времени

Условие. Необходимо вычислить и сверить SHA-256 для архива объёмом 600 ГиБ. Скорость чтения/хеширования – стабильно 400 МиБ/с. Оцените время проверки. Дополнительно: в архиве обнаружено 50 копий одного и того же файла по 2,5 ГиБ; при дедупликации хранится одна копия, остальные – ссылки. Сколько места экономим?

Решение.
Хеширование: 600 ГиБ = 600 × 1024 = 614 400 МиБ.
Время: 614 400 / 400 = 1536 с25 мин 36 с.
Дедупликация: сохраняем 1 копию, экономим 49 × 2,5 ГиБ = 122,5 ГиБ.
Ответ: ~25 мин 36 с; экономия ≈122,5 ГиБ.

Итог

Электронный архив в информатике – это строго определённые данные (форматы, кодировки), нормализованные метаданные, предсказуемые имена файлов, индексируемые структуры для поиска, рассчитанные объёмы и надёжная схема резервирования с контролем целостности. Освоив эти принципы, вы уверенно решите задачи на объёмы, скорости, таблицы и алгоритмы поиска/сортировки, а также получите практический навык организации данных «по-взрослому»: так, чтобы их было легко найти, проверить и восстановить через годы.