A
ARA
Анализ документов
Вопросы и ответы по архиву документов

Архив, у которого можно спросить.

Вопрос по корпусу из тысяч сканов — ответ со ссылкой на конкретный абзац-источник. Работает на вашем сервере, документы не покидают периметр.

  • Узбекский, русский, английский — в одном пайплайне
  • Каждый ответ — со ссылкой на страницу-источник
  • Развёртывание на вашей инфраструктуре, открытый стек

Ответ в течение дня.

5 сек → абзац
ответ со ссылкой на источник
Открыть оригинал и сверить — один клик
Свой сервер
документы не уходят в облако
Развёртывание в вашем ЦОДе, не в чужом
Без подписки
фиксированная цена пилота
Открытый стек, оплата за токены не нужна
uz · ru · en
три языка, один поиск
Узбекский, русский, английский — без отдельных моделей
Знакомо?

Архив есть. Ответов из него — нет.

Если в отделе пять сотрудников тратят по 2 часа в день на поиск в документах, это 50 часов в неделю — фактически ставка одного человека в месяц уходит на Ctrl+F. Плюс пропущенные сроки, которые всплывают только при поступлении претензии.

Типовые сценарии:

Юрист

«Нужен пункт о штрафных санкциях из договора 2022 года. Помню, что на 14-й странице, но их там 47». Полчаса листания, и ещё десять минут на проверку, что не пропустил поправку из допсоглашения.

Секретариат

Входящая корреспонденция за день — 80 документов. Каждый нужно открыть, понять, на кого расписать, занести в реестр. Половина дня уходит на то, что машина читает за десять минут.

ИТ-директор

«Бизнес хочет ChatGPT. Безопасность говорит: документы наружу не отдаём. Регулятор просит: покажите, где хранятся персональные данные». Между этими тремя сидеть — невозможно. Облачный сервис эту коллизию не решает.

Аудит / комплаенс

«Покажите журнал: кто, когда, что открывал». А журнала, который собирается автоматически и не редактируется, — нет. Перед каждой проверкой сводят руками из логов трёх систем. Один пропуск — штраф.

До и после

Один и тот же отдел. Две разные недели.

Без ARA
  • Поиск пункта договора — 30 минут листания.
  • Поиск по смыслу невозможен, только Ctrl+F.
  • Один ответ юриста — 2 часа поиска плюс час проверки.
  • Сканы и фотографии документов в поиске не участвуют.
  • Журнал действий собирают вручную перед каждой проверкой.
  • Внешние LLM-сервисы — документы наружу отправлять нельзя.
С ARA
  • Вопрос на естественном языке — ответ за несколько секунд.
  • Поиск по смыслу и по точному слову — в одной строке.
  • Юрист открывает абзац-источник одним кликом и сверяет ответ.
  • Сканы, фото и многостраничные PDF — в одном поиске.
  • Журнал действий пишется автоматически и не редактируется.
  • Модель работает на вашем сервере, документы остаются внутри.
Что меняется для вас лично

У каждой роли в ведомстве — свой день, который становится короче.

ARA меняет рабочий день нескольких конкретных ролей в ведомстве. Вот что получает каждая из них.

Юристам

Найти пункт за 5 секунд, а не за 30 минут

Спрашиваете нормальным языком: «штрафные санкции в договоре с Acme». ARA возвращает абзац и ссылку на страницу-источник. Не надо доверять модели «на слово» — оригинал открывается одним кликом для проверки.

  • Цитата с адресом: документ №, страница, абзац.
  • Допсоглашения и поправки увязаны с основным контрактом.
  • Поиск работает на узбекском, русском и английском одинаково.
Секретариату

80 входящих в день — и ни одного потерянного

Каждый поступивший документ автоматически прочитан: тип определён, имена и даты вытащены, занесён в реестр. Остаётся принять решение «кому расписать» — не вычитывать с нуля. Полдня вашего времени возвращается обратно.

  • Автоматическая классификация: контракт, приказ, обращение.
  • Реквизиты в карточку: №, дата, отправитель, сроки.
  • Сканы из факса и фото с телефона — без отдельного «привести в вид».
ИТ-директору

Закрытый контур, открытый стек, без подписки

Между «бизнес просит AI» и «безопасность запрещает облако» появляется третий вариант. Свой сервер, своя модель, открытые компоненты. Никакого ежемесячного счёта за токены. Бюджет считается один раз.

  • Развёртывание в вашем ЦОДе, не в чужом облаке.
  • Open-source стек: Postgres, RabbitMQ, Qdrant, vLLM, Qwen.
  • Код и данные остаются у вас и могут быть перенесены.
Аудиту и комплаенсу

Журнал, который проходит проверку с первого раза

Каждое действие — загрузка, открытие, запрос — пишется в аудит-журнал с идентификатором пользователя, временем и контекстом. Не редактируется задним числом. Выгружается одним кликом для регулятора.

  • Кто, что, когда, с какого IP — append-only журнал.
  • Каждый ответ LLM привязан к source-фрагменту: проверяемо.
  • Печатная форма журнала — для проверки в один клик.

От папки со сканами — до ответа на вопрос

пять шагов · меньше минуты на типовой документ
1
Загрузка
PDF, скан, фото с телефона
2
Распознавание
текст и страницы вытащены
3
Эмбеддинги
BGE-m3 · 1024 измерения
4
Индексация
Postgres + Qdrant
5
Готово
поиск и вопросы доступны
Что внутри пилота

Восемь компонентов в одном пилоте.

Собранный стек: OCR, эмбеддинги, векторный поиск, дообученная модель, аудит-журнал. Один контракт, одна команда внедрения, одна точка ответственности.

Получить полный список
  • Распознавание текста (uz · ru · en)
    Сканы, фотографии и многостраничные PDF — в одном пайплайне.
  • Извлечение полей в JSON
    Имена, суммы, даты, сроки — по заданной схеме.
  • Семантический поиск и точное совпадение
    Одна строка ищет по смыслу и по точному слову.
  • Вопросы по корпусу со ссылкой
    Каждый ответ снабжён ссылкой на абзац-источник для проверки.
  • Дообучаемая LLM под ваш домен
    Qwen2.5 + LoRA/QLoRA для адаптации модели к вашим документам.
  • Аудит-журнал, готовый к проверке
    Кто загрузил, кто открыл, кто спросил. Append-only, печатается одним кликом.
  • Развёртывание на вашем сервере
    Postgres, RabbitMQ, Qdrant, vLLM — всё локально.
  • Открытый стек
    Открытые компоненты, перенос на другую инфраструктуру возможен.
Условия пилота

Без облака. Без подписки. На вашем сервере.

Пилот разворачивается на вашей инфраструктуре. Документы не покидают периметр. Если решение не подходит — оно снимается с сервера без обязательств.

01
Документы у вас
Файлы не покидают вашу инфраструктуру.
02
Код — у вас
Открытые компоненты, перенос на другую инфраструктуру возможен.
03
Фиксированная стоимость
Пилот по фиксированной цене, без подписки и оплаты за токены.
Стек

Открытые компоненты промышленного уровня

Postgres — источник истины. RabbitMQ — очередь для тяжёлых задач. Qdrant — векторный поиск. vLLM — инференс LLM. Все компоненты заменяемы.

FastAPI
API-шлюз
PostgreSQL
источник истины
Qdrant
векторный поиск
RabbitMQ
очередь задач
PaddleOCR
распознавание
BGE-m3
эмбеддинги
Qwen 2.5
LLM / RAG
LoRA · QLoRA
тонкая настройка
Alembic
миграции
Пилот

Пилот на вашем сервере, на ваших документах.

Разворачиваем пилот на вашей инфраструктуре, показываем работу на вашем корпусе документов. Связаться напрямую можно через Telegram или email.

  • Развёртывание на вашем сервере, документы остаются внутри.
  • Фиксированная стоимость пилота, без подписки.
  • Если решение не подходит — оно снимается с сервера без обязательств.

Ответ в течение дня.