Стейкхолдеры со стороны заказчика:
- Представители комплаенс-службы (банки, промышленные предприятия)
- Руководители юридических департаментов
- Руководители цифровых направлений / ИТ-директора
Целевая аудитория проекта:
- Специалисты по внутреннему контролю и KYC/AML
- Юристы, работающие с нормативными и регуляторными актами
- Операционные сотрудники, которые взаимодействуют с регламентами
- Интеграторы и системные аналитики
Контакты и вовлечение:
- Уже проведены предварительные встречи с представителями крупных банков и производственных компаний
- Получен живой интерес к решению со стороны комплаенс-офицеров и руководства
Ключевая особенность:
- Платформа ориентирована на on-premise развёртывание: заказчики (особенно из банковского и промышленного секторов) требуют полного контроля над инфраструктурой и данными
- Поддержка локальных как локальных LLM (Mistral, LLaMA, ExLlama) и закрытого периметра, так и работа по API
- Возможность кастомизации и расширения под внутренние политики (ВНД, приказы, регламенты)
- Повысить скорость и качество интерпретации сложных регуляторных документов.
- Снизить количество ошибок при применении норм (особенно в сценариях быстрого принятия решений — блокировка подозрительных операций, KYC).
- Сократить нагрузку на юридическую службу, предоставив сотрудникам first-line tool на базе ИИ.
- Повысить уровень автоматизации бизнес-процессов комплаенс-проверок.
На рынке присутствуют решения от крупных международных компаний (OpenAI, Google, Microsoft), а также от отдельных open-source сообществ. Однако у этих решений есть существенные ограничения:
- Облачные Big Tech-сервисы (например, Azure OpenAI, Google Vertex AI) не подходят для многих компаний из-за ограничений по безопасности и политике обработки данных. Эти решения предполагают отправку запросов во внешнее облако, что недопустимо для банков, госкомпаний и промышленности.
- RAGFlow — одно из немногих open-source решений с визуальным интерфейсом, но:
- Плохо справляется с русским языком
- Не может корректно обрабатывать юридически сложные и формализованные документы (например, 115-ФЗ, положения ЦБ РФ)
- Нет качественной поддержки инструкций и цепочек размышлений (Chain-of-Thought), необходимых для юридического домена
- Внутренние справочные системы (например, корпоративные порталы, базы знаний) не обладают семантическим поиском и не способны интерпретировать формулировки нормативных документов
Ресурсы:
- Есть доступ к GPU fine-tuning и запуска inference
- Доступ к LLM через open-source модели (например, Mistral, Llama), а также локальный deployment
Данные:
- Тексты нормативных документов в PDF/DOCX и структурированных HTML-формах
- Возможность получать документы из правовых систем (например, Консультант+ через API)
- Возможно расширение за счёт внутренних политик, приказов, регламентов
Поддержка:
- Поддержки не планируется
Риски:
| Риск | Митигирующее действие |
|---|---|
| Недостаточное качество данных | Использовать OCR, структурировать документы, использовать semantic chunking |
| Отсутствие явно выраженных закономерностей | Тестировать на заранее отобранных вопросах, использовать human-in-the-loop |
| Проблемы с воспроизводимостью ответов | Использовать проверяемые источники и цепочку RAG с прозрачным log-потоком |
- Построение RAG-модуля с поддержкой:
- Семантического поиска по chunk-репрезентациям документа (BM25 + Dense Retrieval)
- Генерации ответа на базе LLM (instruction-tuned)
- Проверки обоснованности ответа (source highlighting)
Метрики:
- Semantic Answer Similarity (например, BLEU, ROUGE, BERTScore)
- точность нахождения релевантных chunk'ов
- User Satisfaction Score (опрос пользователей)
- Precision/Recall по релевантности retrieved документа
Критерии успешности:
- Top-1 Precision ≥ 0.75
- Answer Relevance Score ≥ 4/5 по оценке пользователей
- Среднее время ответа ≤ 2 секунды
| Этап | Содержание | Длительность |
|---|---|---|
| 1. Business Understanding | Бизнес-анализ, сбор требований, интервью с юристами | 1 неделя |
| 2. Data Understanding | Исследование доступных документов, аннотирование chunk'ов | 1 неделя |
| 3. Data Preparation | Очистка, парсинг, chunking, генерация семантических embedding'ов | 2 недели |
| 4. Modeling | Обучение retriever, настройка LLM, настройка chain-of-thought и т.д | 2–3 недели |
| 5. Evaluation | Оценка метрик, ручная валидация, UX-тестирование | 1 неделя |
| 6. Deployment | Интеграция с внутренними системами, CI/CD, мониторинг | 1–2 недели |
Продукт — это on-premise платформа для создания вопросно-ответных систем (QA-систем) на основе подхода Retrieval-Augmented Generation (RAG), предназначенная для работы с нормативными и регуляторными документами на русском языке, такими как 115-ФЗ, внутренние нормативные документы (ВНД), положения ЦБ и другие юридически значимые источники.
Платформа объединяет возможности семантического поиска, генерации обоснованных ответов с указанием источников, прозрачной логики и кастомизации под конкретную организацию. Она разворачивается в закрытом контуре, не требует передачи данных во внешние облака и поддерживает интеграцию с внутренними ИТ-системами.
Целевыми пользователями продукта являются:
- Комплаенс-специалисты в банках, финтехе и промышленности, которые работают с законами и внутренними регламентами (например, KYC/AML).
- Юристы и юридические департаменты, обеспечивающие соответствие деятельности нормативным актам.
- Операционные сотрудники, принимающие решения на основе нормативных требований.
- Системные аналитики и интеграторы, реализующие интерфейс доступа к знаниям внутри корпоративной инфраструктуры.
Ключевые преимущества и ценность продукта:
- Повышение эффективности работы с регламентами: быстрые и точные ответы на вопросы сотрудников по сложным юридическим формулировкам.
- Снижение риска ошибок: уменьшение человеческого фактора при трактовке норм.
- Экономия ресурсов: сокращение нагрузки на юридические и комплаенс-подразделения.
- Соответствие требованиям безопасности: решение работает в закрытом периметре, не отправляя данные во внешние сервисы.
- Адаптация под организацию: возможность загрузки внутренних документов, тонкая настройка поисковой и генеративной части.
Пользователь взаимодействует с системой через web-интерфейс или интеграцию в существующий портал компании (например, внутренний юридический справочник).
Основной сценарий:
- Пользователь формулирует вопрос (на естественном языке).
- Платформа производит семантический поиск по chunk'ам документа.
- Система генерирует ответ, обоснованный ссылками на конкретные абзацы нормативных документов.
- Пользователь может перейти к источнику, оценить качество ответа и уточнить вопрос.
Дополнительно:
- Поддержка версии для внутренних чатов/ботов (например, в корпоративных мессенджерах).
- Возможность кастомных шаблонов вопросов, предварительно обученных на исторических запросах.
Стратегия привлечения заказчиков и пользователей:
- Проведение пилотных внедрений в банках и промышленных компаниях, уже выразивших интерес.
- Демонстрации на профильных конференциях (финансовых, юридических, AI-мероприятиях).
- Контент-маркетинг: кейсы по работе с 115-ФЗ, best practices по внедрению AI в комплаенс.
- Партнёрство с консалтинговыми агентствами в области финансового мониторинга и цифровизации.
- Ведение блога/новостной рассылки по правовым ИИ-решениям.
Продукт ориентирован на корпоративный рынок и поставляется в формате on-premise решения, полностью разворачиваемого внутри инфраструктуры заказчика (банка, промышленного предприятия, госкомпании). Это обеспечивает соответствие требованиям безопасности и независимость от внешних облаков.
-
Лицензия на on-prem развёртывание
- Ежегодная лицензия на использование платформы в пределах организации.
- Лицензия может тарифицироваться:
- По числу пользователей
- По числу регламентов/документов
- По числу инстансов (напр. один RAG-сервер на бизнес-единицу)
-
Интеграционные и консалтинговые услуги
- Настройка под конкретные нормативные документы и внутренние регламенты (ВНД).
- Интеграция с внутренними чатами, CRM, BPM и другими системами.
- Аудит готовности данных и их структурирование.