ai-benchmark/scripts/SUMMARIZATION_GENERATION.md

38 lines
1.8 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Генерация тестов пересказов из MongoDB
Этот скрипт автоматически генерирует тестовые данные для бенчмарка пересказов, извлекая статьи из MongoDB и создавая ожидаемые пересказы с помощью Ollama.
## Использование
```bash
# Для одной записи
python scripts/generate_summarization_from_mongo.py --record-id <ID_записи>
# Для нескольких записей из файла
python scripts/generate_summarization_from_mongo.py --id-file ids.txt
```
## Как это работает
1. **Извлечение данных**: Скрипт подключается к MongoDB кластеру и извлекает статьи из коллекции `rssNotification`
2. **Генерация пересказов**: Использует Ollama с моделью `translategemma:4b` для генерации ожидаемых пересказов
3. **Форматирование**: Сохраняет тесты в формате:
```
Текст статьи
==============
Ожидаемый пересказ
```
## Конфигурация Ollama
- **URL**: `http://10.0.0.9:11434`
- **Модель**: `translategemma:4b`
- **Контекст**: 128000 токенов
## Обработка ошибок
Если Ollama недоступен или происходит ошибка, скрипт сохраняет пустой пересказ, обеспечивая обратную совместимость.
## Выходные файлы
Тесты сохраняются в `tests/summarization/` с именами файлов, соответствующими ID записей из MongoDB.