feat: upd tests
This commit is contained in:
38
scripts/SUMMARIZATION_GENERATION.md
Normal file
38
scripts/SUMMARIZATION_GENERATION.md
Normal file
@@ -0,0 +1,38 @@
|
||||
# Генерация тестов пересказов из MongoDB
|
||||
|
||||
Этот скрипт автоматически генерирует тестовые данные для бенчмарка пересказов, извлекая статьи из MongoDB и создавая ожидаемые пересказы с помощью Ollama.
|
||||
|
||||
## Использование
|
||||
|
||||
```bash
|
||||
# Для одной записи
|
||||
python scripts/generate_summarization_from_mongo.py --record-id <ID_записи>
|
||||
|
||||
# Для нескольких записей из файла
|
||||
python scripts/generate_summarization_from_mongo.py --id-file ids.txt
|
||||
```
|
||||
|
||||
## Как это работает
|
||||
|
||||
1. **Извлечение данных**: Скрипт подключается к MongoDB кластеру и извлекает статьи из коллекции `rssNotification`
|
||||
2. **Генерация пересказов**: Использует Ollama с моделью `translategemma:4b` для генерации ожидаемых пересказов
|
||||
3. **Форматирование**: Сохраняет тесты в формате:
|
||||
```
|
||||
Текст статьи
|
||||
==============
|
||||
Ожидаемый пересказ
|
||||
```
|
||||
|
||||
## Конфигурация Ollama
|
||||
|
||||
- **URL**: `http://10.0.0.9:11434`
|
||||
- **Модель**: `translategemma:4b`
|
||||
- **Контекст**: 128000 токенов
|
||||
|
||||
## Обработка ошибок
|
||||
|
||||
Если Ollama недоступен или происходит ошибка, скрипт сохраняет пустой пересказ, обеспечивая обратную совместимость.
|
||||
|
||||
## Выходные файлы
|
||||
|
||||
Тесты сохраняются в `tests/summarization/` с именами файлов, соответствующими ID записей из MongoDB.
|
||||
Reference in New Issue
Block a user