38 lines
1.8 KiB
Markdown
38 lines
1.8 KiB
Markdown
# Генерация тестов пересказов из MongoDB
|
||
|
||
Этот скрипт автоматически генерирует тестовые данные для бенчмарка пересказов, извлекая статьи из MongoDB и создавая ожидаемые пересказы с помощью Ollama.
|
||
|
||
## Использование
|
||
|
||
```bash
|
||
# Для одной записи
|
||
python scripts/generate_summarization_from_mongo.py --record-id <ID_записи>
|
||
|
||
# Для нескольких записей из файла
|
||
python scripts/generate_summarization_from_mongo.py --id-file ids.txt
|
||
```
|
||
|
||
## Как это работает
|
||
|
||
1. **Извлечение данных**: Скрипт подключается к MongoDB кластеру и извлекает статьи из коллекции `rssNotification`
|
||
2. **Генерация пересказов**: Использует Ollama с моделью `translategemma:4b` для генерации ожидаемых пересказов
|
||
3. **Форматирование**: Сохраняет тесты в формате:
|
||
```
|
||
Текст статьи
|
||
==============
|
||
Ожидаемый пересказ
|
||
```
|
||
|
||
## Конфигурация Ollama
|
||
|
||
- **URL**: `http://10.0.0.9:11434`
|
||
- **Модель**: `translategemma:4b`
|
||
- **Контекст**: 128000 токенов
|
||
|
||
## Обработка ошибок
|
||
|
||
Если Ollama недоступен или происходит ошибка, скрипт сохраняет пустой пересказ, обеспечивая обратную совместимость.
|
||
|
||
## Выходные файлы
|
||
|
||
Тесты сохраняются в `tests/summarization/` с именами файлов, соответствующими ID записей из MongoDB. |