Генерация тестов пересказов из MongoDB

Этот скрипт автоматически генерирует тестовые данные для бенчмарка пересказов, извлекая статьи из MongoDB и создавая ожидаемые пересказы с помощью Ollama.

Использование

# Для одной записи
python scripts/generate_summarization_from_mongo.py --record-id <ID_записи>

# Для нескольких записей из файла
python scripts/generate_summarization_from_mongo.py --id-file ids.txt

Как это работает

Извлечение данных: Скрипт подключается к MongoDB кластеру и извлекает статьи из коллекции rssNotification
Генерация пересказов: Использует Ollama с моделью translategemma:4b для генерации ожидаемых пересказов
Форматирование: Сохраняет тесты в формате:
```
Текст статьи
==============
Ожидаемый пересказ
```

Конфигурация Ollama

URL: http://10.0.0.9:11434
Модель: translategemma:4b
Контекст: 128000 токенов

Обработка ошибок

Если Ollama недоступен или происходит ошибка, скрипт сохраняет пустой пересказ, обеспечивая обратную совместимость.

Выходные файлы

Тесты сохраняются в tests/summarization/ с именами файлов, соответствующими ID записей из MongoDB.

1.8 KiB Raw Permalink Blame History Unescape Escape