1.8 KiB
1.8 KiB
Генерация тестов пересказов из MongoDB
Этот скрипт автоматически генерирует тестовые данные для бенчмарка пересказов, извлекая статьи из MongoDB и создавая ожидаемые пересказы с помощью Ollama.
Использование
# Для одной записи
python scripts/generate_summarization_from_mongo.py --record-id <ID_записи>
# Для нескольких записей из файла
python scripts/generate_summarization_from_mongo.py --id-file ids.txt
Как это работает
- Извлечение данных: Скрипт подключается к MongoDB кластеру и извлекает статьи из коллекции
rssNotification - Генерация пересказов: Использует Ollama с моделью
translategemma:4bдля генерации ожидаемых пересказов - Форматирование: Сохраняет тесты в формате:
Текст статьи ============== Ожидаемый пересказ
Конфигурация Ollama
- URL:
http://10.0.0.9:11434 - Модель:
translategemma:4b - Контекст: 128000 токенов
Обработка ошибок
Если Ollama недоступен или происходит ошибка, скрипт сохраняет пустой пересказ, обеспечивая обратную совместимость.
Выходные файлы
Тесты сохраняются в tests/summarization/ с именами файлов, соответствующими ID записей из MongoDB.