ai-benchmark/scripts/SUMMARIZATION_GENERATION.md

1.8 KiB
Raw Permalink Blame History

Генерация тестов пересказов из MongoDB

Этот скрипт автоматически генерирует тестовые данные для бенчмарка пересказов, извлекая статьи из MongoDB и создавая ожидаемые пересказы с помощью Ollama.

Использование

# Для одной записи
python scripts/generate_summarization_from_mongo.py --record-id <ID_записи>

# Для нескольких записей из файла
python scripts/generate_summarization_from_mongo.py --id-file ids.txt

Как это работает

  1. Извлечение данных: Скрипт подключается к MongoDB кластеру и извлекает статьи из коллекции rssNotification
  2. Генерация пересказов: Использует Ollama с моделью translategemma:4b для генерации ожидаемых пересказов
  3. Форматирование: Сохраняет тесты в формате:
    Текст статьи
    ==============
    Ожидаемый пересказ
    

Конфигурация Ollama

  • URL: http://10.0.0.9:11434
  • Модель: translategemma:4b
  • Контекст: 128000 токенов

Обработка ошибок

Если Ollama недоступен или происходит ошибка, скрипт сохраняет пустой пересказ, обеспечивая обратную совместимость.

Выходные файлы

Тесты сохраняются в tests/summarization/ с именами файлов, соответствующими ID записей из MongoDB.