ai-benchmark/scripts/README.md
second_constantine 8ef3a16e3a feat: add MongoDB test generation and update dependencies
- Added pymongo==3.13.0 to requirements.txt for MongoDB connectivity
- Implemented generate_summarization_from_mongo.py script to generate summarization tests from MongoDB
- Updated run.sh to support 'gen-mongo' command for MongoDB test generation
- Enhanced scripts/README.md with documentation for new MongoDB functionality
- Improved help text in run.sh to clarify available commands and usage examples
```

This commit adds MongoDB integration for test generation and updates the documentation and scripts accordingly.
2026-01-22 20:11:52 +03:00

3.1 KiB
Raw Blame History

Скрипты для генерации тестов

Эта директория содержит скрипты для генерации тестовых данных для AI бенчмарка.

Доступные скрипты

1. generate_tests.py

Скрипт для генерации тестовых данных через LLM (Ollama).

Функциональность:

  • Генерация тестов для переводов (translation)
  • Генерация тестов для пересказов (summarization)
  • Генерация тестов для генерации кода (codegen)
  • Валидация generated тестов

Использование:

python scripts/generate_tests.py --count 2 --category translation --model second_constantine/t-lite-it-1.0:7b --ollama-url http://10.0.0.4:11434

Параметры:

  • --count: Количество тестов для генерации (по умолчанию: 1)
  • --category: Категория тестов (translation, summarization, codegen, или all) (по умолчанию: all)
  • --model: Название модели для генерации тестов (обязательный параметр)
  • --ollama-url: URL подключения к Ollama серверу (обязательный параметр)
  • --validate: Валидировать тесты в указанной директории

2. generate_summarization_from_mongo.py

Скрипт для генерации тестов пересказов из MongoDB.

Функциональность:

  • Извлекает текст статьи из коллекции rssNotification (поле .meta.topicContent)
  • Генерирует тестовые данные в формате JSON для бенчмарка AI
  • Валидирует generated тесты

Использование:

python scripts/generate_summarization_from_mongo.py --record-id 507f1f77bcf86cd799439011

Параметры:

  • --record-id: ID записи в MongoDB (обязательный параметр)
  • --output-dir: Директория для сохранения generated тестов (по умолчанию: tests/summarization)

Требования:

  • Доступ к MongoDB кластеру (10.0.0.3, 10.0.0.4, 10.0.0.5)
  • Установленный пакет pymongo (автоматически устанавливается при первом запуске)

Формат generated тестов:

{
  "prompt": "Summarize the following text in 1-2 sentences: 'Текст статьи из MongoDB'",
  "expected": ""
}

Примечание: Поле "expected" будет пустым, так как ожидаемый результат нужно будет сгенерировать отдельно через LLM или вручную.

Установка зависимостей

Для работы скриптов требуются следующие зависимости:

pip install pymongo

Все зависимости указаны в файле requirements.txt в корне проекта.