ai-benchmark/scripts/README.md
second_constantine 8ef3a16e3a feat: add MongoDB test generation and update dependencies
- Added pymongo==3.13.0 to requirements.txt for MongoDB connectivity
- Implemented generate_summarization_from_mongo.py script to generate summarization tests from MongoDB
- Updated run.sh to support 'gen-mongo' command for MongoDB test generation
- Enhanced scripts/README.md with documentation for new MongoDB functionality
- Improved help text in run.sh to clarify available commands and usage examples
```

This commit adds MongoDB integration for test generation and updates the documentation and scripts accordingly.
2026-01-22 20:11:52 +03:00

70 lines
3.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Скрипты для генерации тестов
Эта директория содержит скрипты для генерации тестовых данных для AI бенчмарка.
## Доступные скрипты
### 1. `generate_tests.py`
Скрипт для генерации тестовых данных через LLM (Ollama).
**Функциональность:**
- Генерация тестов для переводов (translation)
- Генерация тестов для пересказов (summarization)
- Генерация тестов для генерации кода (codegen)
- Валидация generated тестов
**Использование:**
```bash
python scripts/generate_tests.py --count 2 --category translation --model second_constantine/t-lite-it-1.0:7b --ollama-url http://10.0.0.4:11434
```
**Параметры:**
- `--count`: Количество тестов для генерации (по умолчанию: 1)
- `--category`: Категория тестов (translation, summarization, codegen, или all) (по умолчанию: all)
- `--model`: Название модели для генерации тестов (обязательный параметр)
- `--ollama-url`: URL подключения к Ollama серверу (обязательный параметр)
- `--validate`: Валидировать тесты в указанной директории
### 2. `generate_summarization_from_mongo.py`
Скрипт для генерации тестов пересказов из MongoDB.
**Функциональность:**
- Извлекает текст статьи из коллекции `rssNotification` (поле `.meta.topicContent`)
- Генерирует тестовые данные в формате JSON для бенчмарка AI
- Валидирует generated тесты
**Использование:**
```bash
python scripts/generate_summarization_from_mongo.py --record-id 507f1f77bcf86cd799439011
```
**Параметры:**
- `--record-id`: ID записи в MongoDB (обязательный параметр)
- `--output-dir`: Директория для сохранения generated тестов (по умолчанию: tests/summarization)
**Требования:**
- Доступ к MongoDB кластеру (10.0.0.3, 10.0.0.4, 10.0.0.5)
- Установленный пакет `pymongo` (автоматически устанавливается при первом запуске)
**Формат generated тестов:**
```json
{
"prompt": "Summarize the following text in 1-2 sentences: 'Текст статьи из MongoDB'",
"expected": ""
}
```
**Примечание:** Поле "expected" будет пустым, так как ожидаемый результат нужно будет сгенерировать отдельно через LLM или вручную.
## Установка зависимостей
Для работы скриптов требуются следующие зависимости:
```bash
pip install pymongo
```
Все зависимости указаны в файле `requirements.txt` в корне проекта.