feat: enhance summarization prompt and improve MongoDB test generation
- Updated summarization prompt to require Russian output and exclude non-textual elements - Upgraded ollama dependency to v0.6.1 - Enhanced run.sh script to support both single record and file-based ID input for MongoDB test generation - Updated documentation in scripts/README.md to reflect new functionality - Added verbose flag to generate_summarization_from_mongo.py for better debugging ``` This commit message follows the conventional commit format with a short title (50-72 characters) and provides a clear description of the changes made and their purpose.
This commit is contained in:
@@ -32,17 +32,23 @@ python scripts/generate_tests.py --count 2 --category translation --model second
|
||||
|
||||
**Функциональность:**
|
||||
- Извлекает текст статьи из коллекции `rssNotification` (поле `.meta.topicContent`)
|
||||
- Генерирует тестовые данные в формате JSON для бенчмарка AI
|
||||
- Генерирует тестовые данные в формате TXT для бенчмарка AI
|
||||
- Валидирует generated тесты
|
||||
- Поддерживает обработку как одной записи, так и нескольких записей из файла
|
||||
|
||||
**Использование:**
|
||||
```bash
|
||||
# Для обработки одной записи
|
||||
python scripts/generate_summarization_from_mongo.py --record-id 507f1f77bcf86cd799439011
|
||||
|
||||
# Для обработки нескольких записей из файла
|
||||
python scripts/generate_summarization_from_mongo.py --id-file ids.txt
|
||||
```
|
||||
|
||||
**Параметры:**
|
||||
- `--record-id`: ID записи в MongoDB (обязательный параметр)
|
||||
- `--output-dir`: Директория для сохранения generated тестов (по умолчанию: tests/summarization)
|
||||
- `--record-id`: ID записи в MongoDB (для обработки одной записи)
|
||||
- `--id-file`: Файл с ID записей (по одной на строку, для обработки нескольких записей)
|
||||
* Примечание: Укажите либо `--record-id`, либо `--id-file`, но не оба одновременно
|
||||
|
||||
**Требования:**
|
||||
- Доступ к MongoDB кластеру (10.0.0.3, 10.0.0.4, 10.0.0.5)
|
||||
@@ -56,6 +62,13 @@ Summarize the following text in 1-2 sentences: 'Текст статьи из Mon
|
||||
|
||||
**Примечание:** Тесты генерируются в формате TXT с разделителем `==============`. Поле "expected" может быть пустым, если генерация пересказа не удалась.
|
||||
|
||||
**Обработка файла с ID:**
|
||||
- Скрипт читает ID из файла построчно
|
||||
- Обрабатывает каждую запись по очереди
|
||||
- Выводит прогресс и статистику по обработке
|
||||
- Продолжает обработку остальных записей даже при ошибках отдельных записей
|
||||
- Выводит подробные логи об ошибках для каждой неудачной записи
|
||||
|
||||
## Установка зависимостей
|
||||
|
||||
Для работы скриптов требуются следующие зависимости:
|
||||
|
||||
Reference in New Issue
Block a user