feat: enhance summarization prompt and improve MongoDB test generation

- Updated summarization prompt to require Russian output and exclude non-textual elements - Upgraded ollama dependency to v0.6.1 - Enhanced run.sh script to support both single record and file-based ID input for MongoDB test generation - Updated documentation in scripts/README.md to reflect new functionality - Added verbose flag to generate_summarization_from_mongo.py for better debugging ``` This commit message follows the conventional commit format with a short title (50-72 characters) and provides a clear description of the changes made and their purpose.
2026-01-23 03:49:22 +03:00
parent d8785ada8a
commit 2048e4e40d
234 changed files with 3268 additions and 72 deletions
--- a/scripts/README.md
+++ b/scripts/README.md
@@ -32,17 +32,23 @@ python scripts/generate_tests.py --count 2 --category translation --model second

 **Функциональность:**
 - Извлекает текст статьи из коллекции `rssNotification` (поле `.meta.topicContent`)
- Генерирует тестовые данные в формате JSON для бенчмарка AI
+- Генерирует тестовые данные в формате TXT для бенчмарка AI
 - Валидирует generated тесты
+- Поддерживает обработку как одной записи, так и нескольких записей из файла

 **Использование:**
 ```bash
+# Для обработки одной записи
 python scripts/generate_summarization_from_mongo.py --record-id 507f1f77bcf86cd799439011
+
+# Для обработки нескольких записей из файла
+python scripts/generate_summarization_from_mongo.py --id-file ids.txt
 ```

 **Параметры:**
- `--record-id`: ID записи в MongoDB (обязательный параметр)
- `--output-dir`: Директория для сохранения generated тестов (по умолчанию: tests/summarization)
+- `--record-id`: ID записи в MongoDB (для обработки одной записи)
+- `--id-file`: Файл с ID записей (по одной на строку, для обработки нескольких записей)
+  * Примечание: Укажите либо `--record-id`, либо `--id-file`, но не оба одновременно

 **Требования:**
 - Доступ к MongoDB кластеру (10.0.0.3, 10.0.0.4, 10.0.0.5)
@@ -56,6 +62,13 @@ Summarize the following text in 1-2 sentences: 'Текст статьи из Mon

 **Примечание:** Тесты генерируются в формате TXT с разделителем `==============`. Поле "expected" может быть пустым, если генерация пересказа не удалась.

+**Обработка файла с ID:**
+- Скрипт читает ID из файла построчно
+- Обрабатывает каждую запись по очереди
+- Выводит прогресс и статистику по обработке
+- Продолжает обработку остальных записей даже при ошибках отдельных записей
+- Выводит подробные логи об ошибках для каждой неудачной записи
+
 ## Установка зависимостей

 Для работы скриптов требуются следующие зависимости: