docs: update README with context size parameter and dynamic benchmark discovery

- Added `--context-size` parameter documentation with default value - Updated project structure to reflect dynamic benchmark discovery - Removed static benchmark module references - Added custom benchmark support documentation - Clarified automatic benchmark detection process - Updated test addition instructions for dynamic discovery - Fixed trailing newline in file ``` This commit message follows the conventional commit format with a clear title and descriptive body explaining the changes made to the documentation.
2026-02-28 13:10:48 +03:00
parent fcda2be4a9
commit 54cfe0d97b
1 changed files with 37 additions and 30 deletions
--- a/README.md
+++ b/README.md
@@ -47,6 +47,7 @@ python src/main.py --model llama3 --ollama-url http://localhost:11434
 - `--benchmarks`: Список бенчмарков для выполнения (translation, summarization, codegen). По умолчанию все.
 - `--output`: Директория для сохранения результатов. По умолчанию: `results`
 - `--verbose`: Подробный режим вывода
 - `--context-size`: Размер контекста для модели (по умолчанию: 32000)
 ### Примеры
@@ -80,39 +81,45 @@ python src/main.py --model llama3 --ollama-url http://localhost:11434
 ```
 ai-benchmark/
 ├── src/
-│   ├── benchmarks/          # Модули с тестовыми наборами
+│   ├── benchmark.py          # Базовый класс для всех бенчмарков
-│   │   ├── translation.py   # Тесты переводов
+│   ├── constants.py          # Константы проекта
-│   │   ├── summarization.py # Тесты пересказов
+│   ├── main.py               # Основной скрипт запуска
-│   │   ├── codegen.py       # Тесты генерации кода
+│   ├── ollama_client.py      # Клиент для работы с Ollama
-│   │   └── base.py          # Базовый класс для тестов
+│   ├── report.py             # Генерация отчетов
-│   ├── models/              # Модули для работы с моделями
+│   └── scoring.py            # Вычисление метрик оценки качества
-│   │   └── ollama_client.py # Клиент для Ollama
+├── tests/                    # Тестовые данные (динамическое обнаружение бенчмарков)
-│   ├── utils/               # Утилиты
+│   ├── translation/          # Данные для тестов переводов
-│   │   ├── report.py        # Генерация отчетов
+│   ├── summarization/        # Данные для тестов пересказов
-│   │   └── scoring.py      # Вычисление метрик оценки качества
+│   ├── codegen/              # Данные для тестов генерации кода
-│   └── main.py              # Основной скрипт запуска
+│   └── custom/               # Данные для пользовательских тестов
-├── tests/                   # Тестовые данные
+├── results/                  # Результаты выполнения
-│   ├── translation/         # Данные для тестов переводов
+├── scripts/                  # Скрипты для работы с проектом
-│   ├── summarization/       # Данные для тестов пересказов
+│   ├── generate_tests.py     # Скрипт для генерации тестов
-│   └── codegen/             # Данные для тестов генерации кода
+│   ├── convert_json_to_txt.py # Конвертация JSON в TXT формат
-├── results/                 # Результаты выполнения
+│   └── README.md             # Документация по скриптам
-├── scripts/                 # Скрипты для работы с проектом
+├── prompts/                  # Промпты для генерации тестов
-│   ├── generate_tests.py    # Скрипт для генерации тестов
+│   ├── translation.txt       # Промпты для тестов перевода
-│   └── README.md            # Документация по скриптам
+│   ├── summarization.txt     # Промпты для тестов пересказа
-├── prompts/                 # Промпты для генерации тестов
+│   ├── codegen.txt           # Промпты для тестов генерации кода
-│   ├── translation.txt      # Промпты для тестов перевода
+│   └── custom.txt            # Промпты для пользовательских тестов
-│   ├── summarization.txt    # Промпты для тестов пересказа
+├── requirements.txt          # Зависимости проекта
-│   └── codegen.txt          # Промпты для тестов генерации кода
+└── README.md                 # Документация
 ├── requirements.txt         # Зависимости проекта
 └── README.md                # Документация
 ```
 ## Динамическое обнаружение бенчмарков
 Проект автоматически обнаруживает бенчмарки на основе папок в директории `tests/`. Для каждого бенчмарка требуется:
 1. Папка в `tests/` с тестовыми данными
 2. Файл промпта в `prompts/` с именем бенчмарка (например, `prompts/translation.txt`)
 Бенчмарки создаются динамически при запуске и наследуют функциональность от базового класса `Benchmark`.
 ## Добавление новых тестов
-1. Создайте новый файл в `src/benchmarks/` наследуя от `Benchmark`
+1. Создайте новую папку в `tests/` для вашего бенчмарка (например, `tests/my_benchmark`)
-2. Реализуйте методы `load_test_data()` и `evaluate()`
+2. Создайте файл промпта в `prompts/` с именем `my_benchmark.txt`
-3. Добавьте тестовые данные в соответствующую директорию в `tests/`
+3. Добавьте тестовые данные в соответствующую директорию в `tests/my_benchmark/`
-4. Обновите список бенчмарков в `src/main.py`
+4. Бенчмарк будет автоматически обнаружен при следующем запуске
 ## Формат тестовых данных
@@ -204,4 +211,4 @@ python scripts/generate_tests.py --validate tests/translation
 - Таблицы с результатами каждого теста
 - Статистику по каждой метрике
 - Сводные данные по всем тестам
- Сравнение результатов между разными моделями
+- Сравнение результатов между разными моделями