docs: update README with context size parameter and dynamic benchmark discovery
- Added `--context-size` parameter documentation with default value - Updated project structure to reflect dynamic benchmark discovery - Removed static benchmark module references - Added custom benchmark support documentation - Clarified automatic benchmark detection process - Updated test addition instructions for dynamic discovery - Fixed trailing newline in file ``` This commit message follows the conventional commit format with a clear title and descriptive body explaining the changes made to the documentation.
This commit is contained in:
67
README.md
67
README.md
@@ -47,6 +47,7 @@ python src/main.py --model llama3 --ollama-url http://localhost:11434
|
|||||||
- `--benchmarks`: Список бенчмарков для выполнения (translation, summarization, codegen). По умолчанию все.
|
- `--benchmarks`: Список бенчмарков для выполнения (translation, summarization, codegen). По умолчанию все.
|
||||||
- `--output`: Директория для сохранения результатов. По умолчанию: `results`
|
- `--output`: Директория для сохранения результатов. По умолчанию: `results`
|
||||||
- `--verbose`: Подробный режим вывода
|
- `--verbose`: Подробный режим вывода
|
||||||
|
- `--context-size`: Размер контекста для модели (по умолчанию: 32000)
|
||||||
|
|
||||||
### Примеры
|
### Примеры
|
||||||
|
|
||||||
@@ -80,39 +81,45 @@ python src/main.py --model llama3 --ollama-url http://localhost:11434
|
|||||||
```
|
```
|
||||||
ai-benchmark/
|
ai-benchmark/
|
||||||
├── src/
|
├── src/
|
||||||
│ ├── benchmarks/ # Модули с тестовыми наборами
|
│ ├── benchmark.py # Базовый класс для всех бенчмарков
|
||||||
│ │ ├── translation.py # Тесты переводов
|
│ ├── constants.py # Константы проекта
|
||||||
│ │ ├── summarization.py # Тесты пересказов
|
│ ├── main.py # Основной скрипт запуска
|
||||||
│ │ ├── codegen.py # Тесты генерации кода
|
│ ├── ollama_client.py # Клиент для работы с Ollama
|
||||||
│ │ └── base.py # Базовый класс для тестов
|
│ ├── report.py # Генерация отчетов
|
||||||
│ ├── models/ # Модули для работы с моделями
|
│ └── scoring.py # Вычисление метрик оценки качества
|
||||||
│ │ └── ollama_client.py # Клиент для Ollama
|
├── tests/ # Тестовые данные (динамическое обнаружение бенчмарков)
|
||||||
│ ├── utils/ # Утилиты
|
│ ├── translation/ # Данные для тестов переводов
|
||||||
│ │ ├── report.py # Генерация отчетов
|
│ ├── summarization/ # Данные для тестов пересказов
|
||||||
│ │ └── scoring.py # Вычисление метрик оценки качества
|
│ ├── codegen/ # Данные для тестов генерации кода
|
||||||
│ └── main.py # Основной скрипт запуска
|
│ └── custom/ # Данные для пользовательских тестов
|
||||||
├── tests/ # Тестовые данные
|
├── results/ # Результаты выполнения
|
||||||
│ ├── translation/ # Данные для тестов переводов
|
├── scripts/ # Скрипты для работы с проектом
|
||||||
│ ├── summarization/ # Данные для тестов пересказов
|
│ ├── generate_tests.py # Скрипт для генерации тестов
|
||||||
│ └── codegen/ # Данные для тестов генерации кода
|
│ ├── convert_json_to_txt.py # Конвертация JSON в TXT формат
|
||||||
├── results/ # Результаты выполнения
|
│ └── README.md # Документация по скриптам
|
||||||
├── scripts/ # Скрипты для работы с проектом
|
├── prompts/ # Промпты для генерации тестов
|
||||||
│ ├── generate_tests.py # Скрипт для генерации тестов
|
│ ├── translation.txt # Промпты для тестов перевода
|
||||||
│ └── README.md # Документация по скриптам
|
│ ├── summarization.txt # Промпты для тестов пересказа
|
||||||
├── prompts/ # Промпты для генерации тестов
|
│ ├── codegen.txt # Промпты для тестов генерации кода
|
||||||
│ ├── translation.txt # Промпты для тестов перевода
|
│ └── custom.txt # Промпты для пользовательских тестов
|
||||||
│ ├── summarization.txt # Промпты для тестов пересказа
|
├── requirements.txt # Зависимости проекта
|
||||||
│ └── codegen.txt # Промпты для тестов генерации кода
|
└── README.md # Документация
|
||||||
├── requirements.txt # Зависимости проекта
|
|
||||||
└── README.md # Документация
|
|
||||||
```
|
```
|
||||||
|
|
||||||
|
## Динамическое обнаружение бенчмарков
|
||||||
|
|
||||||
|
Проект автоматически обнаруживает бенчмарки на основе папок в директории `tests/`. Для каждого бенчмарка требуется:
|
||||||
|
1. Папка в `tests/` с тестовыми данными
|
||||||
|
2. Файл промпта в `prompts/` с именем бенчмарка (например, `prompts/translation.txt`)
|
||||||
|
|
||||||
|
Бенчмарки создаются динамически при запуске и наследуют функциональность от базового класса `Benchmark`.
|
||||||
|
|
||||||
## Добавление новых тестов
|
## Добавление новых тестов
|
||||||
|
|
||||||
1. Создайте новый файл в `src/benchmarks/` наследуя от `Benchmark`
|
1. Создайте новую папку в `tests/` для вашего бенчмарка (например, `tests/my_benchmark`)
|
||||||
2. Реализуйте методы `load_test_data()` и `evaluate()`
|
2. Создайте файл промпта в `prompts/` с именем `my_benchmark.txt`
|
||||||
3. Добавьте тестовые данные в соответствующую директорию в `tests/`
|
3. Добавьте тестовые данные в соответствующую директорию в `tests/my_benchmark/`
|
||||||
4. Обновите список бенчмарков в `src/main.py`
|
4. Бенчмарк будет автоматически обнаружен при следующем запуске
|
||||||
|
|
||||||
## Формат тестовых данных
|
## Формат тестовых данных
|
||||||
|
|
||||||
@@ -204,4 +211,4 @@ python scripts/generate_tests.py --validate tests/translation
|
|||||||
- Таблицы с результатами каждого теста
|
- Таблицы с результатами каждого теста
|
||||||
- Статистику по каждой метрике
|
- Статистику по каждой метрике
|
||||||
- Сводные данные по всем тестам
|
- Сводные данные по всем тестам
|
||||||
- Сравнение результатов между разными моделями
|
- Сравнение результатов между разными моделями
|
||||||
Reference in New Issue
Block a user