From 1a59adf5a58f5dbb349b80a05c3a376f647ec171 Mon Sep 17 00:00:00 2001
From: second_constantine <cs@next-way.by>
Date: Fri, 16 Jan 2026 19:58:29 +0300
Subject: [PATCH] feat: vibe code done

---
 README.md                                     |  85 ++++++++-
 requirements.txt                              |   3 +
 results/rnj-1:8b/codegen_20260116_195424.md   |  26 +++
 .../rnj-1:8b/summarization_20260116_195424.md |  23 +++
 results/rnj-1:8b/summary_20260116_195424.md   |  44 +++++
 .../rnj-1:8b/translation_20260116_195424.md   |  25 +++
 run.sh                                        |  37 ++++
 .../__pycache__/base.cpython-313.pyc          | Bin 0 -> 3854 bytes
 .../__pycache__/codegen.cpython-313.pyc       | Bin 0 -> 3175 bytes
 .../__pycache__/summarization.cpython-313.pyc | Bin 0 -> 3180 bytes
 .../__pycache__/translation.cpython-313.pyc   | Bin 0 -> 3160 bytes
 src/benchmarks/base.py                        | 100 +++++++++++
 src/benchmarks/codegen.py                     |  62 +++++++
 src/benchmarks/summarization.py               |  62 +++++++
 src/benchmarks/translation.py                 |  63 +++++++
 src/main.py                                   |  97 +++++++++++
 .../__pycache__/ollama_client.cpython-313.pyc | Bin 0 -> 3958 bytes
 src/models/ollama_client.py                   |  85 +++++++++
 src/utils/__pycache__/report.cpython-313.pyc  | Bin 0 -> 10171 bytes
 src/utils/report.py                           | 162 ++++++++++++++++++
 tests/codegen/test1.json                      |   4 +
 tests/summarization/test1.json                |   4 +
 tests/translation/test1.json                  |   4 +
 tests/translation/test2.json                  |   4 +
 24 files changed, 889 insertions(+), 1 deletion(-)
 create mode 100644 requirements.txt
 create mode 100644 results/rnj-1:8b/codegen_20260116_195424.md
 create mode 100644 results/rnj-1:8b/summarization_20260116_195424.md
 create mode 100644 results/rnj-1:8b/summary_20260116_195424.md
 create mode 100644 results/rnj-1:8b/translation_20260116_195424.md
 create mode 100755 run.sh
 create mode 100644 src/benchmarks/__pycache__/base.cpython-313.pyc
 create mode 100644 src/benchmarks/__pycache__/codegen.cpython-313.pyc
 create mode 100644 src/benchmarks/__pycache__/summarization.cpython-313.pyc
 create mode 100644 src/benchmarks/__pycache__/translation.cpython-313.pyc
 create mode 100644 src/benchmarks/base.py
 create mode 100644 src/benchmarks/codegen.py
 create mode 100644 src/benchmarks/summarization.py
 create mode 100644 src/benchmarks/translation.py
 create mode 100644 src/main.py
 create mode 100644 src/models/__pycache__/ollama_client.cpython-313.pyc
 create mode 100644 src/models/ollama_client.py
 create mode 100644 src/utils/__pycache__/report.cpython-313.pyc
 create mode 100644 src/utils/report.py
 create mode 100644 tests/codegen/test1.json
 create mode 100644 tests/summarization/test1.json
 create mode 100644 tests/translation/test1.json
 create mode 100644 tests/translation/test2.json

diff --git a/README.md b/README.md
index e21ca3e..092dd83 100644
--- a/README.md
+++ b/README.md
@@ -1,3 +1,86 @@
 # ai_benchmark
 
-Эксперименты и тестирование LLM, VLM и прочих тулов
\ No newline at end of file
+Эксперименты и тестирование LLM, VLM и прочих тулов
+
+## Установка
+
+```bash
+pip install -r requirements.txt
+```
+
+## Использование
+
+```bash
+python src/main.py --model llama3 --ollama-url http://localhost:11434
+```
+
+### Аргументы
+
+- `--model`: Название модели для тестирования (обязательный)
+- `--ollama-url`: URL подключения к Ollama серверу (обязательный)
+- `--benchmarks`: Список бенчмарков для выполнения (translation, summarization, codegen). По умолчанию все.
+- `--output`: Директория для сохранения результатов. По умолчанию: `results`
+- `--verbose`: Подробный режим вывода
+
+### Примеры
+
+Запуск всех бенчмарков:
+```bash
+python src/main.py --model llama3 --ollama-url http://localhost:11434
+```
+
+Запуск только тестов переводов:
+```bash
+python src/main.py --model llama3 --ollama-url http://localhost:11434 --benchmarks translation
+```
+
+Запуск с подробным выводом:
+```bash
+python src/main.py --model llama3 --ollama-url http://localhost:11434 --verbose
+```
+
+## Структура проекта
+
+```
+ai-benchmark/
+├── src/
+│   ├── benchmarks/          # Модули с тестовыми наборами
+│   │   ├── translation.py   # Тесты переводов
+│   │   ├── summarization.py # Тесты пересказов
+│   │   ├── codegen.py       # Тесты генерации кода
+│   │   └── base.py          # Базовый класс для тестов
+│   ├── models/              # Модули для работы с моделями
+│   │   └── ollama_client.py # Клиент для Ollama
+│   ├── utils/               # Утилиты
+│   │   └── report.py        # Генерация отчетов
+│   └── main.py              # Основной скрипт запуска
+├── tests/                   # Тестовые данные
+│   ├── translation/         # Данные для тестов переводов
+│   ├── summarization/       # Данные для тестов пересказов
+│   └── codegen/             # Данные для тестов генерации кода
+├── results/                 # Результаты выполнения
+├── requirements.txt         # Зависимости проекта
+└── README.md                # Документация
+```
+
+## Добавление новых тестов
+
+1. Создайте новый файл в `src/benchmarks/` наследуя от `Benchmark`
+2. Реализуйте методы `load_test_data()` и `evaluate()`
+3. Добавьте тестовые данные в соответствующую директорию в `tests/`
+4. Обновите список бенчмарков в `src/main.py`
+
+## Формат тестовых данных
+
+Тестовые данные должны быть в формате JSON:
+
+```json
+{
+  "prompt": "Текст промпта для модели",
+  "expected": "Ожидаемый ответ"
+}
+```
+
+## Результаты
+
+После выполнения бенчмарков в директории `results/` будут сгенерированы файлы в формате Markdown с таблицами результатов. Каждый бенчмарк будет иметь свой отчет, а также будет создан сводный отчет со статистикой по всем тестам.
diff --git a/requirements.txt b/requirements.txt
new file mode 100644
index 0000000..19242d2
--- /dev/null
+++ b/requirements.txt
@@ -0,0 +1,3 @@
+ollama>=0.1.0
+py-markdown-table>=1.3.0
+tqdm>=4.60.0
diff --git a/results/rnj-1:8b/codegen_20260116_195424.md b/results/rnj-1:8b/codegen_20260116_195424.md
new file mode 100644
index 0000000..24423ed
--- /dev/null
+++ b/results/rnj-1:8b/codegen_20260116_195424.md
@@ -0,0 +1,26 @@
+# Отчет бенчмарка: codegen
+
+**Дата:** 2026-01-16 19:54:24
+
+**Общее количество тестов:** 1
+
+**Успешно выполнено:** 1
+
+## Результаты тестов
+
+```
++-----+-----+---------+-----------------------------------------------------+-----------------------------------------------------+-----------------------------------------------------+
+| Тест| Скор|Время (с)|                        Промпт                       |                      Ожидаемый                      |                     Ответ модели                    |
++-----+-----+---------+-----------------------------------------------------+-----------------------------------------------------+-----------------------------------------------------+
+| Тест| Скор|Время (с)|                        Промпт                       |                      Ожидаемый                      |                     Ответ модели                    |
++-----+-----+---------+-----------------------------------------------------+-----------------------------------------------------+-----------------------------------------------------+
+|test1|0.239|   3.51  |Write a Python function that calculates the factor...|def factorial(n):\n    if n == 0 or n == 1:\n     ...|```python
+def factorial(n):
+    """
+    Calculate ...|
++-----+-----+---------+-----------------------------------------------------+-----------------------------------------------------+-----------------------------------------------------+```
+
+## Статистика
+
+- **Средний скор:** 0.239
+- **Среднее время ответа:** 3.507 секунд
diff --git a/results/rnj-1:8b/summarization_20260116_195424.md b/results/rnj-1:8b/summarization_20260116_195424.md
new file mode 100644
index 0000000..8b0cc2c
--- /dev/null
+++ b/results/rnj-1:8b/summarization_20260116_195424.md
@@ -0,0 +1,23 @@
+# Отчет бенчмарка: summarization
+
+**Дата:** 2026-01-16 19:54:24
+
+**Общее количество тестов:** 1
+
+**Успешно выполнено:** 1
+
+## Результаты тестов
+
+```
++-----+-----+---------+-----------------------------------------------------+-----------------------------------------------------+-----------------------------------------------------+
+| Тест| Скор|Время (с)|                        Промпт                       |                      Ожидаемый                      |                     Ответ модели                    |
++-----+-----+---------+-----------------------------------------------------+-----------------------------------------------------+-----------------------------------------------------+
+| Тест| Скор|Время (с)|                        Промпт                       |                      Ожидаемый                      |                     Ответ модели                    |
++-----+-----+---------+-----------------------------------------------------+-----------------------------------------------------+-----------------------------------------------------+
+|test1|0.571|   1.21  |Summarize the following text in 1-2 sentences: 'Th...|A quick fox jumps over a lazy dog, surprising it. ...|In a brief summary, the quick brown fox jumps over...|
++-----+-----+---------+-----------------------------------------------------+-----------------------------------------------------+-----------------------------------------------------+```
+
+## Статистика
+
+- **Средний скор:** 0.571
+- **Среднее время ответа:** 1.206 секунд
diff --git a/results/rnj-1:8b/summary_20260116_195424.md b/results/rnj-1:8b/summary_20260116_195424.md
new file mode 100644
index 0000000..c6110a0
--- /dev/null
+++ b/results/rnj-1:8b/summary_20260116_195424.md
@@ -0,0 +1,44 @@
+# Сводный отчет по всем бенчмаркам
+
+**Дата:** 2026-01-16 19:54:24
+
+**Модель:** rnj-1:8b
+
+## Общие результаты
+
+```
++-------------+------+-------+------------+-------------+
+|   Бенчмарк  |Тестов|Успешно|Средний скор|Среднее время|
++-------------+------+-------+------------+-------------+
+|   Бенчмарк  |Тестов|Успешно|Средний скор|Среднее время|
++-------------+------+-------+------------+-------------+
+| translation |   2  |   2   |    0.666   |    1.262    |
++-------------+------+-------+------------+-------------+
+|summarization|   1  |   1   |    0.571   |    1.206    |
++-------------+------+-------+------------+-------------+
+|   codegen   |   1  |   1   |    0.239   |    3.507    |
++-------------+------+-------+------------+-------------+```
+
+## Подробности
+
+### translation
+
+- **Тестов:** 2
+- **Успешно:** 2
+- **Средний скор:** 0.666
+- **Среднее время:** 1.262 секунд
+
+### summarization
+
+- **Тестов:** 1
+- **Успешно:** 1
+- **Средний скор:** 0.571
+- **Среднее время:** 1.206 секунд
+
+### codegen
+
+- **Тестов:** 1
+- **Успешно:** 1
+- **Средний скор:** 0.239
+- **Среднее время:** 3.507 секунд
+
diff --git a/results/rnj-1:8b/translation_20260116_195424.md b/results/rnj-1:8b/translation_20260116_195424.md
new file mode 100644
index 0000000..860f448
--- /dev/null
+++ b/results/rnj-1:8b/translation_20260116_195424.md
@@ -0,0 +1,25 @@
+# Отчет бенчмарка: translation
+
+**Дата:** 2026-01-16 19:54:24
+
+**Общее количество тестов:** 2
+
+**Успешно выполнено:** 2
+
+## Результаты тестов
+
+```
++-----+-----+---------+-----------------------------------------------------+-------------------------+-------------------------+
+| Тест| Скор|Время (с)|                        Промпт                       |        Ожидаемый        |       Ответ модели      |
++-----+-----+---------+-----------------------------------------------------+-------------------------+-------------------------+
+| Тест| Скор|Время (с)|                        Промпт                       |        Ожидаемый        |       Ответ модели      |
++-----+-----+---------+-----------------------------------------------------+-------------------------+-------------------------+
+|test1| 1.0 |   2.21  |Translate the following English text to Russian: '...|Привет, как дела сегодня?|Привет, как дела сегодня?|
++-----+-----+---------+-----------------------------------------------------+-------------------------+-------------------------+
+|test2|0.333|   0.32  |Translate the following Russian text to English: '...|       How are you?      |      "How are you?"     |
++-----+-----+---------+-----------------------------------------------------+-------------------------+-------------------------+```
+
+## Статистика
+
+- **Средний скор:** 0.666
+- **Среднее время ответа:** 1.262 секунд
diff --git a/run.sh b/run.sh
new file mode 100755
index 0000000..e205708
--- /dev/null
+++ b/run.sh
@@ -0,0 +1,37 @@
+#!/bin/bash
+
+# Получаем имя ядра (Linux – Linux, macOS – Darwin, FreeBSD – FreeBSD …)
+OS_NAME=$(uname -s)
+
+init() {
+  if [[ "$OS_NAME" == "Darwin" ]]; then
+    python3.13 -m venv z
+  else
+    python3 -m venv z
+  fi
+  upd
+}
+
+upd() {
+    activate
+    pip install -r requirements.txt --upgrade
+    git submodule update --remote --merge
+}
+
+activate() {
+    source z/bin/activate
+}
+
+echo "_= Project Scripts =_"
+if [ -n "$1" ]; then
+  if [[ "$1" == "init" ]]; then
+    init
+  elif [[ "$1" == "upd" ]]; then
+    upd
+  fi
+else
+    echo "  Аргументом необходимо написать название скрипта (+опционально аргументы скрипта)"
+    echo "Скрипты:"
+    echo " * init - инициализация, устанавливает env"
+    echo " * upd - обновление зависимостей"
+fi
diff --git a/src/benchmarks/__pycache__/base.cpython-313.pyc b/src/benchmarks/__pycache__/base.cpython-313.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9ec44899b0290e1f203126d5cf314191d6e14ecb
GIT binary patch
literal 3854
zcma)9U2qfE6~3$8)k>=$%Rd+}*j~vtK_<3<*x{#Xs3Ejqz$M;@3ANjuMP56i@=CqC
z>IC|NNt3!m+L{Lnfi^e~ow_r9FcgA<A)(WBhMB(XhD=d6bkdn-I>Vc&Y15hZq37Q9
z$~MrSJEQw^&bjBFbMCp{S<OcxB7#;KJDS}TM(EFE;Wd6?GXFK0oIx^@nSBVmBZC=O
z`}X<zS<LoxnCs^;FA*NQ&)+X#p+A5Fbj|Gx_KR4Q&?=NbGT($`|FF=@y1H>_j7bXj
z$zmYMI@}A{jOnm_`Z0&wpEb;+4;DLjIZ^e9VPZ97j%(&C`H>{!guj~0spIOdTvpS~
zjH}G;0}G4!AHw7e8b-uY?2{SH%0A4=>@eTsles2zl*3?&%nt{KgTwr=*yAG(lOOQ?
zgx|ZM3Wq>W80O^w{P^K;k6#Wh<40t1I4XxIcZn{L3)6FI<Oq(9MUyp7aHpncUKv;M
zH}4Cey|@E9>$Ej%U9;Y|F59Q9_ay7OHD}G*6ZV8;U9sluA4$NNu&&y#OV%aps&&);
zo^=BRPJkfn>2^3>9oI6x1!KuTqDy}B1JIp8FUN8)x^1W`H^_Ok#W8_~{NAdUac60i
zt4hLc`HC9QMeCe((<<3-SS2ui4*F|g60C^1k6Jm~EsA}3%-AkU(1^9$CF`fu>C4cA
z9_#88c8LQ?9z#+hN66*J#<KdD6CBgb{V><C6HpYQNl_d>;c6I?g)_9=DBWTZHzmpG
zO{EPD8!2^UJgcWN`4KIpX1k7fmyj}WCRJS-sUxbPbr+5i<yk#zg7UiRg>`#0@?wlN
z(49b)C|a@l&EUPp=DUqgebo5WF9UZPH%)Rs2+ac<Iex5}MXYBQB1ve7%<0{bpq@cA
zqU3r+>nz0LSM~|}HHhVPYgV#P!lh3@PcwsD{}mdooAxRDbqMJoRlX2a>mBO@i2ei!
zUw?cj(C6&eAaQ0Pfi8;!zd%U_*TJa<F-OAn&^yswUL8?P%`lY_)l{8Ti>@!{G?0xX
zeIWob6pY|Tx_um?n^Ul66!N;EIRWj}f|fD0kqmLyYfp0jBVdZw+mJqx-PCo`fwivt
zkRy`yKE&ZN5KfZC4e;^`2t(d2OReP=K$5-f?V<{nZKS#AnMg#fcOef+gs)mR+=o~_
z^U+xUgct%3u=HeO*Kh3FloSW>YVa$`(m3O_Fvrc%86+C;4BVIpv~R1qqH1bO6V0Qw
z5b=dLud2p5lBdw8WGMDIqU$upfTe*ZSxWQlGk6MTP#O&`%|c+3<{_NUrjX7JRrjY^
zndx0Xih8u?3Lq7%3Wr*Vo+=u+I!HfAtbC-&zBC_&dN3697-`nS6rgjUiPj#E>yA<M
zjNg-z&=7h4v<+5g9tA-?soF23{W4FmTMwj}!J0)GZ<h9@1F~NhHZpQx8><KZU(IQu
z3#`;du(sCIwK%@~V>w7p^<t%m(%c|<Opi3MP9$>a0L<u)bTA!Ci*l%YiMI#dMJR+M
z65}UC=1Fl}LgVVup@`v2A;SkZ76F?hax5MB0-QPmcXuEJr$-L@4nS<k8HP`fcyUg1
za&0%)j^b#DJZ;(pq#ghr;s0>oD?PczQ4Z7lj-<nIhn%Myy!o#Y86uB_wshFrBS*V^
z-dsYhNUqVtec`V#2fmCJ=A+Cg`XbwkMj6BB`Z9`=b;aL-A{R$L0JNI`B>W$>XxUQ&
z5I9du8L6=+z2Xbcd=|6-7TBjGsLAe!2Sty?mj_!Pt7l6<>QVfd28_7|I6r5<NdS$i
ze%w;=K6$an>jsOu4#iI*$Sh@`LP-vjI?hX@c`P~p0?v;YOebV&;{^??P;a!cQQH2p
z13syEY9w9<nj9ftFtdQo6o+V;O!}Q51$?5G3b{OjRt|4u@>ql73-F|8jvcSxjWHaV
z)t6Xu+_zmy`fw+e*9d<AZ-7OTbE4I{N((hum^alNtuKZXGm4pvW*DPIk0L<fDCSHf
z8Np3NTTs)B<HR8ilZWSUS$#C`usKb4zX>=qI}Sx=Ow(PVRwCqA3k6Ldae}*F&1lqF
z+(qatd_E?lE)vIqfD?o&R$VvnCPHAct|y{ls@PP>32sm*dOuAz66YL7a~NzyVG2OL
zq`8>R;-c<E7K<k=$yQ?$t`jO|BWi5AyJEe)V*Q;Jos(j@u3=L6Y;DK%(b@R#*Y<pW
z|72gqmx$DtV-06Rr$cvRk{y$*w%%EFRxU9&+Db>~Qr5Qq+a1=ym+l@sY#%&)`#V;A
z=;PS%LqBRsTs(aK@P(l%vEoNfZPQ!r)lX0P%kl2J@hx_IOS!4Nye3|5?wr|Wt=(7=
zP-1HZaf!OA=))*l(|R#^K6zoojA%D)o)SR8>gJ1)w<6Q}Ezy2<-<?(ar}#g`R-TQX
zj+Wz{Gtb)b&E=N%vXq?Zw58tix}I`#qTIUfK}3-1{*Hv&`Ue|Ob8lrogIe1zX5Y%*
zThnsx_=O$!q_#`Ko%TJKg_%vIEw|M7p8NTWmjt_g&mC!Rd1cFkARiMeh!2YYcvyoP
zn&%O}Bo=Wy7Ps2Bl$cqglqkJe+GQoa^l_}OyxgpN&C+!3g+mW`R;v3Pv9<N{r2A)u
z2UY+2YXj=o%NQMSBR|{O{X)I(H@)KSuJDJfpY-+O?oR&0=00Y32mjj+9u|<@B>!mA
z4J2!E3>J>4DDbX|Ir8}#R+MiQ)!f3zXpN$bX0c)Bvbv_{fh{P?NIs(|cpK3|@D-C{
ziAg!Yq~KywPu-m7N8v-u#3Yq5`5%MH-veibqCh^H*^Hu^Ce9uyLfV2p0-W^Ai)I}r
z6@zv}yYXG<-avog_Exw6zxkZ}5W!GsK>mh`Pv9fd-1JK`Z8OHq`gguzOFi=lX!ESc
zt<=$32;__kf?+m8hmtl=RtthKt2Axp#p$&b1ViZ=I^62H&EA%82Y&th=Y;ASNNh`n
zF?leUlx)Xu9xDK(E%Bd(!(r7U8BG3w&=5Hd6uXS>Whm_ihI+d^0#4vL_fDS2{h)$i
oC%xqg%P`C*DEbKseTot`N_>ji{)oCBa$jc{af<yLA|ti)-?K1AF8}}l

literal 0
HcmV?d00001

diff --git a/src/benchmarks/__pycache__/codegen.cpython-313.pyc b/src/benchmarks/__pycache__/codegen.cpython-313.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2044106ef9230dcc252cc94109d05041391c982a
GIT binary patch
literal 3175
zcmbtWU2Gf25#IYFj}$3dkz`6@B3&pt77K}#0lKyn%c$)DP351Wys$A~HP<tFq|c#_
z?B21ljRI91G-Y8FR)H9m)1Z=rJSadPgg9zd{}t_19`8&vQqOK$w0`lMQaNzYr_LUE
zB&`?)iY~#~-PzgMnZ22Bb}Jb4BWMo_XVt?zLjNQaw{eZZRvHFZkcdR;D8lug!jv<o
zF%3O^l$mBRJI!Hk+Jij;kztN{r+Lf^s1HSv$POTpo8k8|b)DE(pyHl~WO5?T*z8Mc
z*07mF+IgEjrs_tVvVDgYEqi8G#;<4VTk6!)m~4F?2CsotGl*CMR#2D`Y0PF&iV~Rt
zbe6}Q$j*3XyfgfaFGUk)$UjAk9IUd~FM4Kp5mrH}Bjpi!hZ_)mIG90G6z+_nxZmD!
zq?A*>sc21W9(qAZ<v0-Y7v`#Y+xn?_%UrSM%o~FFv3b+FELa!KRqIWlYrwr@eq^qg
zw_$u)Ft3vhus8=B-Zt0FHNm_A5+9o@i7W*g-9|2n{I_C24pLXpDR%|ELS@kRzz>ny
z+t?wX0*ccoY;P7UEht)?wmH30R<O-WlB%hOBms-nm15rZNm8~b>$)WAG^iBj?ET4%
zu3$YW=VnzcNmL|db?mfz_emXRlg*j#2*4SM@_8Ht1$O`T>q)q0lCaWu0Qqtb-RFZp
z^ICl0LjRxn;Vs}H+k+LOg0&~yhWM+yJqNB`K}n=hBBjwS=hMXKZ7qs2w0jlZ=;fay
zq%j#L?Z$4KwAhpzX>fC(?|1~EQ{<aEt?evg&9;{A*v5eA$>F^Xt3*a*MQ(zjk;a}1
zxRU8kchu^^X4bV?<1$pbtF`8iz=v*k-0DSI^tk6`IMGYogq|n8=u0rJR>(j<`MI(J
zI(`|U4kVxq6+_RXQPjKxxa&MEpdnZTsrM0@Vunzjig#3C2lAW0g!sK~%~@}mzk_I9
zX@xh0wspz+2?=`=;kVrh$$|eC>VALP`S$vxUw~#_GyeeT@g^j~jjt*P{!QyGNU{~k
zosaw%f`+0S%{aWkCC=(4&8F}Lu43fJ_5*P65WA(EsugUAvNA5smJQ&YD=S$;$q}s4
z<XHvxfp54U$O%Ytx}@9QBH&I=g{)Duoc@MtoUz$bS<!5^ER*rsk_uzzG`3ihbGAn=
z!*b5{Vx?S^vr629$)~n`#6l@28?wz4DmhB?YEdBv+f?3W30o&fM*J59Owz>eBwD4`
z=Ao~o){_Dx|MX=bb7->@^@gjyjqYfbf6zCu=zrJ0wExq-(dx?^q40W0utLHT^zm9K
ze!sW>z3AfZtGgFRuZ}LAs|`%99r<MU-QKkM-B<5Nh88E@oml$LuMW(=w9)h2dQZ&i
ziERiY>%zDtjIV^(qBUV^Bl^P9xoe4y*vRsL6-#~YWnb9&2(i84#~j)zQdV#Ja}M>7
zZT6rY{U+b{xQlQ<?M?q%Cl>#4@DP1C!Tl-WKRo5LJ7)oKiV{}za!CUmA|E76kk4%_
z3>+kUAHo!H5NN$Y(zMGpxO*G@)6(Bvb5lfP+O*OCw>Gu~BCX^WsmYTF$zXMXhJ^Mt
z%xmjfvH%2(o0M|69h5ShYjfKf%~T%)Q2I6{(wZm3{tx?`0My*?Jy{q7%i3)g8Q=l7
zkbixZNNfD5CJ<(ze7Yb51(U1%1626UUqgK(wT=J=A&|iJnh4cUfShhs!uBG08!+Iy
zd8bts{r*F^(7=f&LuFEcGcH1LU9~O><{d(AIi+;fylJjEz~bgS5jB4c<(A;os(H)0
zWd7dSQs2EDj@~0Gp+v7e-T0C5u|07=CYWDvzvDwPdr0Cj?y(tNF>J0_dIKsjr<aQ=
zJZvEM?SQHoP-y{%R6r~amnvE=?sG5$kHS_b`0YU5O{4U>qUm<X^+BpLa0&!%Ul}V|
zRVQkojArFx(WdizbP`<zPMlW96khqET&&23@{~gDE)Byr{T7fp^r#Q@MHUXON0L?~
zS&QshkL<G|`)ZMiT6nS=xIggR!kI<ws#Y6JtPiHF!BlPV>$QP>)zE{E&gzeA9Yafd
zY8|nS?wx-R53h&Et?>BDP%V6@8u)DLTkjlM2-JFZ{f1dSRvVeP+cWWrUiE!8b?lw)
z`I%Z*^aF8usJ3h3Zr6mF&Qv{{9u(YZ1qNM(8^O-`xb;lT3hr9&x8g5a!2?zLL8xaw
zz0h^(M<yS^&wv9TqIifrdI-)+lI@oyxXenCj02MNgNj^itb`;fuVUROs+yveVA(54
zxl&e=oJS2N#T1jT3E$Gdm|zh88kur=fM5f^NXEVJhB9PB%}TOiVD)qbkQ+1w8!xP^
zQY^y5i^3rg)(LEV!}%nbhoM8rn?pYW<jc3wU)Wc_U@0!P>FMG6m)NCOmWP-1<&kTz
zSwiX&0^a6mgnM>L-$c-@WSwqJc}!;iBE)gu(F)bfTPzg{Q2+4r<S2OFKpiyBmkEbB
zRriPZXop%ayToZ3@R!u2x`k6@L@u=vNC)ayc@R$nkGP|gxY=YVin@n7@1c%+$oDrC
XwNUi0XxAflANB0~`7aQ3j*|ZX&Yx)V

literal 0
HcmV?d00001

diff --git a/src/benchmarks/__pycache__/summarization.cpython-313.pyc b/src/benchmarks/__pycache__/summarization.cpython-313.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9c1dbd9c2660bf82b737fd47a26a08ff88f21794
GIT binary patch
literal 3180
zcmbtWU2Gf25#IYFkCZ4z(GMjtkuEY7i-APS09{9lWz=?1q_X3-ys&j)HP<tFq|Z4W
z*}Y?98wIL5Xv)GU>;f?=r$I#reNcfu2x;7^@lVk{1?bD2iAL<%O$*d7ep4z34*JyD
zBaft2=b`8loZX$BotxR6`DV96p&)`*FPv7BJVO5@6R&a2!FC!3myw7>>IlM(p2Czn
zr!fsZeS}$HF}uKFZo!9r0+C^k_!oH03up+9Bat0JBDcuzWg0qhpg_fa_sQf~oN?F}
z)vW0-2lcZKdsH>dIOPNmDSGzQl8j%=HnudVuQ}QNHVj?`s}>Ql1gxMiBhr}7pcExC
zBj_}bIgwrTE&3Pv#XyQC&X9kK7CBgDaZvOv@*=E)R9DI;@-DYq4B$`(%~QB1hT=hI
zP%JNj5$ZYFREv7cru%+SRsIqX>!;Q=>!$r9>xQ*%FIyi7*8A3V`=Vf<x31Yg0J;I(
zTh@Elx^)xA7X|ANu&_)Ptq*|tJF=L_QlQFf<c!FFI|k$cbs3%TR?sU{27L?M5UIV*
z9Rez#IDO0s8J&j4X@@h)B?UXYB&oV;N)oVGL(%e1K$5bWY#5Sc(4bgYb`B&nhJuZx
zoLf@$WVV=7lCnB|(z}49fwRfh%t$`+r9|m04uKkH?C~d+@V-yt%y<IGXUpg=ANsN1
z=7(0s{=&z%frlI)R?ITiA2|pJ$i_h|gR_@W66usk>2&)z(!_xsZ5(B2?{NCiOFuzK
zXEIFM3+4`Ku_ZUz<mN!%%Ta_*kn43@$G3<zJ6gJH2Lq<ZckOLjB{Cu_a<dGLboNBI
zCz<Z?M(rMKW<8sAE<>ez+iTtkeCYGW?OvospZC2CC;Ew-(DS4h0|~~{3Mm;RKTlRb
zFJDBc3kfJg#n3Zo3boDv&N@#EXbjds>Rp89nK6{7;$7tmC=FUagQ)$Dy==b$u?rF0
zj&ulQ`-1&Lk^v;xZ+a7w4v&rcU@+}ox-l0NpjlTzY6J4(7Nk)te>|<gziz()iM9?2
z_g?T^pQ#w;j$k~;B~BYf-J$R~u59L~p9dh}A&iSTRWCRYWF=f&Dw)7LQ&O^~k|Wro
z%S#F#0@v^`kYkYabkT798sJb)g#=RcobkG9o^se?Nzom)B$M&!q6%a8Yphn3bB<3g
z!E(;=W2L0YStahn<ffefu~W*)rtI*9O0Lqpsww2d4wZLU!Zrx9ky8)^OtQr3AzG#O
z=84bAuSdm5DjI7*meE!Z8i-T^^}fjpe{X1HHTZV0`us;jQ<azM;mBrKu){(X`gkoI
zzdJDe&iLx?E4x>xu1r<W)JEnu4u81&_CVVD`Zw-I$5v<Go~?fE=ld_cSnq#&vp;6{
z$Lhl5rZ8g*GwYF!@tQDSAAh!b=4zrIn_L^QW2sO4?6ZRp5IYcg$e}@zvIo+iaA<gX
zs~<fvZ1F=6dkOcWf%Lx(V(}kG57LJc+@BJ`L-PTrX9*BUldxixiaG!jxt1&eM6a<h
zZ~^jNh*f|`pp6EZ(<#^F?rrvu!vJs1%M+dH&_@5?+SoRdv@=|!=8hvIgVhBZvO3T-
zucK?r0va%0X3CLHWXf=!%^lxp<@+=s(^n{w)_ocFf7stbq1Jx?@xnA%)@ifI01p6$
z{2Qx8TIWx+&@cl<)k7L6qg?sVpdx7f!hVw!OBXc=fn;vfNT`ngjS%aJVDKO=G{ND~
zn3xkl*?Fj{*X;9xb&HT202}Xv`s>z)izZ%*6H)88)`p8p*Q^`%1?%_jmd5U#81xQN
z3H5p7@m5aGOz(*YF+uo(cVYL*>^=#+xX)n>#dJ8W_&U^H&M0XrylWuUoo-b(p~eF0
zz&pa>aIviC;sF;T@Dyxyqul9kxM>z&Q*^@#dp<}F22O#X6DVONs~SWN6wR!xX%3y=
zV~{W+=;5{ogz(CDWvwim%I6kmPhb~pHf{h}Mh}M2P;}+MW;AI>leOrc&FDTmx~~?U
ztwrW4-FHWxUOBa@U(su$iOtcJJ({YGexWw9uM)o3)l>O?t!u2hr`8p#_YM9dvTHLk
zV@GDz$7+#-mF|z{zx>wWmF`;q#IKpPqqWJ|+x@d28kNAu^GDz6yR=yA9si}cHddRM
zz1=%&r85=ZmJfvn?e0-eVLjAyDQ-U*vqKYW!*=`yJG8$--wXF&O0V=@_@2c_@sr@d
zuTVTp9z6tHCCLd&5*%q+BjavK`c7Hank!*R%B$EgHC0#iA}sqQDOb!&lKY&&q<~^_
zr*NYt#sqTkb7acp0dY<I0vQj$8_I;2VOEk&6RRi70N0=?)O=xO6-|SO7lp$hY!H<C
zqI)rzhoMWzJHt2(<g+)?U)isI%2M2OTfTm7xXM;vS=+T{tW92h)fQ3@5b(C9qTEwe
zV+%pIo^`to<sq5<ixAg+S1Xh-zg8?1py=Ue$fw{*1I5ogTOu6dRKp+QqZ4kw>=Gws
zfLl_C8Wzrz5joUmIPGs7<pI0^JmQW);%1AXDC!RCxr4gypupeJxQ)jDh9(}c`>3Z@
LzWFJF&Q<as%_Cw{

literal 0
HcmV?d00001

diff --git a/src/benchmarks/__pycache__/translation.cpython-313.pyc b/src/benchmarks/__pycache__/translation.cpython-313.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..784ad3148af63ff3e5b9eb45ba184d45cccc6b2d
GIT binary patch
literal 3160
zcmbtWU2Gd!6~6OlkN@J$CaIISO=c6fjZtE!Qc9a_Q_-J?CG8gBsi9KC4pV#VPIodk
zcgAd6A(8EhVpO3PX)DrYA?b>TAn_0_8wmYb1W(HY(o8KjVOka>`qH;7>8dN9ICt!c
z-4GrS*YdgNo_p?@bMHOpJ9i@z2_k5JDqc{3$|Lj-GVmJLU^X(q+(aT0sS^m-dkRzT
zn8q~p^a*B)#q1P^xhWs^2}FlE;h*9$FQ9HTfJC+ziQF{5pQ+o#fg+XkJt2crNycH1
zt2xtQj_8*h_M~c<Ny-TvRrK8X85zHxt1qcjUt_TGO<-OFuci_41iYXyBhr}7qA^Nj
zdeH?Qb0RzKoAyuh(}6LXY=->DXpw_i76(P&G%vy|XobdnBJWDWVgN_7Xp+Kh36u;v
zou{#^8=7pYC4JMQCw?$gIS$17k+p2yx4&=QvzF{x>yBW3VBNK^3-%Rj*?tq~3P?Y+
z-nW*l`@mlptlz=JEG&8-#2=8URE`2eUL)s2{u>D(hpC(BtT%&BQ(5#4*n&vyZ>$hd
z5hdwUPRMLJnWP=gsFW4#@RFqJswqhzVhu$rH~~q@X|iERl0k!6Vb(d6&Ke3f(sF)A
z)zi6BUP;U9$T{!m(+19^H%CUg<vXeJB^&`G&aUlFDCK>dM3?abkk4n)BR=v2zs+~g
z?fNsncLQX|@nOZRVEwrxfH15d!7Oa^CQ2in5-FW-9z=#XzoiYJEbSdj2YTg)2<c3g
z$#@~$qAhOf4K<{Bu=i>lp|j*#-PZCg;?0(p32hO;@XX-;hF2mZvLZLm&`4*`hCR(p
zo5wYK@R{{|*10T|X>ZPX9PFXP<D0!mi$3prSx)qmZ9>nJUJRrd&nhHhko-Jd0lj)1
zp%4;KmP(+P&@kFO132pfEuemw1FiQEnq>M>fl7udSHWn|`Z0v?uk2a-E$cVd9c!r>
z;Sj?1HT!!c@=1{2_XZ>lwu$y&FymgiF%cA?S+_xF#eNeq;m&{B1o>V2El95=k}<){
z?WSUw&xPS-E_J~u=?;Z2a}~2NauA?{hwv@sRlVpyfR%A+rfh=jVp++VN}iyNF3%{q
z8@7defSiIfr%Q(8*8q9)DkP4g=Z!a1^Sr~B%8Kr=Wts37N-FT~*I2D2=N+G1hUvWH
z$4Xg~b4t>O$t^np;-!?AP1)fIm0Y6*Ra3}^9jf54L~IZ&BWEB8m}H34MyyKB#e>^s
z*7Hgv1&u`@vuM2yb;YWIwT?Yi{&9EjeDIy%!oiQbhpVrwMPsW`!Hx<G&?jrr<fE>h
zcL(P8-r74qd~0~&Vy$;#<=97iA9Q7`uYLVdynlZDo$-aQ{^Zb&<7=I}Ryz}RXJSnl
zS`|iZVRR|BGEfsH*9P`1T)drHOAIac+KI7G{p_9{PZ8S{d&Z$1B4u}FKIKr)$a*Jw
zp~vF8pS2U|$6c9!8N}n?_Z^{+rno<(f=4F<PTLINjwWHnD3^4ABXTJ@0)k#+fpJ0c
zJ&00(M4<HsIn%1wknV5v+hxBu=Vge_v{<A6Z)<E5Lz=lQQWIwolELdD4fz~sxYyD(
zbpZz$FDK<#D<)+*&*zqJY-aihVA5A8k=A`#_J3Hvi9eg`{b!0J;90BBA_Fpj7V@vp
z5^bG7yNQEYD54(5K-uIfe*_aj>u2^=QXXBrAOsS*UKODpZpDVBR4{l17aOqfd_+tL
zVCo8#%w_wEV0}o)J-2)=TX(G$7e~DGCaTu2trZuImaTjCHS4$TlKSec=<_Zy3H5ko
zdmo2JNA@Lym>_%6yRIi>^n`?6(&sRSVmh2wdIRb$XOuM+UNMm7PFU4VsH=cD@NRH8
zT&n2#WWa?7JPb?S7<a<;ZJMRm72R;6-X5g70FQy96DVUPry9fz6w92fX%1c3XOJKw
z$l<m+eDKP*WvwEc%6}=z-t-_WHSPhKMNfNCcYN;fYCLVn)3x}%)%XEBexMc~uf-;+
z;YYo@=FZRSxAa<HYPE07?i;K1eX-Vipc;J~YO8*?7V2NvR|_T9I(Ga$Hn<uawPT}8
z{k7PUYWS1MFTZ_kE?n!}{Yz%?WNm2tLFf2KMm6xs<jJ=?ZcNwO2YxOt_SbfgKWHDf
zGTEwc-G?GO>~NoFa4phyBWb^wup_${d+g-PcH~f%ejM$*k(q11_8p6l;}>BAzd*?-
zdFBvUl_V!9NpPSQjqqVf`c_5O8Z%KzDyY~nHC0#i5={FgDPPJ-lKX_gq-<hxqi~-l
z#sqHg7s!w+0NR@PWx{vCtI33SU`~=v6RYPc0MuY9(s)zl6itJt7KNjrY!HO{l6x(f
z2i7IzbzvL>^7&Qt7xvU=EX572`#QOv1$N=|;^3mOICT3pTNrzaK(;=-liRsqtRv`_
za&EVxJR_rj65?*(wF<?{ua$~LD0lcJ@+o-8K-n`dm5GFGs=gnxM<?2R%caiA0JWq9
z)jgaf968iRFdeEN<zYMpGO`_m#LYTGQPe}!_7H_0qQKwKfQ<(JigrI`4^lhl#y>;Q
HxkmmCN#|Ht

literal 0
HcmV?d00001

diff --git a/src/benchmarks/base.py b/src/benchmarks/base.py
new file mode 100644
index 0000000..cd9850c
--- /dev/null
+++ b/src/benchmarks/base.py
@@ -0,0 +1,100 @@
+import logging
+import time
+from typing import Dict, Any, List
+from abc import ABC, abstractmethod
+from models.ollama_client import OllamaClient
+
+class Benchmark(ABC):
+    """Базовый класс для всех бенчмарков."""
+
+    def __init__(self, name: str):
+        """
+        Инициализация бенчмарка.
+
+        Args:
+            name: Название бенчмарка
+        """
+        self.name = name
+        self.logger = logging.getLogger(__name__)
+
+    @abstractmethod
+    def load_test_data(self) -> List[Dict[str, Any]]:
+        """
+        Загрузка тестовых данных.
+
+        Returns:
+            Список тестовых случаев
+        """
+        pass
+
+    @abstractmethod
+    def evaluate(self, model_response: str, expected: str) -> float:
+        """
+        Оценка качества ответа модели.
+
+        Args:
+            model_response: Ответ от модели
+            expected: Ожидаемый ответ
+
+        Returns:
+            Метрика качества (0-1)
+        """
+        pass
+
+    def run(self, ollama_client: OllamaClient, model_name: str) -> Dict[str, Any]:
+        """
+        Запуск бенчмарка.
+
+        Args:
+            ollama_client: Клиент для работы с Ollama
+            model_name: Название модели
+
+        Returns:
+            Результаты бенчмарка
+        """
+        test_cases = self.load_test_data()
+        results = []
+
+        for i, test_case in enumerate(test_cases, 1):
+            try:
+                self.logger.info(f"Running test case {i}/{len(test_cases)} for {self.name}")
+
+                # Замер времени
+                start_time = time.time()
+
+                # Получение ответа от модели
+                prompt = test_case['prompt']
+                model_response = ollama_client.generate(
+                    model=model_name,
+                    prompt=prompt,
+                    options={'temperature': 0.7}
+                )
+
+                # Замер времени
+                latency = time.time() - start_time
+
+                # Оценка качества
+                score = self.evaluate(model_response, test_case['expected'])
+
+                results.append({
+                    'test_case': test_case['name'],
+                    'prompt': prompt,
+                    'expected': test_case['expected'],
+                    'model_response': model_response,
+                    'score': score,
+                    'latency': latency
+                })
+
+            except Exception as e:
+                self.logger.error(f"Error in test case {i}: {e}")
+                results.append({
+                    'test_case': test_case['name'],
+                    'error': str(e)
+                })
+
+        return {
+            'benchmark_name': self.name,
+            'total_tests': len(test_cases),
+            'successful_tests': len([r for r in results if 'score' in r]),
+            'results': results
+        }
diff --git a/src/benchmarks/codegen.py b/src/benchmarks/codegen.py
new file mode 100644
index 0000000..73681ef
--- /dev/null
+++ b/src/benchmarks/codegen.py
@@ -0,0 +1,62 @@
+import logging
+import json
+import os
+from typing import Dict, Any, List
+from benchmarks.base import Benchmark
+
+class CodeGenBenchmark(Benchmark):
+    """Бенчмарк для тестирования генерации кода."""
+
+    def __init__(self):
+        super().__init__("codegen")
+
+    def load_test_data(self) -> List[Dict[str, Any]]:
+        """
+        Загрузка тестовых данных для генерации кода.
+
+        Returns:
+            Список тестовых случаев
+        """
+        test_data = []
+        data_dir = "tests/codegen"
+
+        for filename in os.listdir(data_dir):
+            if filename.endswith('.json'):
+                with open(os.path.join(data_dir, filename), 'r', encoding='utf-8') as f:
+                    data = json.load(f)
+                    test_data.append({
+                        'name': filename.replace('.json', ''),
+                        'prompt': data['prompt'],
+                        'expected': data['expected']
+                    })
+
+        return test_data
+
+    def evaluate(self, model_response: str, expected: str) -> float:
+        """
+        Оценка качества сгенерированного кода.
+
+        Args:
+            model_response: Ответ от модели
+            expected: Ожидаемый ответ
+
+        Returns:
+            Метрика качества (0-1)
+        """
+        # Простая оценка на основе совпадения токенов
+        model_tokens = set(model_response.lower().split())
+        expected_tokens = set(expected.lower().split())
+
+        if len(expected_tokens) == 0:
+            return 0.0
+
+        intersection = model_tokens.intersection(expected_tokens)
+        precision = len(intersection) / len(model_tokens) if model_tokens else 0.0
+        recall = len(intersection) / len(expected_tokens) if expected_tokens else 0.0
+
+        # F1-score
+        if (precision + recall) == 0:
+            return 0.0
+        f1 = 2 * (precision * recall) / (precision + recall)
+
+        return round(f1, 3)
diff --git a/src/benchmarks/summarization.py b/src/benchmarks/summarization.py
new file mode 100644
index 0000000..96d79ab
--- /dev/null
+++ b/src/benchmarks/summarization.py
@@ -0,0 +1,62 @@
+import logging
+import json
+import os
+from typing import Dict, Any, List
+from benchmarks.base import Benchmark
+
+class SummarizationBenchmark(Benchmark):
+    """Бенчмарк для тестирования пересказов."""
+
+    def __init__(self):
+        super().__init__("summarization")
+
+    def load_test_data(self) -> List[Dict[str, Any]]:
+        """
+        Загрузка тестовых данных для пересказов.
+
+        Returns:
+            Список тестовых случаев
+        """
+        test_data = []
+        data_dir = "tests/summarization"
+
+        for filename in os.listdir(data_dir):
+            if filename.endswith('.json'):
+                with open(os.path.join(data_dir, filename), 'r', encoding='utf-8') as f:
+                    data = json.load(f)
+                    test_data.append({
+                        'name': filename.replace('.json', ''),
+                        'prompt': data['prompt'],
+                        'expected': data['expected']
+                    })
+
+        return test_data
+
+    def evaluate(self, model_response: str, expected: str) -> float:
+        """
+        Оценка качества пересказа.
+
+        Args:
+            model_response: Ответ от модели
+            expected: Ожидаемый ответ
+
+        Returns:
+            Метрика качества (0-1)
+        """
+        # Простая оценка на основе совпадения токенов
+        model_tokens = set(model_response.lower().split())
+        expected_tokens = set(expected.lower().split())
+
+        if len(expected_tokens) == 0:
+            return 0.0
+
+        intersection = model_tokens.intersection(expected_tokens)
+        precision = len(intersection) / len(model_tokens) if model_tokens else 0.0
+        recall = len(intersection) / len(expected_tokens) if expected_tokens else 0.0
+
+        # F1-score
+        if (precision + recall) == 0:
+            return 0.0
+        f1 = 2 * (precision * recall) / (precision + recall)
+
+        return round(f1, 3)
diff --git a/src/benchmarks/translation.py b/src/benchmarks/translation.py
new file mode 100644
index 0000000..9c86c38
--- /dev/null
+++ b/src/benchmarks/translation.py
@@ -0,0 +1,63 @@
+import logging
+import json
+import os
+from typing import Dict, Any, List
+from benchmarks.base import Benchmark
+
+class TranslationBenchmark(Benchmark):
+    """Бенчмарк для тестирования переводов."""
+
+    def __init__(self):
+        super().__init__("translation")
+
+    def load_test_data(self) -> List[Dict[str, Any]]:
+        """
+        Загрузка тестовых данных для переводов.
+
+        Returns:
+            Список тестовых случаев
+        """
+        test_data = []
+        data_dir = "tests/translation"
+
+        for filename in os.listdir(data_dir):
+            if filename.endswith('.json'):
+                with open(os.path.join(data_dir, filename), 'r', encoding='utf-8') as f:
+                    data = json.load(f)
+                    test_data.append({
+                        'name': filename.replace('.json', ''),
+                        'prompt': data['prompt'],
+                        'expected': data['expected']
+                    })
+
+        return test_data
+
+    def evaluate(self, model_response: str, expected: str) -> float:
+        """
+        Оценка качества перевода.
+
+        Args:
+            model_response: Ответ от модели
+            expected: Ожидаемый ответ
+
+        Returns:
+            Метрика качества (0-1)
+        """
+        # Простая оценка на основе совпадения токенов
+        # В реальном проекте можно использовать более сложные метрики
+        model_tokens = set(model_response.lower().split())
+        expected_tokens = set(expected.lower().split())
+
+        if len(expected_tokens) == 0:
+            return 0.0
+
+        intersection = model_tokens.intersection(expected_tokens)
+        precision = len(intersection) / len(model_tokens) if model_tokens else 0.0
+        recall = len(intersection) / len(expected_tokens) if expected_tokens else 0.0
+
+        # F1-score
+        if (precision + recall) == 0:
+            return 0.0
+        f1 = 2 * (precision * recall) / (precision + recall)
+
+        return round(f1, 3)
diff --git a/src/main.py b/src/main.py
new file mode 100644
index 0000000..cb7653c
--- /dev/null
+++ b/src/main.py
@@ -0,0 +1,97 @@
+import logging
+import argparse
+from typing import List
+from models.ollama_client import OllamaClient
+from benchmarks.translation import TranslationBenchmark
+from benchmarks.summarization import SummarizationBenchmark
+from benchmarks.codegen import CodeGenBenchmark
+from utils.report import ReportGenerator
+
+def setup_logging(verbose: bool = False):
+    """Настройка логирования."""
+    level = logging.DEBUG if verbose else logging.INFO
+    logging.basicConfig(
+        level=level,
+        format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
+        handlers=[
+            logging.StreamHandler()
+        ]
+    )
+
+def run_benchmarks(ollama_client: OllamaClient, model_name: str, benchmarks: List[str]) -> List[dict]:
+    """
+    Запуск выбранных бенчмарков.
+
+    Args:
+        ollama_client: Клиент для работы с Ollama
+        model_name: Название модели
+        benchmarks: Список имен бенчмарков для запуска
+
+    Returns:
+        Список результатов бенчмарков
+    """
+    benchmark_classes = {
+        'translation': TranslationBenchmark,
+        'summarization': SummarizationBenchmark,
+        'codegen': CodeGenBenchmark
+    }
+
+    results = []
+
+    for benchmark_name in benchmarks:
+        if benchmark_name not in benchmark_classes:
+            logging.warning(f"Unknown benchmark: {benchmark_name}")
+            continue
+
+        logging.info(f"Running {benchmark_name} benchmark...")
+        benchmark = benchmark_classes[benchmark_name]()
+        result = benchmark.run(ollama_client, model_name)
+        results.append(result)
+
+    return results
+
+def main():
+    """Основная функция запуска."""
+    parser = argparse.ArgumentParser(description='LLM Benchmarking Tool')
+    parser.add_argument('--model', required=True, help='Название модели для тестирования')
+    parser.add_argument('--ollama-url', required=True, help='URL подключения к Ollama серверу')
+    parser.add_argument('--benchmarks', nargs='+', default=['translation', 'summarization', 'codegen'],
+                       help='Список бенчмарков для выполнения (translation, summarization, codegen)')
+    parser.add_argument('--output', default='results', help='Директория для сохранения результатов')
+    parser.add_argument('--verbose', action='store_true', help='Подробный режим вывода')
+
+    args = parser.parse_args()
+
+    # Настройка логирования
+    setup_logging(args.verbose)
+
+    logging.info(f"Starting benchmarking for model: {args.model}")
+    logging.info(f"Ollama URL: {args.ollama_url}")
+    logging.info(f"Benchmarks to run: {', '.join(args.benchmarks)}")
+
+    try:
+        # Инициализация клиента
+        ollama_client = OllamaClient(args.ollama_url)
+
+        # Запуск бенчмарков
+        results = run_benchmarks(ollama_client, args.model, args.benchmarks)
+
+        # Генерация отчетов
+        report_generator = ReportGenerator()
+
+        for result in results:
+            report_generator.generate_benchmark_report(result, args.output, args.model)
+
+        if len(results) > 1:
+            report_generator.generate_summary_report(results, args.output, args.model)
+
+        logging.info("Benchmarking completed successfully!")
+
+    except Exception as e:
+        logging.error(f"Error during benchmarking: {e}")
+        return 1
+
+    return 0
+
+if __name__ == '__main__':
+    exit(main())
diff --git a/src/models/__pycache__/ollama_client.cpython-313.pyc b/src/models/__pycache__/ollama_client.cpython-313.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7d3f8cec4cf0dd6f223d679be01d863a22aa53e1
GIT binary patch
literal 3958
zcmcgv-ESMm5#ReHb)w`CI+RrF<D?p97{_89*-j-VZD_}>EhUbtE87Bcai!@KO@}%v
zdn8iJEnv$@sz7dnv=(X<Xse(vDbNSnu@E|rW#~WHvjteWy68in(kG@0kbb;$W{;#k
z{m>%F0-W8OotfR8o%zjjxv5Db(0*#2%YFi*zu`x%$<@K~^Dvkp1~G&oLa`Tzgh7#t
zgA$bnWh(2)lZKQ*m8v>vB|XHDzeWt@faqJGfs7DSKgEv|G06+QJYLA=?NrW_U&y8l
zo|Lf9#{^G3lFM3lA?@q<RIPq2{}=`{<P@QTL8xd5R5C;=8`3Fdzle*Slc{PbrxZhl
zUjVqO5#-ze=Qf-QR=FDIHo#X9G#mMsW`t;CrYY9!g<j6(Qe!E9C!Z>?XfY0i{f6CU
zWj4p|xRW}&$!@#v=<Y>UV%OQcJLyjA?j_yV)DtI<_j<w8DaSI4G?%V=0BjI~{*>Ui
zd=AJA`Qg?a^nM#bK5t3E5c-8A$<;MSYEB@-!J5=c-$O?D4I<}&;PXMdu9FdCQgIsi
z8oS2su(JCm9HhjL^C2tY7o3HCv~oUH>eaLa%{T*^4y|^Q0iC@IdLOcRcEg=!xAf%j
zi#1oUyTHAPM%=gEpQD?qR%=diFR?lB*A1lZWeqM{KAU$6Ct?ALo2R&2Pfhdt_X4?m
zCX=-@UPHzzya;29dO_2)Q)8BCdMeIZG$wkoW93G<zJtEfb#EY^bS&z`Q)kAqc08Rw
zW5rY1y{9cZeReEGUx_<39UlX3&WY#wJ)8cLz2oO`g{++|zzUD8j)C498(r^2fm|e&
zX42MurRia$efDuTvS&)Z()cja@gNet7m5BUct5glO8!OTGKdmS;mdjIIL(iZ7d(|(
zg(9`n_1gv+JbNSjmj4c9hIEo78HUmNHoRJ=I%x<=p_%lFwR_i5x0bc53=G$!VTB1f
zswRb`Xo$UHQhGr+DA;lm5(;B}7wIM=^;ip#)Gk77<q`YBy{~JAoK)8C%K|j8m4q@X
zjFRW1E;1^_0!0VHRb#*6@q*z|k4DHT9xIcqq+^2V>|-8aa~P#-qLaH9Li4vgG;aWf
z&|`CJ6nGf>7XXsKbl>2%?f|`|v%9eFJea@hPI9>?o_OW86b8S}uEGQc_H7={ld#R(
z?iE0QX|#VAc8dV;F@*Fa1od=17a*&As}S@hO&jJnUQH(U9{Zqv+%jL<-!oc;-P8{b
zda0~qRn?CEByDlXgk8;mS@1$_=Vi=DcM4eCRa0>K>yU`>fhPm8mG!uLSy`Lt{ElT?
zG*y5c)2Zc*=WWN*NApzY-qd3vZGj7=tw6kBO<-c@QA$B3vr%_IKk-KrQ|UHTkh3<J
zYT~+8S<7pvpTJWrGy~GxagCLQRNwD(Cu$0ogCPs>1C54JvJ?4hQ?q6s=bhJqKx%es
z4cnJOTi+RaYv@6!-3_&~uII{D`3J1y=wj&GOD#Kpec{~;4_fxzYuQsFa%=NaWam;#
z$7c!*D=G=MeHMVx)Uk?2cC=p`bi+{=ivIKAmeyq=t}@)=hB}yjsGKPGvCeNThMr#v
zZTn9}0g-<@=(fp(kdVoOtR<e77Mi;fd!>cF3XHwrnB_RBjOA<&0Ts~wN+BTdC<rj*
zF9iscO@KgM2L!?5GzWsK)xtE-KEQgqlJo8r_wD~L>ucVIym=2&whXy5&pra{(9N^!
z?puDX!qmH=yRSngU4&&z06%m3$b~4)=d9>}9xXyui9V@E(|Nl9FBD|;_Vz}9_M{Ho
zkG=}r_+1SVH{#)!1{F}b`N_439Y@Zl3LG9@%NEYAg9WGs#0ykC>jkPlnb_jPL)O;Q
zpbU^e+d;633bX^pJ}AgIO}p@0_XSpf08P_wB!~jE2gn8-cpRACwlyUhE%u`96p+m^
zps#ea^bG4bv>1A}jsekoEzvp#v~@oM1CG1l-LvQ2@IDsWw>c2ZZYc@xJFK&BF|>aJ
z4#<fBSqNx}1Jc5_uEbN)!cz*2)76I>?3WNsH2y4Hgu(xo{RdDVnhg&DLqJ1e@_o?}
z<HQle<XC`^e2*a_|D^a*1HLnKn6brOK>g7ufl@D{4Q$m?FF~o_<jF7$7S=aIN=h3_
zy=+SfX;rCLiZ<wJ?Dtqr-OIHnA|x4PqMw$$WZi@WyaeU+GBBYcx^Juk0m#%_00QgF
z=}J<s;020mp6b8!JQ*L36A?c=b6JPSwLb?@8dIuai8Fp!Vj1&eQ}&A#4@O?8ctoPN
z>UGI$L`Ac@R_mI$Ts3nXbes$jd_5{qNos{C>b6Ahx5TE7EybTH2k*rb_rr&Q&RW-Y
zUwz4qC*1I17CQW|d*Q>I2OrZ9mR>ETS?9oF=+LU@!z`NY?k9g}-Y;Jl`^inEpWM<C
zQE5TyO7utzJqnCtlK=e1YR#+niCBnkg%3|N@kqrSzPLlC`D!thtG>UtnC57fI)z-;
zw(LAi2Tb!!J`Dp297uPdDXi6WFA~gFin-}MW|~d`-W+KYpoL~n7YmkSnj9o(1f_VD
z$44hcf-&oS7s#9B6S==4Hz-ffhCe6JRU&Q5_G{@1f$sf2-j$8d@vCwWXTI*w?C@uf
zRA)jk^Sv(!bpC3%Ml491q4U(j`Ehs)QA|RLw@Yz#Pxb#J@INPfPwO`81)ueO^iBE=
lkjIpE5a%kAAP9dZ&3`4kU9$Txr0om&q#$hn2SLhL|1VpL&8`3d

literal 0
HcmV?d00001

diff --git a/src/models/ollama_client.py b/src/models/ollama_client.py
new file mode 100644
index 0000000..f4915b6
--- /dev/null
+++ b/src/models/ollama_client.py
@@ -0,0 +1,85 @@
+import logging
+from typing import Optional, Dict, Any
+from ollama import Client
+
+class OllamaClient:
+    """Клиент для работы с Ollama API."""
+
+    def __init__(self, base_url: str):
+        """
+        Инициализация клиента.
+
+        Args:
+            base_url: Базовый URL для подключения к Ollama серверу
+        """
+        self.base_url = base_url
+        self.client = Client(host=base_url)
+        self.logger = logging.getLogger(__name__)
+
+    def generate(self, model: str, prompt: str, **kwargs) -> str:
+        """
+        Генерация ответа от модели.
+
+        Args:
+            model: Название модели
+            prompt: Входной промпт
+            **kwargs: Дополнительные параметры для запроса
+
+        Returns:
+            Сгенерированный ответ
+
+        Raises:
+            Exception: Если произошла ошибка при генерации
+        """
+        try:
+            self.logger.info(f"Generating response for model {model}")
+            response = self.client.generate(
+                model=model,
+                prompt=prompt,
+                **kwargs
+            )
+            return response['response']
+        except Exception as e:
+            self.logger.error(f"Error generating response: {e}")
+            raise
+
+    def chat(self, model: str, messages: list, **kwargs) -> str:
+        """
+        Диалог с моделью.
+
+        Args:
+            model: Название модели
+            messages: Список сообщений в формате [{'role': 'user', 'content': '...'}, ...]
+            **kwargs: Дополнительные параметры для запроса
+
+        Returns:
+            Ответ от модели
+
+        Raises:
+            Exception: Если произошла ошибка при чате
+        """
+        try:
+            self.logger.info(f"Chatting with model {model}")
+            response = self.client.chat(
+                model=model,
+                messages=messages,
+                **kwargs
+            )
+            return response['message']['content']
+        except Exception as e:
+            self.logger.error(f"Error in chat: {e}")
+            raise
+
+    def list_models(self) -> list:
+        """
+        Получение списка доступных моделей.
+
+        Returns:
+            Список моделей
+        """
+        try:
+            response = self.client.list()
+            return [model['name'] for model in response['models']]
+        except Exception as e:
+            self.logger.error(f"Error listing models: {e}")
+            raise
diff --git a/src/utils/__pycache__/report.cpython-313.pyc b/src/utils/__pycache__/report.cpython-313.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8a7363b27432f02e1e9f69969b8bda403574d7eb
GIT binary patch
literal 10171
zcmd^FZ*WuBmA_B_^(6m`g|Q9T@*mlj!7{`Ih`|_Qi2obo7bO@w5sEAs5nFPuq!6dw
z41u;wn(TzM$%f8m0%>=$W@bMK8oGi~>S^=AlikkTXL$$ji<|At_QPgBnJ|P2Uv|%V
zPfwQr1*c_qKlFi)?z{Kg^UgW<-22Y?$#=4{cmmgdkDLhhmJ;$Gc%xprRO8N5(0G>!
zMBq9JRlYgO!M&za)1jr>4jt8X=&9b0W7<wbhk+X8wyx9IVWK8GDJ11Y&=(WI@R&xC
zO3lNZ)A$A6^f<MW?m*BNm9+aq<C3l`7>PPL$u#7R`lG>7KeV$)z4V2l@X3%T>V1C1
z?^9$b)SSAx6NSdRWRRe0R3mUyD`==r&=wP_7qSH1pkdHBXxgsP1D^nG!3ZDIpmDoN
zFc*^(x)U5V10O%gXL7E<ZAo!k1S_=;>z&zBPM?1)Orx#-ke_;^Vfuv;o)K#T!hX!I
zvR|>Q;wcsvPqUliDLatU;$K4-+_Ecn_%D7B2iOgn<*L0qWvt7`fduu^LIXc{o&fSL
z8BqI4U&^KF4rr8<0d@JvV<{<aGJ^BvYnV8>9;Z$+j)aGYgP~!`JnWBlLEBFylgAVC
zj`}?w$$+DN3Jai%_(uW}6l9kkt#?QKG*a&!8V!c(ec>U0y*F6*yg%eSj>}XZp}zW9
zG&mBer?OXEW8)|@7z#!~X5kW7xzrI1#E1>ZDKb~E=~hAYbV2n$nvw<E&g%ZgatF1R
zjMN{AjYK0o5+9C5$6`^>P>@ReD5x+Z>ns_lKN_PUU)p$>mIWW#aaRoJIJdS2g~8?B
zK_1}7K3x4J*O3Y}hC{lHMF81LuX5tn37nvLTw{k;Nb^8$2wH`Ez@*CRllP~3r+k-_
z$5I`AXxoxY(5ed_(z`i9hbCmh?sMyb8X9yVLxvtJgwBdKSEX$>4&<m0bi)=BVDmh#
z)sT?MZR*QYM;5*XK0^mfLs~cR$jbcIKg;$k)poFTEl<k^?Q&8cS_^+J@aL_>FFYdT
z3pQb$P#~-q3SEYJE@TGYBIL~{ZFdO?@j|hi-wpTPV}!WPefbMsQd@3b*nl&Hjl!mZ
zbs4=S*sIzmls3KtQY;{a7vvGaE|ltsP*w+AhjeQ1A_?WIN{~mENsxO%Qn9QLSfoDP
zPP&5+(tlumhVB)aPX>vVvP4G?S)||plZA_PsLIrIk(cF>Wj<1R7yITOAr`V~bXPBU
zapm|QC`x<Itn&74Q2Q3X)e}JFS@nsQ432a>K5dC;>PbWckqIYA$Rbp@Ef|?Ya2|AH
zTv>WG-LTKml8`lIaa+@8<~W?0n^Zl7nquO%=BLji^;sESwW@t}AUBkiG1vJm=Vq_$
zF`-s{!m2*l?9LLl<Pf254d;)`oh|d$XY#_z!$0*5gy)dH64eI_-+g5ZZM7wAbsMuu
zgC;{qV<mXr4xf-EK+4D#qWX3S-md`|DFv_FNl!zQwv+@o=eF3ZFu*U$B!0jW;#--S
zMBL6kX1|pCpz$lnEPl>z+Sz5yJ|Nk^)Z!Go&f+ef-%p1ljl3PM)a$g-&MpGqKZ$2R
z!kdtmK&B$TvBG3|(!!e;=Dh=YoPxR6mE1<rN>N074U(Gg!)P4yANVZQSeCZ%?gnY+
z*$uSd25A2=O!*~C*lSW|iLZf9r$9q^l6VHB;&UN=lBJ_$S&c;|;INbD`{axuWih(|
zlTV9p+SzqGDEM<(F-*=f#i93Zh-WY@i?eIslQaBNmmneazYLkFC;Y<wEJwd%)G_37
zv^lyRf|Q-keUv1G^W4|EMu#Ns<b8cC8mQYPPYyw*1esQ>3__#A&OQJ&<RowfKR4R%
zYk2-{HgML~f{!tCj5pTS+VAH%`s*B{b&essqpi`=-RKZvk1AXru*>4>V9r%A4fF@!
z$>PCn;G~;&__~TdM5mx6$r24my(6BeKN5|^sudYO1DE_7_|9SgL1HSt0k<eiS-_j}
z#N0^C=krG*fmmwxT})QkPZjyf&4;Lic<L^u3hYPn(%{P0h_5;CTCwkfym~j-uf@}M
zAHj|f*e_TD);bO*+<@m^yNj<7^b)8Ksq&(za2lu+MrkdQ%}BN&!M7iEA;DLtr1w)A
zrji*=^!U6He@uS#2Vh<THU?}4iK~+gV>CQE7X1R<*z=0k<#ORdkNJI3|B$4Q_`=i=
zSu&I&A>TL*KN^5yM9w#1^NfW<Ahil+R=|p`w1+a?&hyLi`39JJ2d$`p4G*a)rV3Ec
zg!2S~ucDX8yHHf&fs6<7Ft<}1;4Wz>p8Y+S$R&-Wacz}28o?|Mb~C15l6lWCR3R^q
z(Y?~1rKvWKKz-u(ECg&SMc*?L_IXDldtK?-y&&ukF3lH^kh9X}D;*OrUabCzztZvb
z9n7vz=jC$`$sS0<Ne^uVO7SI>X%5|sz0E)l!)HOCvX<+7eA~tLkG5Rrzoz?PEQT*m
zT!s(9=eS`Ka=0gOonbFQaZBp#u$w-VqY;nD1iOZ3fE=mv=F++v0usl^Foc%y%KPd{
zI*_r1Q{qzDm-1FcVR#ar0ofn(ujDG;w@17$`G@S$u-%y_X~GdnH|C8Vmvkq>!H{Gc
z^}gVT8YV)qe2}!E@JY!OiP8Ypy^=0G<_}5wlQbChO9t;4+zm<E5$Mwb55*c&vO?YF
zQLAI<kBw5?bdoL@3WS|GG#75<?LZ5#g_}w;D*=qPlNlcriF!xJBvT*=qM`7U%-HhC
zYH|UImrHIBRO4POudo24SlLSa!a*RJy)O-Wl+9wnW@^JkP#1jDWL!#^7OfhKl5@>r
zi`7r$8q{{D$XA8LS}<2we8Kn=;|1$atQU_a3-_FDpR;Da)%nBD^X7>I)7EXXMdfEZ
z{%GRgvi#6;u4BSBZF0@oHon*OqplzK+_G&JZJQ?!C2f1onr90(u@aY9P|wzFjdO8l
zd_$sz<?lOdnzI$W*ZOwrdtGmLT`W%8cAPc;F)Qz!^Sm&zb2_Ub{^G1P>#f$;TUo)*
zgpuv*6?YwGJNsDQ)6DkFjP*!r^jzrgkNm^nPX~YY+%3l*(Xod$^(GyMS>-ZDR?s%J
zo*jNpZ1=FXW9--vv-xMNf%HR~62t7tBjVnE)^wB|eU8~YGuC7CJSp2eYp<QH-ZfkK
z=xpuY+4{EIS;o9a=C$VH?6V#71!P0{MdwWMmUD*L{NnS0WPatWt>l)?A=(_Xm9-PQ
z#mb#HbF*u%y=&@e_SB%*{cN)RIp*~x+kF#;iI>HiU5WfeIjd=!)KAwOWWg{Sdsz&Q
z&mDe>xd+%_Ky(i$4<BbQj3y6{P6XmdMc2N`{K<0WIyj}Dc6GDJ_&g!s;SOqU6B6Z~
z)XX+Ko~XXu3~E*vd_|1w*3Ume)|D<+X|A#wo_+FCPO@^>tZRF`UvxE3YFXWZ|1&M;
z20iRpfDNA%kG-569B1EsH97cdd<Sdn5F0wDTBiC~LoXAKOg9_>>ka}q247v8K{WE9
z=2^{xb+^}(4R!N1Br97E7Tew#YjbK*-|4y7n6$ZW*>;Pz-AP;1jCHRXHBY{IXx>1o
z>L&W99XpdnZ9p$_iJg<)YkMw~iH@CTJ6KWM=Q%}l8%xE~=F1()(&psG=1(dnPyDuC
z+<5q$d9I{PENi*OC(BxrB`u%$rfPp17E9dcEPu$&d(Zf`krh5Rle=R!byNI!!a3QJ
zD4o)<!p@o8u5^Ff)CT50!rJ;-|8Z6roXI_L&(D$U?eoVuV$OQY^19`gsZcZ(vJIOj
z+9!6iqMb9QU9&lb%vAXGm+MGzJ9qCH<p0;KhWinGdH!ZgYf-mJ`>CGq)*3#|Hy|x~
zLIYjD)9R6$`0fIuWbuxScv30rB7g@W5;z3No$GLl{$&9?f=-5Y^bOjF3hNjU*!f0S
zCtaMbT6FP$7Lb!JTLH+iW|m?Z@Ev4%tCWOUZtc=}Lbi}2<O+ER)VTBtJOkO*FA$gk
zP{M}!Rz6u)7_VD%VGIS~KpN5!3cg)&dx#U(hq5xt?8VXw{{(5-05PRu7%(n%fvqwq
zl>s!QKpwS3T{I%YQR+yBevkq}QN1yTfaaT)^k=L6=xKE><gtlwghomhI9FcPfiw)_
zPDfu~8j4Wu1DGt;e2_dL4Na^X!=)KAIEa@2l%r*3;L@&oc4_3TY>iL`{4%%({N;-x
zd}a9+z%Q@HGX94Vy~h_tZ{@d(H-L2(BH!^X=dK3pR4MVbCf`&8Xalh*)U3ge<qK=t
z{a;E%3Qqj@C&4?l-wf}p3Fz6C0(v&bE^#XZJy2Od5uXX{Ec}KPw_}lx)jF0RH&%cX
z*o{S~PsVE$FqaQuHk3*r9S{+Oa+YBzDbeEhmx~54;V&2yqQ!91(2YQ#Xp4<P6*lgn
zSZGo^k}@RaKw|rVU}dT<BH|kv;N2P)kmsob#bLTcD}ltYG>3BbeK{-uD-++u8ul*M
zd+cpk#thU?fm~7m4e(!)%T=}r?NQ*Cm5bxMSXyTk&Wnp-r=A92oDL&_V}wxnd4SLp
zNDzmS;fjZW6wt>}+UhWY)VONlm|h*_2g&7V#~Bp84+&xk6akfoqH+sLTU}*30^{F9
zo&!kaXX6`<A|OX=kUR-Q;<m<c(GlKIaJ~fKe9L#M_y*6%@GXgq7ceq_=O$oX0Ou)a
z2+zNwtANoM{?IC892sGO0YqD2Ack0hJh~`GaQvZo<pB#Rd*$yyg-9BIs!;Hr;g330
zyyu}PvX<p}e~}`N*6SVd7bnagja=_gfG2toJ%*e88!;o<xoyDJ^Gczh92S7T<6jMA
zB1E(uIA{lwP9$AOpsFFX8%Yn6Lr8j&xRLZBL3E4?NDvjGPa#3<g+2{Lg@Jt7k%ocj
zGkALhNk5XKNCuD$B6$`G;ym;@BpxKkfUFMbtWQHai?^Fpy~cfs8bk`U{|j)=x=rVU
z=LaUVEPu<|F&x{G8Ed~<d_NGffx<goA#a&DI?<KTvBIXA+`WLuICmqSQndq+nAvSz
zw=D()V@wFf+_8}jRe-}d>*MBWXJc|xC(w)g6T?$^*G4XQMQ7tVo^9&<-0gY4Wm!=_
zz40*f2hN#4@Atj$TUOamm$+H*1Qz$jw{pwG+_Kpk7prd;YxXHf%3p~!P07l=b5+iX
zDz>dftUZvdI{5j)Lvd%K<#H)h_@B26@y<!D*l>XL4}#Jak9<W8dHJ_3pz?fi8obyu
zV{KY1c%cFw4Kvp5pA|d6a0P5QUwQr|R<%Pc-N{OJsg6s#(>3u@d{nGI0PxXdA1iE|
z$!$-MZH*VOT^-`KPPVmc>IqhOXePJ!4-fKY{-!y5g;;@5NJUH1u0kPp_qq1Da);<>
zz1ER*v?j}2|D|H;#6Q=I<^AV6XKm{c`C}zbiQtqr;em&3JTznLP4_oXTBcf9b1&=l
zu#LxNY+lti-QQ**;8S(4T}DZsUy716#M|S5k~Ghl_NgezevXuMabJJw!moQm8ZE(t
z^EcJ|8@sLAPs;dijp>tm1JcJ1TA=Gw!gm`@pJp47+MX~#*Y7kuQY+tGY;<z+k>J$G
zujL+R7R4W!B;MlzJU9l3uSc?aJTJz)BdI_C$?<psfK5k7f+2q>48ul`XDICRcqpFB
z6gFz=%+X=Xiv+7^`XUf%oyP;Xay01kc%xAod_D$0!@x}WU5GCq83v~CV+WB59$S&`
z0Qmv=H(l$OI!^!SZ9^xgFN)jZzC=U(_~nv$g7;H`^36_+rW)hly(^F0KB{TM3ELC8
zgfLl=IC3ppY-pV)*a_jBYS5U{0Br6F%|XpQd06S9vR<f?lc)Gwk$f6UhUoYh{BWn(
zE1N1?iKnt;9~)1j@5<k%xl}M-xmC_%+04bJOQt=F+xOB}KoSR^NCl92Eyr=6k?hZi
c`QJ&oNXmatHvOLLzNZ_|a7AAdq_Up>13^KSA^-pY

literal 0
HcmV?d00001

diff --git a/src/utils/report.py b/src/utils/report.py
new file mode 100644
index 0000000..ca0000e
--- /dev/null
+++ b/src/utils/report.py
@@ -0,0 +1,162 @@
+import logging
+import os
+from typing import Dict, Any, List
+from datetime import datetime
+from py_markdown_table.markdown_table import markdown_table
+
+class ReportGenerator:
+    """Генератор отчетов в формате Markdown."""
+
+    def __init__(self):
+        self.logger = logging.getLogger(__name__)
+
+    def generate_benchmark_report(self, results: Dict[str, Any], output_dir: str = "results", model_name: str = None) -> str:
+        """
+        Генерация отчета для одного бенчмарка.
+
+        Args:
+            results: Результаты бенчмарка
+            output_dir: Директория для сохранения отчета
+            model_name: Имя модели (для структурирования результатов)
+
+        Returns:
+            Путь к сгенерированному файлу
+        """
+        if model_name:
+            model_dir = os.path.join(output_dir, model_name)
+            os.makedirs(model_dir, exist_ok=True)
+            output_dir = model_dir
+
+        os.makedirs(output_dir, exist_ok=True)
+        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
+        filename = f"{results['benchmark_name']}_{timestamp}.md"
+        file_path = os.path.join(output_dir, filename)
+
+        with open(file_path, 'w', encoding='utf-8') as f:
+            f.write(f"# Отчет бенчмарка: {results['benchmark_name']}\n\n")
+            f.write(f"**Дата:** {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n\n")
+            f.write(f"**Общее количество тестов:** {results['total_tests']}\n\n")
+            f.write(f"**Успешно выполнено:** {results['successful_tests']}\n\n")
+
+            # Таблица с результатами
+            table_data = [
+                {
+                    "Тест": "Тест",
+                    "Скор": "Скор",
+                    "Время (с)": "Время (с)",
+                    "Промпт": "Промпт",
+                    "Ожидаемый": "Ожидаемый",
+                    "Ответ модели": "Ответ модели"
+                }
+            ]
+
+            for result in results['results']:
+                if 'error' in result:
+                    table_data.append({
+                        "Тест": result['test_case'],
+                        "Скор": "Ошибка",
+                        "Время (с)": "-",
+                        "Промпт": result['prompt'][:50] + "..." if len(result['prompt']) > 50 else result['prompt'],
+                        "Ожидаемый": result['expected'][:50] + "..." if len(result['expected']) > 50 else result['expected'],
+                        "Ответ модели": result['error']
+                    })
+                else:
+                    table_data.append({
+                        "Тест": result['test_case'],
+                        "Скор": str(result['score']),
+                        "Время (с)": f"{result['latency']:.2f}",
+                        "Промпт": result['prompt'][:50] + "..." if len(result['prompt']) > 50 else result['prompt'],
+                        "Ожидаемый": result['expected'][:50] + "..." if len(result['expected']) > 50 else result['expected'],
+                        "Ответ модели": result['model_response'][:50] + "..." if len(result['model_response']) > 50 else result['model_response']
+                    })
+
+            f.write("## Результаты тестов\n\n")
+            f.write(markdown_table(table_data).get_markdown())
+            f.write("\n\n")
+
+            # Статистика
+            successful = [r for r in results['results'] if 'score' in r]
+            if successful:
+                avg_score = sum(r['score'] for r in successful) / len(successful)
+                avg_latency = sum(r['latency'] for r in successful) / len(successful)
+
+                f.write("## Статистика\n\n")
+                f.write(f"- **Средний скор:** {avg_score:.3f}\n")
+                f.write(f"- **Среднее время ответа:** {avg_latency:.3f} секунд\n")
+
+        self.logger.info(f"Report saved to {file_path}")
+        return file_path
+
+    def generate_summary_report(self, all_results: List[Dict[str, Any]], output_dir: str = "results", model_name: str = None) -> str:
+        """
+        Генерация сводного отчета по всем бенчмаркам.
+
+        Args:
+            all_results: Список результатов всех бенчмарков
+            output_dir: Директория для сохранения отчета
+            model_name: Имя модели (для структурирования результатов)
+
+        Returns:
+            Путь к сгенерированному файлу
+        """
+        if model_name:
+            model_dir = os.path.join(output_dir, model_name)
+            os.makedirs(model_dir, exist_ok=True)
+            output_dir = model_dir
+
+        os.makedirs(output_dir, exist_ok=True)
+        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
+        filename = f"summary_{timestamp}.md"
+        file_path = os.path.join(output_dir, filename)
+
+        with open(file_path, 'w', encoding='utf-8') as f:
+            f.write("# Сводный отчет по всем бенчмаркам\n\n")
+            f.write(f"**Дата:** {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n\n")
+            if model_name:
+                f.write(f"**Модель:** {model_name}\n\n")
+
+            # Таблица с общими результатами
+            table_data = [
+                {
+                    "Бенчмарк": "Бенчмарк",
+                    "Тестов": "Тестов",
+                    "Успешно": "Успешно",
+                    "Средний скор": "Средний скор",
+                    "Среднее время": "Среднее время"
+                }
+            ]
+
+            for result in all_results:
+                successful = [r for r in result['results'] if 'score' in r]
+                avg_score = sum(r['score'] for r in successful) / len(successful) if successful else 0
+                avg_latency = sum(r['latency'] for r in successful) / len(successful) if successful else 0
+
+                table_data.append({
+                    "Бенчмарк": result['benchmark_name'],
+                    "Тестов": str(result['total_tests']),
+                    "Успешно": str(result['successful_tests']),
+                    "Средний скор": f"{avg_score:.3f}" if successful else "0",
+                    "Среднее время": f"{avg_latency:.3f}" if successful else "0"
+                })
+
+            f.write("## Общие результаты\n\n")
+            f.write(markdown_table(table_data).get_markdown())
+            f.write("\n\n")
+
+            # Подробности по каждому бенчмарку
+            f.write("## Подробности\n\n")
+            for result in all_results:
+                f.write(f"### {result['benchmark_name']}\n\n")
+                f.write(f"- **Тестов:** {result['total_tests']}\n")
+                f.write(f"- **Успешно:** {result['successful_tests']}\n")
+
+                successful = [r for r in result['results'] if 'score' in r]
+                if successful:
+                    avg_score = sum(r['score'] for r in successful) / len(successful)
+                    avg_latency = sum(r['latency'] for r in successful) / len(successful)
+                    f.write(f"- **Средний скор:** {avg_score:.3f}\n")
+                    f.write(f"- **Среднее время:** {avg_latency:.3f} секунд\n")
+                f.write("\n")
+
+        self.logger.info(f"Summary report saved to {file_path}")
+        return file_path
diff --git a/tests/codegen/test1.json b/tests/codegen/test1.json
new file mode 100644
index 0000000..ad22db6
--- /dev/null
+++ b/tests/codegen/test1.json
@@ -0,0 +1,4 @@
+{
+  "prompt": "Write a Python function that calculates the factorial of a number using recursion.",
+  "expected": "def factorial(n):\\n    if n == 0 or n == 1:\\n        return 1\\n    else:\\n        return n * factorial(n-1)"
+}
diff --git a/tests/summarization/test1.json b/tests/summarization/test1.json
new file mode 100644
index 0000000..ca6e7da
--- /dev/null
+++ b/tests/summarization/test1.json
@@ -0,0 +1,4 @@
+{
+  "prompt": "Summarize the following text in 1-2 sentences: 'The quick brown fox jumps over the lazy dog. The dog, surprised by the fox's agility, barks loudly. The fox continues running without looking back.'",
+  "expected": "A quick fox jumps over a lazy dog, surprising it. The fox keeps running while the dog barks."
+}
diff --git a/tests/translation/test1.json b/tests/translation/test1.json
new file mode 100644
index 0000000..3c900b3
--- /dev/null
+++ b/tests/translation/test1.json
@@ -0,0 +1,4 @@
+{
+  "prompt": "Translate the following English text to Russian: 'Hello, how are you today?'",
+  "expected": "Привет, как дела сегодня?"
+}
diff --git a/tests/translation/test2.json b/tests/translation/test2.json
new file mode 100644
index 0000000..2446d4b
--- /dev/null
+++ b/tests/translation/test2.json
@@ -0,0 +1,4 @@
+{
+  "prompt": "Translate the following Russian text to English: 'Как ваши дела?'",
+  "expected": "How are you?"
+}