From 774d8fed1de87325296f8bd83a1f22d40297e759 Mon Sep 17 00:00:00 2001
From: second_constantine <cs@next-way.by>
Date: Fri, 16 Jan 2026 22:30:48 +0300
Subject: [PATCH] feat: add run.sh script and update documentation

- Added run.sh script with init, upd, run, and clean commands
- Updated README.md to document run.sh usage and examples
- Added documentation on Score calculation methodology
- Updated base.py to include score calculation logic
```

This commit message follows the conventional commit format with a short title and a detailed description of the changes made. It explains what was changed and why, making it clear and informative.
---
 README.md                                     |  60 ++-
 results/rnj-1:8b/codegen_20260116_195424.md   |  26 --
 .../rnj-1:8b/summarization_20260116_195424.md |  23 --
 results/rnj-1:8b/summary_20260116_195424.md   |  44 ---
 .../rnj-1:8b/translation_20260116_195424.md   |  25 --
 run.sh                                        |  13 +
 .../__pycache__/base.cpython-313.pyc          | Bin 3854 -> 4186 bytes
 src/benchmarks/base.py                        |  14 +-
 src/main.py                                   |  12 +-
 src/utils/__pycache__/report.cpython-313.pyc  | Bin 10171 -> 13951 bytes
 src/utils/__pycache__/scoring.cpython-313.pyc | Bin 0 -> 15288 bytes
 src/utils/report.py                           | 106 ++++-
 src/utils/scoring.py                          | 368 ++++++++++++++++++
 tests/codegen/test1.json                      |   2 +-
 14 files changed, 548 insertions(+), 145 deletions(-)
 delete mode 100644 results/rnj-1:8b/codegen_20260116_195424.md
 delete mode 100644 results/rnj-1:8b/summarization_20260116_195424.md
 delete mode 100644 results/rnj-1:8b/summary_20260116_195424.md
 delete mode 100644 results/rnj-1:8b/translation_20260116_195424.md
 create mode 100644 src/utils/__pycache__/scoring.cpython-313.pyc
 create mode 100644 src/utils/scoring.py

diff --git a/README.md b/README.md
index 092dd83..42de511 100644
--- a/README.md
+++ b/README.md
@@ -10,6 +10,14 @@ pip install -r requirements.txt
 
 ## Использование
 
+### Через скрипт run.sh
+
+```bash
+./run.sh run --model llama3 --ollama-url http://localhost:11434
+```
+
+### Через Python
+
 ```bash
 python src/main.py --model llama3 --ollama-url http://localhost:11434
 ```
@@ -24,19 +32,24 @@ python src/main.py --model llama3 --ollama-url http://localhost:11434
 
 ### Примеры
 
-Запуск всех бенчмарков:
+Запуск всех бенчмарков через скрипт:
 ```bash
-python src/main.py --model llama3 --ollama-url http://localhost:11434
+./run.sh run --model llama3 --ollama-url http://localhost:11434
 ```
 
 Запуск только тестов переводов:
 ```bash
-python src/main.py --model llama3 --ollama-url http://localhost:11434 --benchmarks translation
+./run.sh run --model llama3 --ollama-url http://localhost:11434 --benchmarks translation
+```
+
+Очистка отчетов:
+```bash
+./run.sh clean
 ```
 
 Запуск с подробным выводом:
 ```bash
-python src/main.py --model llama3 --ollama-url http://localhost:11434 --verbose
+./run.sh run --model llama3 --ollama-url http://localhost:11434 --verbose
 ```
 
 ## Структура проекта
@@ -84,3 +97,42 @@ ai-benchmark/
 ## Результаты
 
 После выполнения бенчмарков в директории `results/` будут сгенерированы файлы в формате Markdown с таблицами результатов. Каждый бенчмарк будет иметь свой отчет, а также будет создан сводный отчет со статистикой по всем тестам.
+
+## Методика расчета Score (Скор)
+
+### Основная метрика: F1-score
+
+Каждый тест оценивается по метрике F1-score, которая вычисляется на основе сходства между ответом модели и ожидаемым ответом:
+
+1. **Токенизация**: Ответ модели и ожидаемый ответ разбиваются на отдельные токены (слова)
+2. **Precision (Точность)**: Доля токенов из ответа модели, которые присутствуют в ожидаемом ответе
+3. **Recall (Полнота)**: Доля токенов из ожидаемого ответа, которые присутствуют в ответе модели
+4. **F1-score**: Гармоническое среднее между точностью и полнотой:
+   ```
+   F1 = 2 × (Precision × Recall) / (Precision + Recall)
+   ```
+5. **Диапазон**: 0.0 - 1.0, где 1.0 означает идеальное совпадение
+
+### Альтернативные метрики
+
+Для более детального анализа можно использовать следующие метрики:
+
+- **Levenshtein Distance / Edit Distance**: Количество редактирований (вставок, удалений, замен) для преобразования ответа модели в ожидаемый ответ. Полезно для оценки структурных различий.
+- **BLEU Score**: Популярная метрика для оценки качества машинного перевода, основанная на n-граммах. Подходит для задач переводов.
+- **ROUGE Score**: Метрика для оценки качества суммаризации, основанная на перекрытии n-грамм, слов и последовательностей. Подходит для задач пересказов.
+- **Code Similarity Metrics**: Для генерации кода можно использовать процент совпадения структуры кода (функции, классы, синтаксис), а также метрики типа AST (Abstract Syntax Tree) similarity.
+
+### Средний Score
+
+В отчетах вычисляется средний Score по всем успешно выполненным тестам в каждом бенчмарке. Этот показатель позволяет сравнить общую производительность модели по разным задачам.
+
+### Пример расчета F1-score
+
+Если модель ответила "hello world" на промпт, а ожидаемый ответ "hello there", расчет будет следующим:
+
+- Токены модели: {"hello", "world"}
+- Токены ожидаемого: {"hello", "there"}
+- Пересечение: {"hello"}
+- Precision = 1/2 = 0.5
+- Recall = 1/2 = 0.5
+- F1-score = 2 × (0.5 × 0.5) / (0.5 + 0.5) = 0.5
diff --git a/results/rnj-1:8b/codegen_20260116_195424.md b/results/rnj-1:8b/codegen_20260116_195424.md
deleted file mode 100644
index 24423ed..0000000
--- a/results/rnj-1:8b/codegen_20260116_195424.md
+++ /dev/null
@@ -1,26 +0,0 @@
-# Отчет бенчмарка: codegen
-
-**Дата:** 2026-01-16 19:54:24
-
-**Общее количество тестов:** 1
-
-**Успешно выполнено:** 1
-
-## Результаты тестов
-
-```
-+-----+-----+---------+-----------------------------------------------------+-----------------------------------------------------+-----------------------------------------------------+
-| Тест| Скор|Время (с)|                        Промпт                       |                      Ожидаемый                      |                     Ответ модели                    |
-+-----+-----+---------+-----------------------------------------------------+-----------------------------------------------------+-----------------------------------------------------+
-| Тест| Скор|Время (с)|                        Промпт                       |                      Ожидаемый                      |                     Ответ модели                    |
-+-----+-----+---------+-----------------------------------------------------+-----------------------------------------------------+-----------------------------------------------------+
-|test1|0.239|   3.51  |Write a Python function that calculates the factor...|def factorial(n):\n    if n == 0 or n == 1:\n     ...|```python
-def factorial(n):
-    """
-    Calculate ...|
-+-----+-----+---------+-----------------------------------------------------+-----------------------------------------------------+-----------------------------------------------------+```
-
-## Статистика
-
-- **Средний скор:** 0.239
-- **Среднее время ответа:** 3.507 секунд
diff --git a/results/rnj-1:8b/summarization_20260116_195424.md b/results/rnj-1:8b/summarization_20260116_195424.md
deleted file mode 100644
index 8b0cc2c..0000000
--- a/results/rnj-1:8b/summarization_20260116_195424.md
+++ /dev/null
@@ -1,23 +0,0 @@
-# Отчет бенчмарка: summarization
-
-**Дата:** 2026-01-16 19:54:24
-
-**Общее количество тестов:** 1
-
-**Успешно выполнено:** 1
-
-## Результаты тестов
-
-```
-+-----+-----+---------+-----------------------------------------------------+-----------------------------------------------------+-----------------------------------------------------+
-| Тест| Скор|Время (с)|                        Промпт                       |                      Ожидаемый                      |                     Ответ модели                    |
-+-----+-----+---------+-----------------------------------------------------+-----------------------------------------------------+-----------------------------------------------------+
-| Тест| Скор|Время (с)|                        Промпт                       |                      Ожидаемый                      |                     Ответ модели                    |
-+-----+-----+---------+-----------------------------------------------------+-----------------------------------------------------+-----------------------------------------------------+
-|test1|0.571|   1.21  |Summarize the following text in 1-2 sentences: 'Th...|A quick fox jumps over a lazy dog, surprising it. ...|In a brief summary, the quick brown fox jumps over...|
-+-----+-----+---------+-----------------------------------------------------+-----------------------------------------------------+-----------------------------------------------------+```
-
-## Статистика
-
-- **Средний скор:** 0.571
-- **Среднее время ответа:** 1.206 секунд
diff --git a/results/rnj-1:8b/summary_20260116_195424.md b/results/rnj-1:8b/summary_20260116_195424.md
deleted file mode 100644
index c6110a0..0000000
--- a/results/rnj-1:8b/summary_20260116_195424.md
+++ /dev/null
@@ -1,44 +0,0 @@
-# Сводный отчет по всем бенчмаркам
-
-**Дата:** 2026-01-16 19:54:24
-
-**Модель:** rnj-1:8b
-
-## Общие результаты
-
-```
-+-------------+------+-------+------------+-------------+
-|   Бенчмарк  |Тестов|Успешно|Средний скор|Среднее время|
-+-------------+------+-------+------------+-------------+
-|   Бенчмарк  |Тестов|Успешно|Средний скор|Среднее время|
-+-------------+------+-------+------------+-------------+
-| translation |   2  |   2   |    0.666   |    1.262    |
-+-------------+------+-------+------------+-------------+
-|summarization|   1  |   1   |    0.571   |    1.206    |
-+-------------+------+-------+------------+-------------+
-|   codegen   |   1  |   1   |    0.239   |    3.507    |
-+-------------+------+-------+------------+-------------+```
-
-## Подробности
-
-### translation
-
-- **Тестов:** 2
-- **Успешно:** 2
-- **Средний скор:** 0.666
-- **Среднее время:** 1.262 секунд
-
-### summarization
-
-- **Тестов:** 1
-- **Успешно:** 1
-- **Средний скор:** 0.571
-- **Среднее время:** 1.206 секунд
-
-### codegen
-
-- **Тестов:** 1
-- **Успешно:** 1
-- **Средний скор:** 0.239
-- **Среднее время:** 3.507 секунд
-
diff --git a/results/rnj-1:8b/translation_20260116_195424.md b/results/rnj-1:8b/translation_20260116_195424.md
deleted file mode 100644
index 860f448..0000000
--- a/results/rnj-1:8b/translation_20260116_195424.md
+++ /dev/null
@@ -1,25 +0,0 @@
-# Отчет бенчмарка: translation
-
-**Дата:** 2026-01-16 19:54:24
-
-**Общее количество тестов:** 2
-
-**Успешно выполнено:** 2
-
-## Результаты тестов
-
-```
-+-----+-----+---------+-----------------------------------------------------+-------------------------+-------------------------+
-| Тест| Скор|Время (с)|                        Промпт                       |        Ожидаемый        |       Ответ модели      |
-+-----+-----+---------+-----------------------------------------------------+-------------------------+-------------------------+
-| Тест| Скор|Время (с)|                        Промпт                       |        Ожидаемый        |       Ответ модели      |
-+-----+-----+---------+-----------------------------------------------------+-------------------------+-------------------------+
-|test1| 1.0 |   2.21  |Translate the following English text to Russian: '...|Привет, как дела сегодня?|Привет, как дела сегодня?|
-+-----+-----+---------+-----------------------------------------------------+-------------------------+-------------------------+
-|test2|0.333|   0.32  |Translate the following Russian text to English: '...|       How are you?      |      "How are you?"     |
-+-----+-----+---------+-----------------------------------------------------+-------------------------+-------------------------+```
-
-## Статистика
-
-- **Средний скор:** 0.666
-- **Среднее время ответа:** 1.262 секунд
diff --git a/run.sh b/run.sh
index e205708..3d654f1 100755
--- a/run.sh
+++ b/run.sh
@@ -18,6 +18,11 @@ upd() {
     git submodule update --remote --merge
 }
 
+clean() {
+    rm -rf results/*
+    echo "Отчеты успешно очищены"
+}
+
 activate() {
     source z/bin/activate
 }
@@ -28,10 +33,18 @@ if [ -n "$1" ]; then
     init
   elif [[ "$1" == "upd" ]]; then
     upd
+  elif [[ "$1" == "run" ]]; then
+    activate
+    shift
+    python src/main.py "$@"
+  elif [[ "$1" == "clean" ]]; then
+    clean
   fi
 else
     echo "  Аргументом необходимо написать название скрипта (+опционально аргументы скрипта)"
     echo "Скрипты:"
     echo " * init - инициализация, устанавливает env"
     echo " * upd - обновление зависимостей"
+    echo " * run - запуск бенчмарков"
+    echo " * clean - очистка отчетов"
 fi
diff --git a/src/benchmarks/__pycache__/base.cpython-313.pyc b/src/benchmarks/__pycache__/base.cpython-313.pyc
index 9ec44899b0290e1f203126d5cf314191d6e14ecb..71e117adcbaa9fc3c96dd3be7a16d6fdca825012 100644
GIT binary patch
delta 1609
zcmaJ>U1%It6h3!mXLjd5$(sM9nQnv0#%7Z=O&e_!8x5&!*dQ6F2&u$1nXD5wv*pgj
zpMtF7OCLm9hEVjuR(vqfJ{0;=e9#KD1bo@02w{S>Z{mw2)atAE&h9i3f9B!)&N=to
zbIv{I&i(XIpsSA+MFjHQ`efC9L%pK5l~;+j0R|Xo7I2LbMxoANCS(?~gqhh`mcv|@
z$9y)9<2v<aXA@Zg3t171p&px+vND!+XoD0OTn8BZd0~vD83C|TK<W6eRGdq*L2TMy
z@`5WHzaZiE2j~t$@>eHVgj#N&j1>^l{cGIm9*y|Y-H$T_NtK9H0a@g*I+!re`M+_U
z<=7B7+(Mj&rJory*fFLiC*hR`0P94%P&h<)Bx?49I4>R4YO)bCd6m?^phRnCYz)<8
zV&_RDHCpj6@$FJWq|G<@H~H>~gc&#D95FhAiRP2h>OPx{DHsVu7)FNpJnM)He~-{r
zHWPznP>w`WHSceWq}RVTBpN<Cs3V(f3jSeLOm4n4+OyB3IGOG?1tNuUOwp80$y5v_
zv@1qgtqWS68|vIh*=Wj0Q9pFZ{RALEIFYAa*-!RwJv?CJl5kFQnIUi)GA+_?M>ASY
zt$d0^SSEwZk@1+?t4xku1)9WV94$(1az<Mw)(eMWp)E=nhkT9%QU7Duosr)@8_96k
z&zPzTqtTel^gRFDyoK&4gsDaa8O<3cl6B|-qs39D)UzmOk)DO}3R-~)wg*;_%hV3D
z0_pbkA4x2+a<y`+@?G`g>PMAt{6~pzTQR-HX%wgh%UjGBi;M1330toJg)m$0BTGTN
zbiuPrj*Dq6Sf-}L%1F&EXmLt-Enl=RTFZ+?>mAE+-}Wrq3B<RG)_UDX#-;UwRgW8J
zOQmI^*lTt%k8SV$v=j)Q<$8-tdDp@;V=Yk^fZr)Lw&Ulh=_rLk3K<GR1pK37mpV*@
zfU__z;W<3wpA#pWwLn?-?4p~Y2eF+3?xoHf;@sLOb!J@;ryFn+k?~;)DGJml5TDlJ
z;*->XY#b&KT`!NlMbBQVS4fHje2l^f_2X+j3y>8c?9#tX*ZnD}FG-7a?<0T@;YkY!
zBafQf{r4mt4fvl)R~z?u=;+^6?+#SQa}V0*F7y7deB{)&{_ORORsGm@=6Gc+SIx|A
zr}{U$s;Lv(y#t$*)!rAj`vxnS7pr||_F84V=?{<_lY1l3J+^z^UzR`bz45X#J<i<g
z5NDd?d;L7cadAfDeqg51jL6*=xf#t*DOq&JUsFcWS^rCAlox2Bm;68}OuvLU@p{)T
zP`)!-<GaVV*ezo#@%`kVp&hpne@q|ww2JBfh))v;n35aBR^5{0zpK7E@ftCaqk~H)
mxJzDLv;*o6NIM`9d<dy3q#nYNpJDKK`WTCs*(X3b4E`6s2r*#*

delta 1234
zcmaJ>OKVd>6h3pG$$iB(rBrR|HMP~WrYbeQttdt%F-0<rNaL$$TOxQXbK}NMUAS<g
zsDldPLQvN(6mcU|ROm*~r7hydACTe;TzMw(+6u+HIPdwsGiT<`tbe`B`|7$D;8&kG
zSKZ{?^g51@pm!T6P*Mcm)PxiCm7-EmxmwV;R?xZb%bZ#?3MMxTF&=C9S}|U*xaC6!
zq=D)yfEvfmoGKXrxP9~1FJeBuMqUtNJv^Wi()RSAHbF?2c%tu0%0^`A*Ds1}fkBxF
z%UC(3Zh%0m`~d-ADkV9rkY5rGJp;Ii-i4!Ga)s86FP3F<vDdVz!gLSYuf(GqQ*)$g
zV_ZX|##m%TJTjKsPE=QR#Eg;JZ8C%EItGInBjrStUC>NnF=|kABcZYFY7npdi_kg6
z%q&s_7E-k=EQ_pTcW7L~M;i@nrj?UXc0pqsmaJnjv>Gc|oY~Bx_J9#>$cNH%02_Qc
zplDlD3mCA}6c)v_Bph`^Wdno?&fCSNUAm09I}zb5PQGL#y?aC{;S?lEs040A%{1CF
zpsj(`P-%+@O&Bc!bOg@Q$0ep?ZBx`~oR7;K4+gae4L9)LAyk$}9L$N<P;WqqY#&wu
zO$5$f=O8H^fIs#)8He5KDi|lB((Ha*g-okh7k@7jR<XAiL1)d$3$^NG5b_jyT%Kjd
zn2p!Q!rG}bqv06u74NK6-=$=p^GWVk17D_mnes0wJN%5o`y`A$CiBC*Uu5ke;)=`m
z@X4%9s9}v~Jl-nNS4)wWQR^>3$T!IVsWx$}ur|tTr)t&nNG;1drC2XTf1_?}mhjL+
zQ|xrsE|ZDyD&FtQP;ZC!72=}fleD<w+!aG^cgwtM`mH~}Y)Q`dLn>E4EbhDa);!)f
zus^B1&RO}a^F}qKOj`Lq{Y`2w$@l1Qd-Qyt81V{ZyLjvkl0D+1H)zOzExaOH6BApu
z>DGhJI-q(n*ih4(XVe)w6MHrEQ$~3^)^d3tGY*%n@*E2BGI4rq0S)XH!X6ZLd?&~p
ecynNXhV%zWe}?W)ko~5ez*ppk`W>Whfc*xoo5vgg

diff --git a/src/benchmarks/base.py b/src/benchmarks/base.py
index cd9850c..59bd5b6 100644
--- a/src/benchmarks/base.py
+++ b/src/benchmarks/base.py
@@ -1,5 +1,7 @@
 import logging
 import time
+import os
+import json
 from typing import Dict, Any, List
 from abc import ABC, abstractmethod
 from models.ollama_client import OllamaClient
@@ -52,6 +54,8 @@ class Benchmark(ABC):
         Returns:
             Результаты бенчмарка
         """
+        from utils.scoring import get_all_scores
+
         test_cases = self.load_test_data()
         results = []
 
@@ -76,13 +80,21 @@ class Benchmark(ABC):
                 # Оценка качества
                 score = self.evaluate(model_response, test_case['expected'])
 
+                # Вычисление всех дополнительных метрик
+                scores = get_all_scores(model_response, test_case['expected'])
+
                 results.append({
                     'test_case': test_case['name'],
                     'prompt': prompt,
                     'expected': test_case['expected'],
                     'model_response': model_response,
                     'score': score,
-                    'latency': latency
+                    'latency': latency,
+                    'f1_score': scores['f1_score'],
+                    'normalized_levenshtein': scores['normalized_levenshtein'],
+                    'bleu_score': scores['bleu_score'],
+                    'rouge_scores': scores['rouge_scores'],
+                    'code_similarity': scores['code_similarity']
                 })
 
             except Exception as e:
diff --git a/src/main.py b/src/main.py
index cb7653c..fd84e49 100644
--- a/src/main.py
+++ b/src/main.py
@@ -53,12 +53,12 @@ def run_benchmarks(ollama_client: OllamaClient, model_name: str, benchmarks: Lis
 def main():
     """Основная функция запуска."""
     parser = argparse.ArgumentParser(description='LLM Benchmarking Tool')
-    parser.add_argument('--model', required=True, help='Название модели для тестирования')
-    parser.add_argument('--ollama-url', required=True, help='URL подключения к Ollama серверу')
-    parser.add_argument('--benchmarks', nargs='+', default=['translation', 'summarization', 'codegen'],
+    parser.add_argument('-m', '--model', required=True, help='Название модели для тестирования')
+    parser.add_argument('-u', '--ollama-url', default='http://localhost:11434', help='URL подключения к Ollama серверу')
+    parser.add_argument('-b', '--benchmarks', nargs='+', default=['translation', 'summarization', 'codegen'],
                        help='Список бенчмарков для выполнения (translation, summarization, codegen)')
-    parser.add_argument('--output', default='results', help='Директория для сохранения результатов')
-    parser.add_argument('--verbose', action='store_true', help='Подробный режим вывода')
+    parser.add_argument('-o', '--output', default='results', help='Директория для сохранения результатов')
+    parser.add_argument('-v', '--verbose', action='store_true', help='Подробный режим вывода')
 
     args = parser.parse_args()
 
@@ -83,7 +83,7 @@ def main():
             report_generator.generate_benchmark_report(result, args.output, args.model)
 
         if len(results) > 1:
-            report_generator.generate_summary_report(results, args.output, args.model)
+            report_generator.generate_summary_report(results, args.output, args.model, args.ollama_url)
 
         logging.info("Benchmarking completed successfully!")
 
diff --git a/src/utils/__pycache__/report.cpython-313.pyc b/src/utils/__pycache__/report.cpython-313.pyc
index 8a7363b27432f02e1e9f69969b8bda403574d7eb..e1b31d92964159a25e29b8c8c394125c8c050781 100644
GIT binary patch
literal 13951
zcmds8Yj9h~b-s8I1TMgr2$CT90v{j=N(4z!A}Na0gOtQKDe)STDA9r;5Tqc3Aaw!Q
zlB#B8I}asxYdWcGs`W%v(y`&0{(v1jffU8zBx%b|)9GG;sgN5+^-MBp(_fTTSz}Fq
z^qh+aFDO8w6=gatM4Y>ivwL^XIeT{ZJJ8*X44Q(^^|{l|%tng(4Q65=c{FkN8A!ZI
zF%%;ipxDS$!b%`79gz0RSXsZEmG`HyX$Gv54Ji5*tU^f32h#hMtkOW~s0xZn(^HIM
zyEM`(tD2IS(tnScVUvuP?{nI{ylk)g94{Yqdb}nHubi-X9bV_O1Jaq(Hum|6nHSww
zukEDEVUP3?q3USn?pa8@NsUuDG*-$;SQ#T_<%~>Ev1v>uBOh0cr;jVQNz;Ijfi#m2
zU*&lEHYKCdQ>W#pC9I0cV(4*N%$dNgj<%o~O|*rY$zU~8X{KyGYt%72!+LuhZU<}g
z&al5vhxhn8fsk*JkI0Y6N8Cjc;9e#la~BOjUgo|AMUW*Q7~qflGFFfq0?S8+q3DFo
zb_w(l`^X@H-@9Ev-lUGl%Bj()SmOndsGyF=R7h=)_F|!2*k1TdQ6|Z-NzSLcW~Qc`
z?kQe1<?s$d+QITltJQ6rc37>v0&5*CC_(OVxF$W=k%8aZVDUIuPlIh@+Uahv&rCQP
zY|i?V4!8Xjs;a@m+8cacr_0m83Q{r8p2I$!Zl@Re)U6YhIaY(l=+OeXNUh|T+{&-H
znP2m_%20mOCHbGJ@8YQWbk^bVxxAiXo}Te}XMJAlgp=jzX&8b_7&EV69bO;nw#O$A
z&5GbF2<~@aE^ks6SuJ)3A6pCc7%`5b1+4oVt&G{RTP{+9VjUY~D=3SckucI7QUj#i
z(#LXx;YPTRD`UNl3Trf$i##i+?a_kKjKmtuF|wG#-DwsHBgZLZ!V0vc0aY~1-3rk-
zl9*1?IakN$oPInj_D%~dBL)`G4w;m4D=o^=oLJ4;lc7apP&dcN1`<imula-Ko)Mcn
z%ylDg%Y@NoMJ2Qm{%qjSNyg7?VsaTRlgH#U1&od<Wb{lCQ*5RiByJV7DZw_mRF9+=
zR<E08N-gwGD6y4Oltnd~yC$z#%0e?`*oHAM<?H@Iud!JgsG-f!13j7-Yq$1fDpHhJ
zGF35c#-46<3SQ$HuUnIXr&`35k%FhDk&3@7GX+nrsGqDyOU0s&uVGl}7ByqaqDCZ4
zxkZyuu8EgtB$Q{w%QNHU;CU>WN#$6#Hm)z!Zu1ki+mfVRR(zZ|->mpJXr^AU5_1+M
zT4!l7>w#6!&@4wgT(g)S$<Tg^Qd5RhE3k2mH^mxldMw9Q5r^3N#}cex4|7TG1)4=O
z*e3QGLsih`|D(O9uxNL7Dw}raSW;NEdz0k}?b@BYp_WN3+pXPD%Otk#&a<SjZg>6$
ztYf<+8?1c0B}br}1ez;Qtw8exnlDh%YJnEwy)o)-fvcstV9j=6t&Bf%t*F;{Mdu3c
zNzN4(DbpJFkp-eXI{C?>Aa+(*+g*CUm9V;CZy$makEo{&?)H{~6tV$d5+9*XbPmvo
z&H;s%!ldVbHdxU+&{u(s6L;F={O!QM^9%5I0Dotcf0x)}FuU<zY}~M8z8TeM+%Fy0
zd!!ANN199Z!g<QAXDTgv+?^+)613<KN{8UogFe$;<knk?;@<ci$hRQ2=Q4Zrl%*&)
zemaZU#__@!hovZ1Ru7tS7mM2N{eo>vQml=x*c(#%_ijru?jKBolv4Dz&r%}r?thd-
zEz~G@^7Wt5lJzBUnmJ%e&!n2AqA{jdQRUPYDkjkhxMNJhdAST^ZGiLAkc*-^Wo6W)
z!~>-ssarq!2>#&%5nfY|?@Q1TopAg5DhYD0i*H{61No5rP$+}MkKi`;J@T=EypK0F
zxS-*6>>{~N0%n@t%T9UPX#;$sSCDoCSpdEtaIZiQufbIgZg<?PNg4}{)^01%?k`{*
z7oqL-$bB#}s>ndNm*67!6{rp1oe{q4M=bQVcHe>C=E)75!3`MwhtTAQBxtCOPK$d9
z#&i)z2yfzEfnM>waOD(w$DV~@BuoLTO*B0!+@hj0CRd>G%iL=Qa@_y}{GKo{ywHlf
zL+Rb%UcswufLsHayh1<o9$e%dXW>R~oq7I2hH=a|ZJe+gdyPXzhR=-O7b6!piS>cZ
zJUzinUVM<|^G?>c360%wyM)`RuN+LN(m=iq!w@dcN#xvacp#<edzrvlR|hi2+jgM6
zuFmiv$2eARoUS)c7>vE`#-Vm2<J%hH`Zjr=`#MbLBbXYDA7m$V4`Kr$eQbcoM<_!S
z3iiaSy)#~$%j$J_ydGaoq>t}{NPY}_m(YOVGS9sVS?nvKz>kH7*&d(W?(ldfebLtU
zl+c=dC({1|<$<Pp#y-P3c=e#;1&7;n%Ik2td3o31e#?XO(Gg3}{`#g^Vrwih_#mqr
zZoUS_Iqh`WSf}^gJ-nKcZwhKftElB(GDXV%8iw?}xN=N1YXVNT4hdW!D0T~ydL(8f
z4M+eJqSz)RC@vPS7<`(8WoKAkg(9%pZ61eD1I3`2OC$&j2Nnx2spplGO;(REpETjY
z;>N@0yJy&Go6C9LF=2Iyrbz>;<BRfZ*csoHBa-p(SqLszJ@NU0i8N2b9Upm`qR*|-
z=OADi02;aN=g!N_TPM%U&EB(KUp2hA5-ca#S{198rhP8~>jgthCx#1#m{K4q(hB5I
zE%1oyC7#+EPYpt9oob+Dono*gQ7wiG^m)UD`ua!x(GR2-41)b)dy(8BTmR@U{Xhl`
z=hIOz@G4#o=#IyS3kFs=I))qM$K1>9G_ROtXQpSpKHRo&&B0;-uqwgF09R(j4S_$L
zopFO9lnLDA`(Owkf)Drz+`+5ln&59E9Y7m!2eS^l*8%IC9)1YjYK9)}qD@wU>j$6)
zF3i0uikit`DBRdzpx#V_?He{u+=!<nt+GkUds4O)s)paA-jniDb0aTdJ!ov;rxA?c
zRUK1+$(@~LckvzTfhVj1w9a8&b45|Ws>3y7x4AsK%<<N9(AnKhKz>hMq)6HB5BmLQ
z7HZz1Kj{DbF5JkdmveF@Pia1Tpu1tVA1FHjL_8gK7)wWhyaC^}@sxL8rvpt3eeZ0!
zPJhlGf;vHWX!ut_edr2<f+Gv!3I#8Tx~eyTpS&vg3f%mHpet}?;0L*j=(Bw22-fik
zp7MjZdqE&GqS}b36`U`2f_vL5(C3Hr`Rs_)4IbMIjtPTz#$d|gr86F0K5O%y;^n7j
zz|SeCZO=OZ$@8#y)a7OFnHPDb$IDJ40?f;2W*u%m?L}~K4qjoKh1>)$1Gtixd3@8n
z%;j*i==XTJ(>*z3DrK`FBX}z|A5(Zd<5dx3MYvFfy?VU1=~?hoPG}8SC$GYkRTz_G
zlBWfv*$N=E4ZMqhIkJEiQoLI1x8&%z*mf*e#vB!&9dmsEO?qZswsU;0s7<_3Blx@+
zOJ>BQ#cLz^t?TlG@qBjdb@37<u4TxvyarO%_`I-O$gx8>PI_%0;#Ia6rlMX~jmfC@
z^ppZ49&}QFB1@|<<@(`G8(wONUwZa}+AmU{=_pP9icWte{c`#h&1KEPv5>CgQs0Uu
z^Ywvm49u(i`)+EQ!i5!=`hTmWUsr!aJ=gEo-c*`bw8d`?esl0!!?(1XIqhcuNJ!gp
zNfpj7A*E(6zk%d61|$JfpeWc)a`#+Pu4wb$>UpE*t-&`27xW=*%O%xsGjirk^Nhds
zW=3=1Ojwigde7H;NPcTDo$NWtwH+d@qh$0j(H>dW9F5k_x&P+qyW`&(|L%!f#tzQd
zK{^kHjE6|oLyRQ9cd39JI>Gf>N$+#yxe20mENdp?FX;?UkpoA$U1Oy47&&%=Xsyed
z=T>Q|d~?`P7p`m!7gvPKYNLNOZDHZ>PM$hv)2b{(pLwZ&wUjEVSTOxUzhzDl&ehLP
zhH|UI+R|HEBd0ZntLpqaxvJK1)z)xLUD!|=uB?v!Z8nF6Kj^C_|1(ORSFl=48LF?G
zzkJ?b7nuCP>Gw}B7A%#AS_VU9Lvy|1irRPUuGW$I{flQp6@7C9;iB>@?U&mZT!Foz
zqL#UR;Y!oH?N{6V?%>H#<=(l$aG4SNB6T~1heBn$=XyU`Kd9R~_AZ<a$ga8<J-2uF
z`!@&doT;50WNtTYU)biCU9Af?-yRxUaNVkI;i_8#XBTrq)!mEToUxZ!Pd-u2o?ic{
zfakpvOZKpNTVRYc?_QLV`h8*ZcG7ZyGxw1C-X+OWH90iS^*>AcPLLBP$!5DCq5CMI
zJM~mi{ptY;m60i!h<4YqW_MJTs}z+tCjBpp$~Y#CX;<62tZDm1U;dDK^3Ve3PcG#9
z)m-^DV%Sc$pCZN1f7PB|Rs2zv@VkzE{@OtEd!<X2L|b*cYsh~*n9FVHBn;Sh&FyV%
z3lsk4tH*-&xxw2b$NidHwQXE&TTr*y6sq07Xy<DBiEUzT_=)QhUjK>qAvpw?a7jHW
zHv8@2l15V86vz#inC6H5mEn@jq<D+J`{8Gdy>g+CD>3^$q_{cI94@IM#_e253n^|5
zoC)SHs<|D5q-|*F=xVO2<cQ=xrOG=hxl@Ds?1-v!?!ap!pDCzp{Yp{EmDbCxS2`|t
z`02obP|?mg<x2LZx76QM&-ePhH?y~eON|T8<<iEv1L1<wh3Zg2?JsqPl}h8gtyf#$
z?YP<zPzH~X{T8nCFzGl#jvOUpR`T5Q+?b0TohH*~NIM&<^vn&e6qd}p{N2Htn}uDA
zr@}hJmCVbT{xTS@lH1Wo+WMEONX^Ky?qIZvn7S7akb&dezH!q1EP2*OYECZe?D5(@
zwB6%e|2XM`S}Un}Zdqr$pHAt!C0t?G9Tip9w5p}5>-}Rljjf@=UZ4w-VC$moTE~@g
z&e(dXpA`1q&MI6fF5}8}zuyn*HdMU(XO)Ymf7-wmADUCGl$LYl-Ph<)d3UI^`)Bs0
zx}VN)rItDMC)qh~rN5C*blaD+Tf)(den-%>*c~iek`mp(a`s@nymzUHSdNn3F*0_F
z=$y;hr|&ytROYtTQ!+}G@w)o!>RU=3r__<6&Hg_BPEy#qtZWNs>4;KyzZ_?CtFY_8
zKh;qBKFR$f*zgw_%?~^~U@Q5_mV@#m6|$R+dsRp1^w5r6$SiB<BPEJuy#lGBOA1A|
zX!?j=eM_5(=?eNtV>++4xm?!h-5#QgE|+cEX7#ZyJDxmaA3SCVk;F#0zCG1QVwwo0
zOOE%Y#qqwh|Ak1Rf{|MkfZU}u%iQUrv2GAiJX#aO-`q+OZm47wh#U&>Lls1P@W{UI
z!>B}9QF0FY4~iJZ5nPy^MvQWa@Lah1rWjp@MfOlTc?`?4rEZsLk*{wDKR?K3aw2g=
za~i}AA#w^Apzi}tsD=nv9vWgUby$;tRce@gizWf9)QGUk42apS#R%YFcRU_xWC{Rp
z%t(S&;x%9RSmLo%#3~`WrgLYe?5*$#ddq@1P8>Upy%i*_X7o5$5o)Stim)VR2?;gD
z;u_KT;8teIWJ-j%VClN@tXMgtHK)aTg{x&SiVP>Wv$8eL6xLvPEJwMB1GW2Ce<bZz
zJb^w^Yq#<Vdcz2Avh`dQ(=XV+5z>NYqiI2xLR!!q)C-zos+;4h6twjABekRvNjUik
zYD65UgZ~h8kes(xG}=V(keuHnno(VXH%ZRF8TezfPUL?YEB;i%ir@0ZwCK(hd5iil
z*fy2+&5<?9B+fOtY#O54Z`^<!>(+ES^q&#?V4Cn>Y~O)s$i|}-TP@0UQ3_=h05L-R
zK{J^&l{$to+!>8YH2Xr5<S_|=OaN~d#~{{zA{H<po{YdU;wm?iAm8LhLV!Yakb&^P
zRcH;^5A+V;Jw_cKg8QRgb6<J5Yrwt#FNQA=xmY{FwHqv>g90iA^G75TqAP|G;ehwF
z0v#-dzu00RfLr;d;a70ytSn+|tN}?mk_sTcJwOnYi>W(~kjBCqk5x5IvqtO=fo--5
zh!0UoK=R%e3<v^1+-nHmozJeTi%b%yk0tjI7b9<g35bGQ_XPMp8i#-$J`gZGk`UCm
zhnsW?r0|}A5wD?$i3p)7jeQB)vM(cf1<99@d<6-fGX(7RX~3pzANH0SGv(V;B2saE
zMSiRJF!cNP*!4jq2&@XBjHfbW=FvlDzXtXHfIRpU+{n8zqRL|2iNzx(+W~}^H2TmC
z5bKSEvw{%LdU&OCuR@69d0>R7!8#j&pa2nB0A>^Pj|FQQ7URT;HHo^%U`EdRNCy2>
zB=;C)3zEBq0*Y(xsl0Y03Jc?F*A%uFvt2;WL+FL}6+sFWbp_Wd=;&hznL*Sr0?pI(
zd3hz&`rwyn5#U{<6kNb;4^;RN(-vU)1RY`hQ<>yOWc%+h1W!B|QW*(8Ouf?|3qCxR
zfow$DaB>q3#MpDaKXAscddGFWKN1CDEhsT`zmE)L2*N!KT*K#eOvHUdm>+-8Ee>0-
zM}UJpiewDQF(i0bXYoGF!taDA_E{t+kl2u%L}CR3p$ac6L@8K1WKG$TAjO|zJt|ZP
zQm|jb)C3X-l1U^}NZ=etu}&nXksy@M;xFFWb4bnu@t|{GkJv|W`hqx4pXloNnhp9y
zxT8=Wom{}^^-mR}&nuaC&L8*7NbZ)61M}LW%bKwb<M04y#c`)C{$u{Zpq%JBm$P??
zE9(61{w;wCqT9Kg-2v#kX(uA))h*$M-f+|49kl}Cb|u2?cePYeH6ZP#hJfm(sXbIO
z0CZt*aB3;%n(K-U5bQaclnmUqSl{k`2t&JBe26$E=Tx`H>~Gs20@7}lT8Q&BVrlwY
z+2vezdAQb08g_HFdseDy{0je{a<!eIs$DD9CVw?)>gMY9g{t@8-aisB1-sub13>L|
z9}^f@lyS}b$k;dxx^mNJlp-hhjv9u%s*i)#9m|?d5op~lfY$rgK<nCNjp;Xf;~#sH
z0$?~_F@Km;ZR1L|lj4?uJy^Y1!nKc(9S0!}K%O~9j!$#XxCt{uW?166uu4&1lI)ej
z!z1a!N0)RzJ`P9^;bT;4!N-2-VSF5x9>YiBap`9il`}4lh#^x1_5#)(1M-`fHQRnA
z%sGNx&R5O9Kp^f=)=Em-Vips(BeVa7z%<vekC^u_juKt(a&}+5t}&1gz%AD_KpF>^
zx`=LMIs4!zkF%ECk`+TGSBc1KWp~IBLskuzxxSSOBWLWn)*mwVgerP|Ub%GopBlJ|
zF$lm!&~sAS8FVhmf>wB0@yN3FV7z?yqI#*D>;_R<N%3>bT3d9C^YXvUxKjW&ao;LI
z(Dkfj9q8H|=nDYox_eo<Cjz>D{wX7&N(UvMe_9cFl;Y#Q6PpXr>mYcDpVV~aA5541
ztdkyTQ~sS=fi$PP2#S`r&?BA7rFI3-f26uwpy=l<^g*fepXCaqbe95({-rGoC`qRe
z=B1k?g0D15g;OH@AEC%|*p$KI&lPyuYK3^N4<fc!USqYM@!4F_|FM!~g=i=1@w%LD
zhkFL9)2-Ht8N1cW;(o;<c+37d5^!e}`zJ^cKVn}8!sl775Eu43?N*!D%Q{c`;8!lt
zQaD!PrY!hVR)r}f>G1Vj0`gVrm-3!Z<&w0mcN7ECw8DTEOu0F5>iyDH3iC@$<Vj9X
zM-%5R+!Jc<9FspIfd<=x@*uNV89aI|lWXo-rLYiIbTq;GA_*|(0qHPUHC99BnDklc
z{b&Y@SYePjH28rJ9_)oJi&uEh&BBkUB9j;9Ele4=F5WPE&YJlDtIUa67H1imbD|u0
zWk*B@yV!YPk-*ne31n3!kw|_;W&Vm%{To%mQ5C<YN`6i4yf2@UNeVxukP74c9}uV`
AfB*mh

delta 3661
zcmcImZA@F&89w*=`|CR34=@C5gTWYrAsA;VG?0Wkd^&vGn5Myr!@wj^W5_iup^ZwC
zPSd7E>eAC`KQ?8JCQVe@4;q$=rWHe7f6z#Y?hTpBtZ3SwN$dK@q+*ClQ+M8LF4#@8
zRa1A7pL@=8&Uw%KzUS~h_p8_k-OLvTgBFqJtJv6RkNpPoo>l{0@_aFM<H26aaN~2g
z-@t0a+ORUL3ajgB1sQ`MOZu#e{M2Dpy_(e(pfULv#pzf*r$49gFbkd3O-g4VGi6}y
zwh}klyBAtyHoC;CtfAtX5XIWSkO{SIAQacK1tD!C=?|Vo2;WrNW(&n__Oe9-7D9_p
zNXr%j>!;Fv*52?IS)oHn8etu*U5;31HJQ*Ym)I-|CC{`Vjz|_Nc1(ygF;yTsl<!qa
z+dEKjG}GCEytG@QJEfW1kku}6b(s-mIrANbGb_22m65D?vct)8qCC^pEDPd@l#v|^
zX*M$vN)+5gNQa&30=(tY<5sn$cEGli4UObpU!lb9zWv)x{Jh#Zq?2Yk(C!84*Cps0
zl%UB~F_5dGV@pFixGKXmLP0ouT@M{JlKqhb#r1JrNMEsSb8rTsfg))ywxR%q^tjel
zWY<gkRFm~_L&hABG{=}dhrvDaJbb@ghmWcAbX6e(yU&Q&YM%`Jp7n+pv0vkpNtPXm
zB#!*~iI?z@h)`c~x}AxA&dgrA&DMrg4D!*twn8cw$$*3W;<^#!MEj5w<1qPWz-Qb#
zjqi}mjz%cY{)N9VzoY9n)WjBli@(b+30F2qdJzAnaD~6ae<-}+s1UAtHuS*#ns7_}
zhx{LeYa6+^*K8@?fNRX(6t3~N`8&cj2N_)Ae@_;Ez%P1~_+L48T$@|frkvy^#wVvf
zt0S|IzasN`y-9WS(qwdKDmt80B!(uqXi^m$oQlSWX2@{eNRk<!7>>pwTr@E`5l=*?
z%gM^pQrv8`GGwzm!c~Gx{B5lkUp2Q<e*B4fnCih^%UJmV*n?{z$icxUAf*lmmjgr-
zKr?|}ykse)j^Lyvp#D<k^^GJcEw)=<qH^$zHBcRk#*?zd6vwH^+@$_obSg4F$h|x~
zaS{0GaSl?Hl#j+oCOk&GW_^)5gj0DHa-eZleuREsws1W^kFvWDuDR;gDx217+SU!K
zoZOU5Q^5SVBV|Q}C2xBk;RiP7Y?b$Md)G=oe<CadPp`J0;RlCS+lS_qbC-mQgNvrc
z629Wlvf^PyfFGUUCoc)3Gmm>u@Sy=dJR*e7t@fVhUmjoW9iJPSKP7k%FPoN2cyC}u
z@z5LO6Ei7<UZn!`Izm&_F?!AS+@ky4X5xz5`cI^?<fU@ati}GRxlAyZt+^`a8U@$)
z9=qIR^Na5oS6v6!y!G=h3Et*q8DIUv|HsYQZ}9VRIKrPD;m=(Z&R$v#&+wODTMfT9
ze}Hf35PY30Eh~MzuZL$(KJ=X=@dfBkn!LK`FoYSPPt&{ct>>Y_>Qn_XFmJT}q?I=}
zJ<>O?=?&0%>-gIZt7h+~`Q}E!+_-8!^hn>dJ@m6<*Sk|nyjk=M6@{4k)Oia3yx1|g
z^~8b-+NsSKf&7!f_hkZZ<wyHkZ9%o{o<bXxDesw-fVQJFq3+8RfNE{fs!HkxW8!t5
zj!h+o<Yb-nfT)VPcUROs+#<WBXXPOUgII-67FXgPyAM~(^A$>#C@Aib7f~9hBlr`?
z2$rd>IN&tRvJ7iv_pmu^E^G2C(wa$1;CrB!L{Q97wN2=$;%NES#gP=F0h8o1YlXsR
zLQ*;Q<3?BR{;V3<O|f}#Lq>JYHjpn>&cjcyVnUj}9d(qp6m?Sk2*}V1&{-TYSo^fB
z_yr)9z>IB4rb+qTYedAMqOb9c#6!-cwM3{Fx8;c{CV6%+13N+#BI5L>yFe|)4aY#~
z0WJ33^&yI6{_l`^kO8BE<X?209H>4m0Y)d`#7_jmm2AsGDdEH@(p-kU@8bN<XPuwx
zYv%{D(Bv{cC3U+eUM3ybH%XnYJe^}H7M+_&9LYIbu^n5<ZZyGvq{Wx@z~BEQc$NQI
z@Sc`F-0wE&4sJ_c)$}{~uT0*;Pu<-VF5J_KJ3SbuJU_s<YHS+#eB|JGu}~dwJ_o&L
zD@n2eubXYSu$IA=DwFATn0*-F2mt5~SZQg2-m|T6F*5!`nDYXFxE4M`I5z+&H+KyG
zv8om)s((}VUpx|R{Sr5N3*}%3w(tBl+y9D8PUI5!3|&EdS?k@7`3rNJ-^T8CY^5Cv
zkg;hec3K_EhRR9@*M|4h*kd_dJK?zwfKGre03|>W;5a}xKo39&pbwxIfCT`7<xT*A
zc5?j$JVtI0w1)t!08kBZZH>h}0KG84X@EljX8<AqX9*-k30|$~SDk`hz6@W_XYuQ`
zmvR37&#h9;&o223TXh;r)h?F$?_*7U>Ff~-6?aivPrUHjWOwR4r2ixLk%pjN_OVkN
zq}3nSC;|Ne9ii?aZBV7Y$0z~KN0o%SPiq17+F*goLy0kZXbx`KagTvx$UCWxM98<!
zbSxT)B=wQVh3UZ<eo$X!5z|A;7vcs1pn`K3Fyk+z8gQk5@9e9D_!0WEy!DBkQq-+0
zJ1K>2-aJ3F=$k+PZgC1he}zrI`LXfs#?0jnab*1z-3ANl7v+oWa_Qp9_Zh+0nnFPG
zAtI|{gPTq_h`b)91N5fIrYZc;pG&plzxlfg#Jg<<|8fW<)z7EnY2seNod?Q{12koO
Jf&e*~^lxs%__6>1

diff --git a/src/utils/__pycache__/scoring.cpython-313.pyc b/src/utils/__pycache__/scoring.cpython-313.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b861ee83216dee169947893b5b35974e38a923dc
GIT binary patch
literal 15288
zcmc&*Yj6`+mhP5hNtP`6A-}K<$Pd5*Te2|(LkKTpLcl;kDCK~`qu2_Vv1RDC^I(&V
zlFY*iOfY#&#7uTZB&ixxm8v)ym^hDNnB6~Y)&A(Fso2x&nN7`7JC%RVK(;pXYrk__
z-D(+;$2@krN`1R;-+S)soO8c(&ecti$Hn1_ojNv<Sjln!MKAi5pMJPG$aCB)T$mHM
zFdw$;<OQCk7Quqly3@MDCfIi533)s0f_;ZWaQLa5ZKrcbzL1aSydGEBj-R8)y~-YT
zR&mE{LczS;e3t7m<$6)p#c~TxxkSOua*M*1Mt(t$t;d~*?y@$VVGor!#tX$p2}cil
zfc7m^3N*ZoMoG93HC?P`k@2MUvzV3enJ7@(B`miz>|^6`t+ItnSx%WLr;O#4r*qQu
zQL>!nSC}YLpBzS?D%khRBbLB|(I23jF6lMtvUE{?R{Bsr?UybhIpde!l~2h(kf!9P
zr4OY`(y#Dz#xEzNN$EXgOySe7P~dxh=_Bcq{0u%!Ngw#7%kuYG;SZ!Kzx07LiDH-J
zr{!m)ccn@CN)ITG=H8{6XcfhY{`*1Kr^E)k12)yxH6V_tdHY9?55`p6)`7ke)w((U
zcz{<O9mAvXk(i)*hlcxOgS|pbJU$#3W2!Uu*zs83NUUGA3$c+=A>L;pYU#^{)QaED
z*BOHy#9g~0+&;>mcdbsp@1ymacj@0&r)k73CTjd&P0f1Hp*I+@>TQJib=@2nMT<u)
z5z9VZT=arSGiBqph@~<8C0fC8CVDoVo+;0w=QX=IZV!Ymo)@uxgZf4vjr#WP2b$5o
zxzAxM@-Ub5)4o#axZ@!1+7)qxZL8BO*1!ewMt_TZm-J$W1?4luH~wv{&0^oM5c7i}
z8ACmd2QZU#$qz=QhhKw3iK)^IORV+*d&S3~%e7fJBCd1!ab<JRI=}Q&ojVz$n%Q%T
zRnS?Cib}r(zh6XCm!yy6Q_}k;-gde6F%C>OWAwPOCD_v38f*!;1RCid(?jPzrMFLs
z4Fh)7D#pP1gTs%4$MeMFg9Bjw!B|`^7$CM6!QunMaWzkX81x66f)lj_;s>=r8_vk^
zw_|ZpE!6wkt7Qm2DwBU)i1iJKL;+IL7abf_Ef2SfM1&@UF10Nb5z$a6+CMZ95A{LH
zLeYWdhhp)*qeD^Q+aXct3yqEp42mIIhk^K!;PJ=R642@!9gL2|dLM4>WeX%!gDUk*
zd>^+2cdMK$tr&l5x?+V~u|lb6o~~$<E83Kb)r#+~MAvNjf@I^*g6D!t)$-}87P+cL
zsamO&w<Y%6aJa@cDvs*p3B}=`DJ=QKw|LsuB>S2sdKKS2iLT$T?R?of-lY`PzS%KR
zpfs$$R<!zRTjIXouibt+JYJ)C7QN|9^(wWiuX$Eq?MrO?#91smt8{8J`L3}6+3T0{
zYf}%(OV-Hw?TIZn+(qLh<9ko7muwX`(RnVnF1d;?*sS<{hBl$H+V!{4D|ev$H_$QN
z^-Q0D@4}V_E^LLw*+v5xMlOl#d@R~G;@=e=={xG*7X|zI8#{Le{LOyp*HHRteGkcm
z@MxNzRJ;5%y<gTg3F)I8vPpvTj}S))pr1NQdzeXRjqXa9vpWk3m!E0!L)xKmXgBji
zj9n`4Ps{JzMxg*}9<ZvmW5WXwO>smRI4%@Zp3NkmZcRS>24m5<>NUiZy^FLzk@N{w
zcu>nS(iEe~?;WDa7aH)5e&Rmd65L!R=PQ4;@oZyq!*q2>t_~^Ht<%+O<mxp_^;)H5
zU1H}<S>>zUXS<U}e-=L%R~7}Q7p;;Ptx^`<rIf8n?Ea)=p;8hWYm;p4lVRM18j#K6
zbdp}SYkmYyd4)6YbNa54*7DHfrmvj-wIOG2&N{rQj<F->q8YZ(?xL6WaSvETONbLK
zK5ly%_7nic5O1ny(ADbE4s^d|7xqOr=jY;9?B3s~we0}0aa(ss#758{%rC=z7uKJs
z<)k#P{Y<|ZrM&KNm?uh+yxf$+S?EHqot^{QH*jI(L+Djrrv0p1#$4T2Yd0H<4fz-q
z^`g5h^UO2^<|fR??RzZ11@?nfgk9aMGUXz9Y$n*Mbg$CJlKF}!)W|NM`5LjawM?&o
zUYpIt{o0)F8rIT?)wHI@h^RGFzA@L7-vFNQ;}^F)4B;H@zJqq_iamn;^5{rxAnxA^
z)ESNU#r%x~bAeh3w_XPD0F)qnk$}#kE&l^#Pm%5;P^;mL0E58*1pv_mpx*_S{)q50
zNU)NC!hpL|{|JpI{TMyf5W5b=q2um27+{%3^q<B)i2(vVHTf|b8hF|cklu$re2)zX
zFe?pbKE(uMqJ<J9z$el8k(g=)ga|lHN|5hW`F@ojQ2AqOu{ipWI5IE-FfknO?Hd+H
zL<j1U8pNe(!bKTPIG9<e-v0DL2|-jKKrW7;b%rsV?y>e~pG@+KW5H};$@m7PuugK;
z%>qPhP#jgssNz^m`R%8kl$<rU>|FE8i}jOnWo748US4_M^`;$)bLX|D9jOyzwPQX2
zi|sFYQoLMLdp*BSZrYL9EID_gme==k+xSz8Z|Ov_>|6e^XT=ylQ{o$|ea<$v_mtx^
zE9Y&x;VD6x$6mT8)hhcMKK3lRt;o__P7oSzeYr2$_|i}+Dwi+&*wZ-1&lZ=DpLnf4
z8CR;BCwaN5_2c4|W1D9R7pC}geR5%4>gZ(g1@ZilQrI@rumpYkq+y9vR0{|-Q&c>@
z`E31J`}m2o`N_>^J;*p~8{do9u#uscNEV+J&$^{WA-O1Y(_yRdj%|K!>v-|0dvChA
zk~SJc09#Cf2PkTh;_=Jw+BfS{N8f0c-7S)><%>V9;PSh8(T>^wjkl(Afh}w6pllNB
zo8QIFyme%hRKyTtQ=TEhx-k%k!DBWhOiGA1%9xBMm>Mg|xFD4_&!o8f4k`c=d>P{K
z5o7QvFt#q&WLRAC=hhH9mj8zc^gn-ThcTAhl@}Qw{(A_<Fx!Y}Fj(-?<t9HNB7FHZ
z(-Jfnq_a-TFX+ZT%zWumTFM#L5f)=n1ut%})vZI($C%JFVH8SPu1Vw__})tvj8m7|
zd1%L<k@5JjFccjeI2r3l4MQ&rZJ>DwKXD6gOv(#OUalXHD<w<b6err>cvA7MPTV`=
z@Q&9$`vgpc*}~?DxKem;V*4zRyf5jLE0@c~D<<|T?vP{)F`%P*;zxw&Q17F$fg?vp
z#J=<%ga&|u@ng*U2iy;P4toz5zQRQ;eKw8@0Wt68!IWGs)UW#nzRU|S<c;LC7`|3r
z&wj6An?qUd_vml^;O!&U5D-m9K*F|go-QK52(V;^3ilUgZ2$dU9Z#%#8Quk0h!JZp
z-$K}~m-BPGmSD%tSnb|O;VMhm0e6x!({8R7_7`dbnT_4_G3)f>HWO_RqfJh{+_XJ<
zt*=QtFJd!h>+6m6Cr}~wxIJRq=V5%2b<_KfnXTuzQDCv-k45YU3-v<X-`htvz`P57
z4!gc4dfE)?aXZZ{p-9l6ZIE3N!(+qzCHcA6Cz7wv1lH&CG#14OwJQvV=fN`ljg+a0
zzTv&Gkq61Zlls_nx^Y*gPKIktdB$2WPJ+~gU2*rG;K6de-F=n%Qzos0g3d+5lxJ|L
zuF{Pjxg+kcq8@SSr3v-N3l5S;f?bh<uv;H3Y~O;>op;z8wsdty{NX$Jo8ryVFG$y7
z=lFlJWC<8$sV#V-US!5BTw$8mmUZa8v}-o2hkog2WZMFllA?ztt3lTn{0CctD_1wc
ztj)e3(n+>9ukvR`I?uahnxTw;3qIUGYBMcu6z;;4=|;w~uoSmX38gbnSRZEJxQO}N
z@VmJcw+)thhy;``8989$xXHBJZ|N@HZzY9dGmyk1+$(tyg0y*egj-{Mn7_d9zQC(_
zBjilReq{-^2rE!YAem74czQQVBs9dCzy3%p4(nXlpf1a7Ob-plMm4uqaQ)yg^2H57
zqu^-}5(BvX@2A+E<~ZwO*B{DOkMp;zoTp^GDS0B*dfq3MESWA?DithM%T|AJ6FUj_
z>_R{P_Z_*g7R?CjaDyjeJw3C5lTZrx;FdjfVFTrF#O+1;W*$%-2Gp((D3q#AMbCFg
zC5_Vs0jVIMmbHH&Y(kZ+!O;H6mXRR3X%Vq^jFPS_=`JCuOfMKTAn87B!C1F1kS#%d
zR{2L&{<ui=bh9AS(>IYT(s*d*rSb#U0uP=qO%;!y_|YgHzhDD=##hFh5Q|qRLV4z&
z5th*tGg$1=<Huw1eu218%^Mhr4T%En7OM3K{IOPXbV#+H95}Ap;EFk_T8Tjz(kaRy
z9bpxfcNs2LQFqBQi8Z@q(;1$=!2z_|58DSZ4K<Htt9k5A01LyXtDzGVp$=FcI<C4h
zoG7q$Bret#lZJ&E%3PZ^ZPIwUG#4Wa51@P;Kk;86et%~EBxjlIs8K6h#yoR&uC#92
zw@mgeQ+$DGUr6?a6kltiYo>hBtMRjOrF`jhd6Qh;q?88}d;Z&9@zd`Bc%fEFX=2AL
z*uHf<`ock&Jnn+i;`n-{(66}tGX>?-1q<bZg~{mk0{?FdN?}P=F8-VZ=0;i7Yi-FV
zl<KC56LNLSWUE}g>U!Dgn|b(lle1R3#tLo~aMg7vT$e8V9i=)nSu0n!O-AAKx?a|f
z!gW-*+BH`AKQ6AQ=C=0GzXereo|&4)>6)Ni6a2WQ<+-l0&Y6M*uZ2@((~Wn_jdxFV
zUTIYtJC%jo<brL_?}8n)uod;n>eB9Ixpehd{*1F^+POe>E=UGGb~b#rhVw4CwI2R$
zx%|LezKKK9-8(<(xZ?V7kJQ|C_1N{mgG%`U#djdlg#p7rU9UJQF<Kgc;t0)nik`FF
z@D!ive!hD=3cGJusR~~7P4+0QTjZ)Oa`_g;(=lfGq}caz|Eot|Jc?Pu%ojIdo`G(w
zl0dbKCEMcL-FHqbE{V;}*CB9+U5DMINB?5j>i#QWt82eohh9-g*nXG()(<-o5nLAK
z4Z;nb0g?ON`sNK69qknC+HY*>0J<cr?CP#>1`FqcuD1ahn<=;j114eyoCX*ouz^q*
z50{$Ja>Ts~5oiWR4KSDitC`-0Z3J}nzWbPWf;y?^nB8a*7ii|)k)|=$ucYZP&Bc*#
zFc%Je9isE+!lC!qm<wkH+U|E_9nxSio`2AQxskjKxHaWEbLQq}a>Eu{`+#HAg=NeY
zg4nkwa&M=G!$f~0duwiO@@o$(^@py&Kg1Y654RZe7|00(&*i7JZZUtL9u{X9acZ6a
zpOztRcO=%jY@I(C3^w_-*Ol3?UE1rDE<LVb*D4`oN0nEm)2^)TmSiD=nt0QOiw$Bv
zY6^2-ikf(ank)kG`ECt9Xj^dxH>I~@4KuOrSPf)08P-n?E{Qqt(pAvSf)_RRKNL5Q
zZ3bS-_l^xFTazcwg(Yw8w3A$SYH_m$FBoY2`wm*@LDy~{F>SQBk60j=#J|rU%VLbB
zMIXy>GMcJAZ<V|a)6ON5bBS8qk{%1>jSJ+Ppa?CXa35}}{gLS4XiU_6D$6LxH-Bme
z`$P?X6lCCsnhr3LS3@)fnAkfD{|Y!mz^NWB4)xH0R<Ov3M5S|t2dO6q=w<*6kwCi{
zSZKJSe15-J;8zr4DE&5m;u^^F7eE#W{eDw0QMGWwH)WLz*Gtaz*fo7s$tI;_Sz_mG
zSxvH6DQiybzTqoRy5-7M(-rIGiuFpx2F14#;o!E-V?D2Rq`XQ^=$a>VMNDi%^|G2<
zoVCV&qqzKKF^RH`6RmPZ)AizJV1^nyFhiL=u?z0l%Ec(RI9+a|Qn6wpDp!QA7q<`)
zp>maW$yR#Hg{?m6kt^G$D>lg$o0N(zimwB0ukNI_C4Y-j(|XO*iZC=a?yXJLOngW2
zY-De~%A`HTD<yTaB^9?lede$g*ylJ~o}F#y%tm3$kmX!;Vs6>S{xRm)>|D*bRI^W|
z=*k?MCe>pXc>+ic=-&`Yvl)>ztalu7p%5RjYNgU~Gq5e;^mraTH3p?HZ_qM42-~Be
zV9zR(rlfBiFz9xojHBC*7WDX2Mdq2spMZk9AIRjvdt#Ku6MEnM0PWBb2g%8<<?u}z
z8+LX*%GS$fXy|>>zc4Dhv@!1L)6#Bs2q<DD3UMb!YGFPOSa99Xq&G)v9G)3d{<B8D
ztNX{)OMKJM?^we&<bfFdw69b;4u6Ibv9cjzl{fllRJ`M6*xZ%l08G~~f-d5Szhii4
zXgKZ<Bfb(lF^ZELh-h_ngmZ0=+UXFu5njh0#*WFzr%X|CI%1PKq?LUNCVjHxwz}q%
zF(CR2I33_q*3W%S&hsB=dw7?hsSba}g}}5u^A2b(XAfp09bMAQwie1L$ViCF4>3DP
zAj4I)^dHxDt0sDLL1B^)`pC#pW>^X2jZz&Cr}wCA?Us%`3Ex5)cKaP3#43myT+fwU
ze!*Cm;#`o}JPRbhM{(BRsdj1V#6;`)(Kl<9{NU>~$<1S}WA)?3<9pARoo+r~lh`8V
z2N4e<qbON>HugeqI>?i(O-9cx`O#vE?o{KkLoW2E_Dn|K>5v=RmBRL!Y8LZ3w<gt^
z+Izn3-1-UFJ1fR5XY<CRFF9{iFG>oj&FAaSJ(@ak?&QSE3#%uKCtKg~U0A17-=&wj
zna`EfQZ#4boEO&F*)jx!Dib?k($qJkqHio2cfIJH2q*5FS?o`>{$zCQ!1ISE>Tf$H
z<1HLtEBltn-lY=(dHH(Tdr#utPuwMm-Cz7^8RrU#BppBZbu7(}0zpVLMfLr^N>S-5
z%B*zYt^`fGvQWC=FwMf*c}7`B#K64FWo~wc8gA|knvP^}Fj|B7+YQ7F)pRgl>j4yy
zQ*XhPXV5b+bbh9Fb~NwH>u1{5?UCEn32c(w>Lg>EMBMY@V3in3F2zC-Ao+U`*<X@N
zkzzn}f|E{YLJQ<LZAa)9?nFex<!9k`)J}uSKV(s2oC!q+oxS^tGk52qAn2^#B~UQO
z)G6qMLv^fu7eNmlr{q3-r<Kb-ct>$>`G@j%<?n*>_bG%=U1EVQ^DuD?$fR~i7iemS
zG>#VJva5wcY-sqA7(6vYL$UY>@Rbp&LSBDN^)N+>$Q64PC<>qfIOZiX!8D<cKGox<
z7HLS#pwzGW^g;G!GBX-Z199XSV){#1fTwxLOplu{$RIQ7UavSXG%y$y21XtiPM{VC
z4iNtpDbr}ax>QgpX(epckm^>-f{EQgEtN}C-&QJC0`AOKHBKy2s@icH4*8|EQf;f^
zTS;g3>ZOJ?N_jgufU4mBp|2I=Pbj_ygyl9W%kGwacmLfF=xNbB8x8X|<A5N_%}Lw<
zl5p3qeQA)Qzf+1(1dhG}K2Z%^@vknA4gVXJ2b_wSsgiD-cZKuT+T!rhz!tWTA|wYX
zeM38Ukv{y&!~xNUv~W$5%+M(|1g#BG&9Z@MRv<7*h%*WHMH14CSluoz(nY`Y4ydQe
z&2Q?G^seiqEffkaSGkkc`rz`D`JtZW!Q~r!mWOaSJMZDa=n)Yo;Vc5qe&BeAYTvqN
z|K_f)3%np;I3j6m?PP~Ah(~r?LcDk{-dJF_z<cJd=kFR{mRy+}QQQrQt+Q?q%UPPN
zOZF@7`ovanS-MnH%97f8(ehsYJNdGEU1IAe?!v@Q%@0N`>DT<T2zoyE^*AAH&2<bs
zY^x$~n!_MwJcNy%DTnt*Tiv|T%P8)W=Ed=$OzDWTru1+KDShZhUwk^kGX_;jXOXnC
zmu#&*luzM+4jtBc2Q_eVpXs`(Y_#`{7-3$wNQtvxQ5N%@wDyQAghd#K%Db{8k7S7X
zA~xZ{<cWYP94`Jc|6@8B0JC#mFd)DSwV)NSXb}P1;6OYkk{Ih)jY1b{t)VoT63*dy
z=p<ev?8m|dr5mpWH>CPsJ#hBGt3BgAcu5BgY8LSbm^^}V!lQKa(~Z1b!sED^xp;^&
z>DEq^+woxL;-$&@G#7(2&#ZlJtz5csqW|q<7miJpUJq_iN;fL*jft%@x!IN=6;ohu
z;epN>!;OO{?aIx%-9@GnITVbc-f*Y}_MX+S_YfH!Zp+2Yx&u{*J^h&VUD$XcR-B?-
zs4W!E*ui}#TKsg{&I;SbGWv7$(v`6(NI}u=p2greLxz8tKquk<A7EPi;p786yg)~6
z*#{iB%fb@!slQycod>p|KeE8aVF!KD6oC#fwrlhRmX09|LK!`eu6Tk{?W%|BWE~_Z
zGetN86(<SSU@Wkc*k4@c^_dP9Gl4N^9$eAWyganzp7k4Qmp*a$sbJIHje&o9@?g)Q
zLud+3{1lxd_>)Z-F<b~8`x_0Nv%W+lU|H;c4H@Ds&1(-CeFn9kvw?mnO=gO0Zaxrg
zKG}Qdp!R?oy@!@-ZGXw|jQTxceLg5f6F-q(fUd!zAVi4SqW(hDNkDN~dg(OVZrC3)
zrm$(zSwbi)MmH^Au)zl6{q#Qs#{-@Fw(JRaYJzTK`$Za6^&XFo;J**}&qDgo4S8Bh
z3{E{_&L|;{H+I`jqIeJ9$nj(^bHcIX<-A2_4m^J#>3M74+XpTjP(1C4ZNFW-L~*bA
z@gw80x2rEyzrFBG=eb8@_ZrEz=8J3YH6k!K_g3ZRV%u+=cHFZZFmP9BqDh;y*#XmS
zoJq^LK1_Ke((E$j89Rt6&#((jdDNfzbqS)*%M0^C2k?Vs)Jklf;}0}+w3DqIn3zER
zvtTSz>{v|GAGwIN(|-dq+3s1+fGla$psfCHEW+rJ6829oX8dPWWDKAq-P~~AXmg&o
zK$`DtC+7ki5IT=8n@7OT+qwb{)v5m_MRl8w)2pSXBWA{lQnlRJM6%DIMKI55f!VXI
z7S4m#IOz&K$_Wj03(}2tK^A9aE>Q-(v4@fSPM{?=Z(*tzf#zOFLfR)GoJN5|#LC<7
zz;JrmveZ*b>89C=risH!#kN`hhN-6%fA?(NmMa^Sx}Mqc<r5o}@~yL#!HK7o%I&k&
zt0oUC)w@3{bdpcesrwYyf?i;O>get5AMWez)%Lla$b@`7ejI=35op&DNV)`KSb^}9
z>h2pJ9Mt}OBx+G|EB@#}kZ(9Tk{P#Z#s8FY4*pw2ii{5p`mvpp$t(?2=%5?@0YURD
zJJ*AuMh9aXgqM(qS>VJt?sHb2=RdPpc-u`o$GiT6bN?q7P`JSFxW#j}1$<>noa2y8
z_OWCtc8lKT?keQhPSnqFNTz%&xl(qE-sb9-@~x9?a~zT@D1hW@{Vhu7?&k~nmdP-c
zZn@IIlB=CmspYe}jl6#XbdXG0S#ou&wD*C3+sU4#zN4Shr@1YbCf+^);z*`I9Lbf2
zE8^A8D<|bG`)<+uTn}H%`%?WAZRZE(I6P8;-vrpBbbsU)WzB8l>-oxwzBvxb6gq_D
z3O*s3+rby}MM=;`l0wIk%q{gI3%x^<^4+3j&hO*fljtdulr0rLpMQ%U=a&0;dkXzS
YG6@<;rW&TiD;-mhy&wFXUfFv59|OW)x&QzG

literal 0
HcmV?d00001

diff --git a/src/utils/report.py b/src/utils/report.py
index ca0000e..4211be7 100644
--- a/src/utils/report.py
+++ b/src/utils/report.py
@@ -42,11 +42,15 @@ class ReportGenerator:
             table_data = [
                 {
                     "Тест": "Тест",
-                    "Скор": "Скор",
+                    "F1-Score": "F1-Score",
+                    "Levenshtein": "Levenshtein",
+                    "BLEU": "BLEU",
+                    "ROUGE-1": "ROUGE-1",
+                    "ROUGE-2": "ROUGE-2",
+                    "ROUGE-L": "ROUGE-L",
+                    "Code Similarity": "Code Similarity",
                     "Время (с)": "Время (с)",
-                    "Промпт": "Промпт",
-                    "Ожидаемый": "Ожидаемый",
-                    "Ответ модели": "Ответ модели"
+                    "Лог файл": "Лог файл"
                 }
             ]
 
@@ -54,26 +58,86 @@ class ReportGenerator:
                 if 'error' in result:
                     table_data.append({
                         "Тест": result['test_case'],
-                        "Скор": "Ошибка",
+                        "F1-Score": "Ошибка",
+                        "Levenshtein": "-",
+                        "BLEU": "-",
+                        "ROUGE-1": "-",
+                        "ROUGE-2": "-",
+                        "ROUGE-L": "-",
+                        "Code Similarity": "-",
                         "Время (с)": "-",
-                        "Промпт": result['prompt'][:50] + "..." if len(result['prompt']) > 50 else result['prompt'],
-                        "Ожидаемый": result['expected'][:50] + "..." if len(result['expected']) > 50 else result['expected'],
-                        "Ответ модели": result['error']
+                        "Лог файл": "-"
                     })
                 else:
+                    # Извлекаем все метрики из результата
+                    f1_score = result.get('f1_score', result.get('score', 0))
+                    levenshtein = result.get('normalized_levenshtein', 0)
+                    bleu = result.get('bleu_score', 0)
+                    rouge_scores = result.get('rouge_scores', {})
+                    code_sim = result.get('code_similarity', 0)
+
                     table_data.append({
                         "Тест": result['test_case'],
-                        "Скор": str(result['score']),
+                        "F1-Score": f"{f1_score:.3f}" if f1_score else "-",
+                        "Levenshtein": f"{levenshtein:.3f}" if levenshtein else "-",
+                        "BLEU": f"{bleu:.3f}" if bleu else "-",
+                        "ROUGE-1": f"{rouge_scores.get('rouge1', 0):.3f}" if rouge_scores else "-",
+                        "ROUGE-2": f"{rouge_scores.get('rouge2', 0):.3f}" if rouge_scores else "-",
+                        "ROUGE-L": f"{rouge_scores.get('rougeL', 0):.3f}" if rouge_scores else "-",
+                        "Code Similarity": f"{code_sim:.3f}" if code_sim else "-",
                         "Время (с)": f"{result['latency']:.2f}",
-                        "Промпт": result['prompt'][:50] + "..." if len(result['prompt']) > 50 else result['prompt'],
-                        "Ожидаемый": result['expected'][:50] + "..." if len(result['expected']) > 50 else result['expected'],
-                        "Ответ модели": result['model_response'][:50] + "..." if len(result['model_response']) > 50 else result['model_response']
+                        "Лог файл": f"{results['benchmark_name']}_{result['test_case']}.txt"
                     })
 
             f.write("## Результаты тестов\n\n")
-            f.write(markdown_table(table_data).get_markdown())
+            f.write("| Тест | F1-Score | Levenshtein | BLEU | ROUGE-1 | ROUGE-2 | ROUGE-L | Code Similarity | Время (с) | Лог файл |\n")
+            f.write("|--|--|--|--|--|--|--|--|--|--|\n")
+
+            for result in results['results']:
+                if 'error' in result:
+                    f.write(f"| {result['test_case']} | Ошибка | - | - | - | - | - | - | - | - |\n")
+                else:
+                    # Извлекаем все метрики из результата
+                    f1_score = result.get('f1_score', result.get('score', 0))
+                    levenshtein = result.get('normalized_levenshtein', 0)
+                    bleu = result.get('bleu_score', 0)
+                    rouge_scores = result.get('rouge_scores', {})
+                    code_sim = result.get('code_similarity', 0)
+
+                    f1_score_display = f"{f1_score:.3f}" if f1_score else "-"
+                    levenshtein_display = f"{levenshtein:.3f}" if levenshtein else "-"
+                    bleu_display = f"{bleu:.3f}" if bleu else "-"
+                    rouge1_display = f"{rouge_scores.get('rouge1', 0):.3f}" if rouge_scores else "-"
+                    rouge2_display = f"{rouge_scores.get('rouge2', 0):.3f}" if rouge_scores else "-"
+                    rougeL_display = f"{rouge_scores.get('rougeL', 0):.3f}" if rouge_scores else "-"
+                    code_sim_display = f"{code_sim:.3f}" if code_sim else "-"
+
+                    f.write(f"| {result['test_case']} | "
+                          f"{f1_score_display} | "
+                          f"{levenshtein_display} | "
+                          f"{bleu_display} | "
+                          f"{rouge1_display} | "
+                          f"{rouge2_display} | "
+                          f"{rougeL_display} | "
+                          f"{code_sim_display} | "
+                          f"{result['latency']:.2f} | "
+                          f"{results['benchmark_name']}_{result['test_case']}.txt |\n")
+
             f.write("\n\n")
 
+            # Сохранение request-response в лог
+            if model_name:
+                logs_dir = os.path.join(output_dir, "logs")
+                os.makedirs(logs_dir, exist_ok=True)
+                for result in results['results']:
+                    if 'error' in result:
+                        continue
+                    log_filename = os.path.join(logs_dir, f"{results['benchmark_name']}_{result['test_case']}.txt")
+                    with open(log_filename, 'w', encoding='utf-8') as log_file:
+                        log_file.write(f"Промпт:\n{result['prompt']}\n\n")
+                        log_file.write(f"Ответ модели:\n{result['model_response']}\n\n")
+                        log_file.write(f"Ожидаемый ответ:\n{result['expected']}\n")
+
             # Статистика
             successful = [r for r in results['results'] if 'score' in r]
             if successful:
@@ -87,7 +151,7 @@ class ReportGenerator:
         self.logger.info(f"Report saved to {file_path}")
         return file_path
 
-    def generate_summary_report(self, all_results: List[Dict[str, Any]], output_dir: str = "results", model_name: str = None) -> str:
+    def generate_summary_report(self, all_results: List[Dict[str, Any]], output_dir: str = "results", model_name: str = None, ollama_url: str = None) -> str:
         """
         Генерация сводного отчета по всем бенчмаркам.
 
@@ -95,6 +159,7 @@ class ReportGenerator:
             all_results: Список результатов всех бенчмарков
             output_dir: Директория для сохранения отчета
             model_name: Имя модели (для структурирования результатов)
+            ollama_url: URL сервера Ollama
 
         Returns:
             Путь к сгенерированному файлу
@@ -114,6 +179,8 @@ class ReportGenerator:
             f.write(f"**Дата:** {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n\n")
             if model_name:
                 f.write(f"**Модель:** {model_name}\n\n")
+            if ollama_url:
+                f.write(f"**Ollama URL:** {ollama_url}\n\n")
 
             # Таблица с общими результатами
             table_data = [
@@ -140,7 +207,16 @@ class ReportGenerator:
                 })
 
             f.write("## Общие результаты\n\n")
-            f.write(markdown_table(table_data).get_markdown())
+            f.write("| Бенчмарк | Тестов | Успешно | Средний скор | Среднее время |\n")
+            f.write("|--|--|--|--|--|\n")
+
+            for result in all_results:
+                successful = [r for r in result['results'] if 'score' in r]
+                avg_score = sum(r['score'] for r in successful) / len(successful) if successful else 0
+                avg_latency = sum(r['latency'] for r in successful) / len(successful) if successful else 0
+
+                f.write(f"| {result['benchmark_name']} | {result['total_tests']} | {result['successful_tests']} | {avg_score:.3f} | {avg_latency:.3f} |\n")
+
             f.write("\n\n")
 
             # Подробности по каждому бенчмарку
diff --git a/src/utils/scoring.py b/src/utils/scoring.py
new file mode 100644
index 0000000..e5bc3a9
--- /dev/null
+++ b/src/utils/scoring.py
@@ -0,0 +1,368 @@
+"""
+Модуль для вычисления различных метрик оценки качества ответов моделей.
+"""
+import re
+import math
+from typing import List, Tuple, Dict, Any
+from collections import Counter
+
+def calculate_f1_score(model_response: str, expected: str) -> float:
+    """
+    Вычисляет F1-score на основе совпадения токенов.
+
+    Args:
+        model_response: Ответ от модели
+        expected: Ожидаемый ответ
+
+    Returns:
+        F1-score (0.0-1.0)
+    """
+    model_tokens = set(model_response.lower().split())
+    expected_tokens = set(expected.lower().split())
+
+    if len(expected_tokens) == 0:
+        return 0.0
+
+    intersection = model_tokens.intersection(expected_tokens)
+    precision = len(intersection) / len(model_tokens) if model_tokens else 0.0
+    recall = len(intersection) / len(expected_tokens) if expected_tokens else 0.0
+
+    if (precision + recall) == 0:
+        return 0.0
+    f1 = 2 * (precision * recall) / (precision + recall)
+
+    return round(f1, 3)
+
+def calculate_exact_match(model_response: str, expected: str) -> float:
+    """
+    Вычисляет Exact Match Ratio (EM) - процент тестов с точным совпадением.
+
+    Args:
+        model_response: Ответ от модели
+        expected: Ожидаемый ответ
+
+    Returns:
+        1.0 если ответ точно совпадает, иначе 0.0
+    """
+    # Удаление лишних пробелов и табуляций
+    model_clean = ' '.join(model_response.strip().split())
+    expected_clean = ' '.join(expected.strip().split())
+
+    return 1.0 if model_clean == expected_clean else 0.0
+
+def calculate_levenshtein_distance(model_response: str, expected: str) -> int:
+    """
+    Вычисляет Levenshtein Distance (расстояние редактирования) между двумя строками.
+
+    Args:
+        model_response: Ответ от модели
+        expected: Ожидаемый ответ
+
+    Returns:
+        Количество редактирований (вставок, удалений, замен)
+    """
+    if len(expected) == 0:
+        return len(model_response)
+    if len(model_response) == 0:
+        return len(expected)
+
+    # Матрица для хранения расстояний
+    d = [[0] * (len(expected) + 1) for _ in range(len(model_response) + 1)]
+
+    # Инициализация
+    for i in range(len(model_response) + 1):
+        d[i][0] = i
+    for j in range(len(expected) + 1):
+        d[0][j] = j
+
+    # Заполнение матрицы
+    for j in range(1, len(expected) + 1):
+        for i in range(1, len(model_response) + 1):
+            if model_response[i-1] == expected[j-1]:
+                substitution_cost = 0
+            else:
+                substitution_cost = 1
+            d[i][j] = min(
+                d[i-1][j] + 1,      # удаление
+                d[i][j-1] + 1,      # вставка
+                d[i-1][j-1] + substitution_cost  # замена
+            )
+
+    return d[len(model_response)][len(expected)]
+
+def calculate_normalized_levenshtein(model_response: str, expected: str) -> float:
+    """
+    Вычисляет нормализованное Levenshtein Distance (0.0-1.0).
+
+    Args:
+        model_response: Ответ от модели
+        expected: Ожидаемый ответ
+
+    Returns:
+        Нормализованное расстояние (0.0 = идентично, 1.0 = полностью разные)
+    """
+    max_len = max(len(model_response), len(expected))
+    if max_len == 0:
+        return 0.0
+    distance = calculate_levenshtein_distance(model_response, expected)
+    return round(1.0 - (distance / max_len), 3)
+
+def calculate_bleu_score(model_response: str, expected: str, ngram_weights: List[float] = None) -> float:
+    """
+    Вычисляет BLEU Score на основе n-грамм.
+
+    Args:
+        model_response: Ответ от модели
+        expected: Ожидаемый ответ
+        ngram_weights: Веса для разных n-грамм. По умолчанию [0.25, 0.25, 0.25, 0.25] для 1-4 грамм
+
+    Returns:
+        BLEU Score (0.0-1.0)
+    """
+    if ngram_weights is None:
+        ngram_weights = [0.25, 0.25, 0.25, 0.25]
+
+    # Токенизация
+    model_tokens = model_response.lower().split()
+    expected_tokens = expected.lower().split()
+
+    if not model_tokens or not expected_tokens:
+        return 0.0
+
+    # Вычисление precision для разных n-грамм
+    precisions = []
+    for n in range(1, 5):
+        if n > len(model_tokens):
+            precisions.append(0)
+            continue
+
+        # Счетчики n-грамм в ответе модели
+        model_ngrams = Counter(
+            tuple(model_tokens[i:i+n])
+            for i in range(len(model_tokens) - n + 1)
+        )
+
+        # Счетчики n-грамм в ожидаемом ответе
+        expected_ngrams = Counter(
+            tuple(expected_tokens[i:i+n])
+            for i in range(len(expected_tokens) - n + 1)
+        )
+
+        if not model_ngrams:
+            precisions.append(0)
+            continue
+
+        # Вычисление precision с smoothing
+        clipped_count = 0
+        for ngram, count in model_ngrams.items():
+            clipped_count += min(count, expected_ngrams.get(ngram, 0))
+
+        precision = clipped_count / len(model_ngrams)
+        precisions.append(precision)
+
+    # Взвешенное среднее
+    weighted_sum = sum(w * p for w, p in zip(ngram_weights[:len(precisions)], precisions))
+
+    # Бонус за brevity (длина ответа близка к ожидаемой)
+    if len(model_tokens) > len(expected_tokens):
+        bp = 1.0
+    else:
+        bp = math.exp(1 - len(expected_tokens) / len(model_tokens))
+
+    bleu_score = bp * math.exp(weighted_sum)
+    return round(bleu_score, 3)
+
+def calculate_rouge_scores(model_response: str, expected: str) -> Dict[str, float]:
+    """
+    Вычисляет ROUGE Scores (ROUGE-1, ROUGE-2, ROUGE-L).
+
+    Args:
+        model_response: Ответ от модели
+        expected: Ожидаемый ответ
+
+    Returns:
+        Словарь с ROUGE метриками: {'rouge1': ..., 'rouge2': ..., 'rougeL': ...}
+    """
+    model_tokens = model_response.lower().split()
+    expected_tokens = expected.lower().split()
+
+    if not model_tokens or not expected_tokens:
+        return {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0}
+
+    # ROUGE-1: перекрытие unigrams
+    model_grams = Counter(model_tokens)
+    expected_grams = Counter(expected_tokens)
+
+    intersection = sum((model_grams & expected_grams).values())
+    rouge1 = intersection / len(expected_grams) if expected_grams else 0.0
+
+    # ROUGE-2: перекрытие bigrams
+    model_bigrams = Counter(
+        tuple(model_tokens[i:i+2])
+        for i in range(len(model_tokens) - 1)
+    )
+    expected_bigrams = Counter(
+        tuple(expected_tokens[i:i+2])
+        for i in range(len(expected_tokens) - 1)
+    )
+
+    intersection = sum((model_bigrams & expected_bigrams).values())
+    rouge2 = intersection / len(expected_bigrams) if expected_bigrams else 0.0
+
+    # ROUGE-L: Longest Common Subsequence (LCS)
+    rougeL = calculate_rouge_lcs(model_tokens, expected_tokens)
+
+    return {
+        'rouge1': round(rouge1, 3),
+        'rouge2': round(rouge2, 3),
+        'rougeL': round(rougeL, 3)
+    }
+
+def calculate_rouge_lcs(model_tokens: List[str], expected_tokens: List[str]) -> float:
+    """
+    Вычисляет ROUGE-L на основе Longest Common Subsequence (LCS).
+
+    Args:
+        model_tokens: Токены ответа модели
+        expected_tokens: Токены ожидаемого ответа
+
+    Returns:
+        ROUGE-L score (0.0-1.0)
+    """
+    # Матрица для хранения длины LCS
+    m = len(model_tokens)
+    n = len(expected_tokens)
+    dp = [[0] * (n + 1) for _ in range(m + 1)]
+
+    for i in range(1, m + 1):
+        for j in range(1, n + 1):
+            if model_tokens[i-1] == expected_tokens[j-1]:
+                dp[i][j] = dp[i-1][j-1] + 1
+            else:
+                dp[i][j] = max(dp[i-1][j], dp[i][j-1])
+
+    lcs_length = dp[m][n]
+
+    # Вычисление ROUGE-L
+    precision = lcs_length / m if m > 0 else 0.0
+    recall = lcs_length / n if n > 0 else 0.0
+
+    if (precision + recall) == 0:
+        return 0.0
+    f_score = 2 * (precision * recall) / (precision + recall)
+
+    return f_score
+
+def calculate_code_similarity(model_response: str, expected: str) -> float:
+    """
+    Вычисляет похожесть кода на основе структурных элементов.
+
+    Args:
+        model_response: Сгенерированный код
+        expected: Ожидаемый код
+
+    Returns:
+        Коэффициент похожести (0.0-1.0)
+    """
+    # Удаление комментариев
+    model_clean = remove_comments(model_response)
+    expected_clean = remove_comments(expected)
+
+    # Нормализация (удаление лишних пробелов, табуляций)
+    model_normalized = normalize_code(model_clean)
+    expected_normalized = normalize_code(expected_clean)
+
+    # Сравнение токенов кода
+    model_tokens = tokenize_code(model_normalized)
+    expected_tokens = tokenize_code(expected_normalized)
+
+    if not expected_tokens:
+        return 0.0
+
+    # Простая метрика на основе совпадения ключевых токенов
+    intersection = set(model_tokens) & set(expected_tokens)
+    precision = len(intersection) / len(model_tokens) if model_tokens else 0.0
+    recall = len(intersection) / len(expected_tokens) if expected_tokens else 0.0
+
+    if (precision + recall) == 0:
+        return 0.0
+    f1 = 2 * (precision * recall) / (precision + recall)
+
+    return round(f1, 3)
+
+def remove_comments(code: str) -> str:
+    """
+    Удаляет комментарии из кода.
+
+    Args:
+        code: Исходный код
+
+    Returns:
+        Код без комментариев
+    """
+    # Удаление однострочных комментариев
+    code = re.sub(r'//.*', '', code)
+    code = re.sub(r'#.*', '', code)
+
+    # Удаление многострочных комментариев
+    code = re.sub(r'/\*.*?\*/', '', code, flags=re.DOTALL)
+
+    return code
+
+def normalize_code(code: str) -> str:
+    """
+    Нормализует код (удаляет лишние пробелы, табуляции).
+
+    Args:
+        code: Исходный код
+
+    Returns:
+        Нормализованный код
+    """
+    # Замена нескольких пробелов/табуляций на один
+    code = re.sub(r'\s+', ' ', code)
+    # Удаление пробелов в начале и конце строк
+    code = '\n'.join(line.strip() for line in code.split('\n'))
+    return code
+
+def tokenize_code(code: str) -> List[str]:
+    """
+    Токенизирует код, выделяя ключевые элементы.
+
+    Args:
+        code: Исходный код
+
+    Returns:
+        Список токенов
+    """
+    # Регулярное выражение для токенизации кода
+    token_pattern = r"""
+        \w+|          # Идентификаторы и ключевые слова
+        [+\-*/%=<>!&|^~.,;(){}[\]]|  # Операторы и знаки препинания
+        [0-9]+|       # Числа
+        [A-Za-z_][A-Za-z0-9_]*|  # Идентификаторы
+        \S            # Любые другие непробельные символы
+    """
+    tokens = re.findall(token_pattern, code, re.VERBOSE)
+    return [token for token in tokens if token.strip()]
+
+def get_all_scores(model_response: str, expected: str) -> Dict[str, Any]:
+    """
+    Вычисляет все доступные метрики для ответа модели.
+
+    Args:
+        model_response: Ответ от модели
+        expected: Ожидаемый ответ
+
+    Returns:
+        Словарь со всеми метриками
+    """
+    return {
+        'f1_score': calculate_f1_score(model_response, expected),
+        'exact_match': calculate_exact_match(model_response, expected),
+        'levenshtein_distance': calculate_levenshtein_distance(model_response, expected),
+        'normalized_levenshtein': calculate_normalized_levenshtein(model_response, expected),
+        'bleu_score': calculate_bleu_score(model_response, expected),
+        'rouge_scores': calculate_rouge_scores(model_response, expected),
+        'code_similarity': calculate_code_similarity(model_response, expected)
+    }
diff --git a/tests/codegen/test1.json b/tests/codegen/test1.json
index ad22db6..837fb2b 100644
--- a/tests/codegen/test1.json
+++ b/tests/codegen/test1.json
@@ -1,4 +1,4 @@
 {
   "prompt": "Write a Python function that calculates the factorial of a number using recursion.",
-  "expected": "def factorial(n):\\n    if n == 0 or n == 1:\\n        return 1\\n    else:\\n        return n * factorial(n-1)"
+  "expected": "def factorial(n):\n    if n == 0 or n == 1:\n        return 1\n    else:\n        return n * factorial(n-1)"
 }