# LogicKor 각 Task별 롯데 GPT의 정량적 성능 측정을 위한 LogicKor 기반 벤치마크 12B 기준 80GB 1장 가능 ### 1. 인퍼런스 결과 생성 ```bash python generator.py --model LDCC/Chat-Mistral-Nemo-12B-32k --gpu_devices 2 --model_len 32000 ``` #### 2. 모델 평가 with OpenAI ```bash python evaluator.py -o generated/LDCC/Chat-Mistral-Nemo-12B-32k -k sk-### -t 30 ``` ### 3. 결과 확인 ```bash python score.py -p evaluated/LDCC/Chat-Mistral-Nemo-12B-32k/default.jsonl python score.py -p evaluated/LDCC/Chat-Mistral-Nemo-12B-32k/1-shot.jsonl python score.py -p evaluated/LDCC/Chat-Mistral-Nemo-12B-32k/cot-1-shot.jsonl ``` ### default | Category | Single turn | Multi turn | |---|---|---| | 추론(Reasoning) | 9.43 | 9.14 | | 코딩(Coding) | 9.71 | 9.14 | | 글쓰기(Writing) | 9.86 | 9.29 | | 수학(Math) | 8.86 | 9.14 | | 이해(Understanding) | 10.00 | 10.00 | | 문법(Grammar) | 9.14 | 10.00 | | Category | Score | |---|---| | Single turn | 9.50 | | Multi turn | 9.45 | | Overall | 9.48 | ### 1-shot | Category | Single turn | Multi turn | |---|---|---| | 수학(Math) | 8.29 | 9.29 | | 추론(Reasoning) | 9.57 | 7.43 | | 코딩(Coding) | 9.71 | 9.00 | | 글쓰기(Writing) | 9.71 | 9.00 | | 이해(Understanding) | 9.43 | 10.00 | | 문법(Grammar) | 10.00 | 10.00 | | Category | Score | |---|---| | Single turn | 9.45 | | Multi turn | 9.12 | | Overall | 9.29 | ### cot-1-shot | Category | Single turn | Multi turn | |---|---|---| | 추론(Reasoning) | 9.71 | 9.71 | | 수학(Math) | 6.57 | 8.00 | | 코딩(Coding) | 9.57 | 9.29 | | 글쓰기(Writing) | 9.86 | 9.71 | | 이해(Understanding) | 9.57 | 10.00 | | 문법(Grammar) | 10.00 | 10.00 | | Category | Score | |---|---| | Single turn | 9.21 | | Multi turn | 9.45 | | Overall | 9.33 | ### 문제 예시 ```json {"id": 42, "category": "문법(Grammar)", "questions": ["나는어제친구와김치찌개를먹었다.\n\n이 문장을 올바르게 띄어 써보아라.", "아래 문장의 높임 표현을 올바르게 수정보아라.\n\n할머니가 밥을 먹는다."], "references": ["나는 어제 친구와 김치찌개를 먹었다.", "할머니께서 진지를 잡수신다."]} {"id": 22, "category": "코딩(Coding)", "questions": ["시간 복잡도를 어떻게 구할 수 있는지 설명해주고, 많이 쓰이는 알고리즘 중에 최적화를 통해 시간 복잡도를 줄인 예시를 알려줘.", "공간 복잡도라는 용어도 있던데 뭐가 다른 거야?"], "references": [null, null]} ``` ### category 각각 7개씩 존재하며, 단일턴과 멀티턴(2턴)으로 구성되어있음. - **기존** - 추론(Reasoning) - 수학(Math) - 글쓰기(Writing) - 코딩(Coding) - 이해(Understanding) - 문법(Grammar) - **추가 예정** - [키워드 검색](https://ldccai.lotte.net/gitlab/wonchul_kim/koalpaca/-/blob/main/data_chat/instruct/search_keyword.json) - [검색 raw 데이터 요약](https://ldccai.lotte.net/gitlab/wonchul_kim/koalpaca/-/blob/main/data_chat/instruct/search_summary.json) - [상품 리뷰 요약](https://ldccai.lotte.net/gitlab/wonchul_kim/koalpaca/-/blob/main/data_chat/instruct/review_summary.json) - [회의 요약](https://ldccai.lotte.net/gitlab/wonchul_kim/koalpaca/-/blob/main/data_chat/instruct/meeting_summary.json) - [업무도우미](https://ldccai.lotte.net/gitlab/wonchul_kim/koalpaca/-/blob/main/data_chat/instruct/task_assistant.json) - [상품 리뷰 요약](https://ldccai.lotte.net/gitlab/wonchul_kim/koalpaca/-/blob/main/data_chat/instruct/review_summary.json) - [text2sql](https://ldccai.lotte.net/gitlab/wonchul_kim/koalpaca/-/blob/main/data_chat/instruct/text2sql.json) - [sql2text](https://ldccai.lotte.net/gitlab/wonchul_kim/koalpaca/-/blob/main/data_chat/instruct/sql2answer.json) - [감성채팅](https://ldccai.lotte.net/gitlab/wonchul_kim/koalpaca/-/blob/main/data_chat/empathetic_dialogues_mutli_turn.json) - [롯데QA](https://ldccai.lotte.net/gitlab/wonchul_kim/koalpaca/-/blob/main/data_chat/lotte/%EB%A1%AF%EB%8D%B0QA_240105.json)