fix: update README.md files

aiqwe · Sep 30, 2024 · 952f4cf · 952f4cf
1 parent 7cde95a
commit 952f4cf
Show file tree

Hide file tree

Showing 36 changed files with 412 additions and 30 deletions.
diff --git a/tasks/agi_eval/README.md b/tasks/agi_eval/README.md
@@ -1,5 +1,14 @@
-
 # agi_eval
+- 사람을 평가하는 표준적인 시험을 바탕으로 설계함
+    - 중국 대학 입학시험(가오카오)
+    - 미국 대학 입학시험(SAT)
+    - 로스쿨 입학시험(LSAT)
+    - 변호사 자격시험
+    - 수학경시대회
+    - 중국 국가 공무원 시험
+- 20개의 Human-Centric Task로 구성됨
+- 모델의 4가지 측면을 측정하는게 목적(이해, 지식, 추론, 계산)
+---
 + **source**: huggingface
 + **hf_path**: 
     <details>

diff --git a/tasks/arc/README.md b/tasks/arc/README.md
@@ -1,5 +1,9 @@
-
 # arc
+- AI2 Reasoning Challenge
+- SQuAD나 SNLI같이 보다 더 개선된, Reasoning을 테스트하기 위한 벤치마크
+- Science 데이터셋으로 구성됨
+- 난이도에 따라 `Challenge set`과 `Easy set`으로 나뉜다
+---
 + **source**: huggingface
 + **hf_path**: allenai/ai2_arc
 + **hf_name**: 

diff --git a/tasks/bigbench/README.md b/tasks/bigbench/README.md
@@ -1,5 +1,13 @@
-
 # bigbench
+- Beyond the Imitation Game Benchmark
+- 다량의 Task를 포함한 일종의 IQ 테스트
+    - 200개 이상의 Task를 포함하며, 각 Task의 키워드는 [여기를 참고](https://github.com/google/BIG-bench/blob/main/bigbench/benchmark_tasks/keywords_to_tasks.md)
+    - 언어학, 유아 발달, 수학, 상식 추론, 생물학, 물리학, 사회적 통념, 소프트웨어 개발 …
+- 테스트량이 많기 때문에 24개의 Task로 구성된 경량화 버전인 BIGBench-Lite를 제공함
+- 문제들은 `multiple_choice_targets`, `multiple_choice_scores`로 구분되어 정답을 선택할 시 1점을 얻게 됨
+- 각 task 키워드마다 데이터셋 크기는 다양함
+    - 몇십개 ~ 백만개가 넘는 데이터셋으로 구성됨
+---
 + **source**: huggingface
 + **hf_path**: google/bigbench
 + **hf_name**: 

diff --git a/tasks/bigbenchhard/README.md b/tasks/bigbenchhard/README.md
@@ -1,5 +1,43 @@
-
 # bigbenchhard
-+ **source**: github
-+ **url**: [https://github.com/suzgunmirac/BIG-Bench-Hard](https://github.com/suzgunmirac/BIG-Bench-Hard)  
+- BIG-Bench의 200개 Task중, 모델이 Human Rater를 넘지 못한 Task 23개로 구성
+    - 23개의 Task 및 27개의 Sub-Task로 구성
+- Few-shot을 사용했을 때, 모델들은 좋은 퍼포먼스를 보임
+    - Few-shot보다 더 좋은 프롬프트를 평가하기 위해 CoT Reasoning을 포함하여 구성
+    - [CoT Prompt](https://github.com/suzgunmirac/BIG-Bench-Hard/tree/main/cot-prompts)
+---
++ **source**: huggingface
++ **hf_path**: maveriq/bigbenchhard
++ **hf_name**: 
+    <details>
+        <summary>Click</summary>
+            <div>  -  <code>boolean_expressions</code></div>
+            <div>  -  <code>causal_judgement</code></div>
+            <div>  -  <code>date_understanding</code></div>
+            <div>  -  <code>disambiguation_qa</code></div>
+            <div>  -  <code>dyck_languages</code></div>
+            <div>  -  <code>formal_fallacies</code></div>
+            <div>  -  <code>geometric_shapes</code></div>
+            <div>  -  <code>hyperbaton</code></div>
+            <div>  -  <code>logical_deduction_five_objects</code></div>
+            <div>  -  <code>logical_deduction_seven_objects</code></div>
+            <div>  -  <code>logical_deduction_three_objects</code></div>
+            <div>  -  <code>movie_recommendation</code></div>
+            <div>  -  <code>multistep_arithmetic_two</code></div>
+            <div>  -  <code>navigate</code></div>
+            <div>  -  <code>object_counting</code></div>
+            <div>  -  <code>penguins_in_a_table</code></div>
+            <div>  -  <code>reasoning_about_colored_objects</code></div>
+            <div>  -  <code>ruin_names</code></div>
+            <div>  -  <code>salient_translation_error_detection</code></div>
+            <div>  -  <code>snarks</code></div>
+            <div>  -  <code>sports_understanding</code></div>
+            <div>  -  <code>temporal_sequences</code></div>
+            <div>  -  <code>tracking_shuffled_objects_five_objects</code></div>
+            <div>  -  <code>tracking_shuffled_objects_seven_objects</code></div>
+            <div>  -  <code>tracking_shuffled_objects_three_objects</code></div>
+            <div>  -  <code>web_of_lies</code></div>
+            <div>  -  <code>word_sorting</code></div>
+    </details>
+
++ **url**: [https://huggingface.co/datasets/maveriq/bigbenchhard](https://huggingface.co/datasets/maveriq/bigbenchhard)  
 + **paper**: [https://arxiv.org/pdf/2210.09261](https://arxiv.org/pdf/2210.09261)  
diff --git a/tasks/boolq/README.md b/tasks/boolq/README.md
@@ -1,5 +1,11 @@
-
 # boolq
+- BoolQ는 Yes / No 문제셋
+- 구글 검색엔진의 Query를 바탕으로 Question을 Naturally하게 생성함
+    - Question 작성자는 본인이 작성하는 Question이 Yes / No 형식인지 모름
+    - 자신이 작성하는 Question에 대한 Answer를 모르는 상태
+- Question을 작성하고 관련된 문서를 Wikipedia에서 찾아서 추가함
+- 모델에 Question과 Passage를 전달하여 Yes / No Output을 측정함
+---
 + **source**: huggingface
 + **hf_path**: google/boolq
 + **url**: [https://huggingface.co/datasets/google/boolq](https://huggingface.co/datasets/google/boolq)  

diff --git a/tasks/commonsense_qa/README.md b/tasks/commonsense_qa/README.md
@@ -1,5 +1,12 @@
-
 # commonsense_qa
+- WSC와 같은 Common Sense용 벤치마크 들은 데이터가 너무 적음(CommonSenseQA 작업때까지만 해도 데이터들이 작았음)
+- CONCEPTNET은 `(Concept1, Relation, Concept2)`의 그래프 형태를 가짐
+- CommonSenseQA는 CONCEPTNET 데이터셋을 스케일링함
+    - 그래프들에서 유사한 개념들을 뽑아서 다지선택의 문제로 만듦
+    - Relation으로 연결된 Concept들을 1개의 Source, 3개의 Target으로 1개는 정답 2개는 오답인 컨셉으로 샘플링함
+    - 작업자들은 직접 오답을 1개 작성하고 CONCEPTNET에서 다시 1개의 오답을 추가하여 총 5지 선다형의 문제를 생성  
+<img src="assets/commonsense_qa.png" width=360>
+---
 + **source**: huggingface
 + **hf_path**: tau/commonsense_qa
 + **url**: [https://huggingface.co/datasets/tau/commonsense_qa](https://huggingface.co/datasets/tau/commonsense_qa)  

diff --git a/tasks/commonsense_qa/assets/commonsense_qa.png b/tasks/commonsense_qa/assets/commonsense_qa.png
diff --git a/tasks/drop/README.md b/tasks/drop/README.md
@@ -1,5 +1,12 @@
-
 # drop
+- Discrete Reasoning Over the content of Paragraphs
+- 데이터소스는 Wikipedia에서 단락을 추출하고, 크라우드 소싱을 통해 단락을 베이스로 하여 QA Pair를 생성
+- 다양한 카테고리를 포함하지만, 특히 스포츠 게임, 역사 구절들을 강조함
+- 답변은 3가지 타입
+    - `number` : 주로 스포츠 게임 요약 정보(스코어 등)
+    - `date` : 역사적 구절에서 날짜
+    - `span`: 단락의 텍스트 범위
+---
 + **source**: huggingface
 + **hf_path**: ucinlp/drop
 + **url**: [https://huggingface.co/datasets/ucinlp/drop](https://huggingface.co/datasets/ucinlp/drop)  

diff --git a/tasks/glue/README.md b/tasks/glue/README.md
@@ -1,5 +1,26 @@
-
 # glue
+- General Language Understanding Evaludation Benchmark
+- 다양한 NLU 평가를 포함함
+    - 감정분석
+    - QA
+    - Textual Entailment
+- 기존의 데이터셋을 기반으로 벤치마크를 만들었음
+    - Single Sentence
+        - `CoLA`: 언어 이론과 학술 논문에서 문법이 맞는지 주석으로 체크함
+        - `SST-2`: 사람들의 감정을 주석으로 달아놓은 영화 리뷰
+    - Similarity & Paraphrase : 문장의 유사도
+        - `MRPC`: 뉴스에서 가져온 문장들이 의미적으로 동일한지
+        - `QQP`: Quora에서 가져온 질문 Pair 데이터셋이 의미적으로 동일한지
+        - `STS-B`: 뉴스 헤드라인, 비디오 자막, NLI 데이터에서 가져온 문장들이 의미적으로 동일한지
+    - Inference : hypothesis가 Entailment / Neutral / Contradiction임을 구분
+        - `MNLI`
+        - `QNLI`: Wiki 기분 질문 데이터셋
+        - `RTE`: Textual Entailment Challenge에서 가져옴
+        - `WNLI`: WSC 기반 데이터셋
+- qqp, mnli 등이 테스트셋이 많은 편이며, 보통 1만개 내외
+- 데이터셋 및 Task별 Metric은 아래와 같음  
+<img src="assets/glue.png" width=360>
+---
 + **source**: huggingface
 + **hf_path**: nyu-mll/glue
 + **hf_name**: 

diff --git a/tasks/glue/assets/glue.png b/tasks/glue/assets/glue.png
diff --git a/tasks/gpqa/README.md b/tasks/gpqa/README.md
@@ -1,6 +1,23 @@
-
 # gpqa
+- Graduate-Level Google-Proof Q&A benchmark
+- 전문가들이 만든 생물학, 물리학, 화학 도메인의 448개의 데이터셋
+    - 전문가는 67%, 비전문가는 34%의 정답율을 보이는 극도로 난이도가 높은 벤치마크
+    - LLM이 인간 범주를 넘는다는 기반하에 사람도 풀기 어려운 벤치마크로 구성함
+- 총 3개의 데이터셋 제공
+    - `GPQA Extended` : 데이터셋 풀버젼(564개)
+    - `GPQA` : 검수과정에서 전문가는 모두 틀리고, 비전문가는 모두 맞춘 데이터는 제거한 메인 데이터셋(448개)
+    - `GPQA Diamond` : 전문가는 모두 맞추고, 일반인은 모두 틀린 가장 질높은 데이터셋 (198개)
+---
 + **source**: huggingface
 + **hf_path**: Idavidrein/gpqa
++ **hf_name**: 
+    <details>
+        <summary>Click</summary>
+            <div>  -  <code>gpqa_extended</code></div>
+            <div>  -  <code>gpqa_main</code></div>
+            <div>  -  <code>gpqa_diamond</code></div>
+            <div>  -  <code>gpqa_experts</code></div>
+    </details>
+
 + **url**: [https://huggingface.co/datasets/Idavidrein/gpqa](https://huggingface.co/datasets/Idavidrein/gpqa)  
 + **paper**: [https://arxiv.org/pdf/2311.12022](https://arxiv.org/pdf/2311.12022)  
diff --git a/tasks/gsm8k/README.md b/tasks/gsm8k/README.md
@@ -1,6 +1,17 @@
-
 # gsm8k
+- Multi Step Mathematical Reasoning 벤치마크
+- 초등학교 수준의 수학 문제로, 8.5K 크기의 데이터셋으로 구성
+- 수학적 기호를 자제하고 자연어로 구어체식 문답법으로 구성됨
+- 모델이 Multi-Step Reasoning 중 잘못된 `generate`를 통해 잘못된 방향으로 나가는 것을 포착하기 위한 벤치마크임
+---
 + **source**: huggingface
 + **hf_path**: openai/gsm8k
++ **hf_name**: 
+    <details>
+        <summary>Click</summary>
+            <div>  -  <code>main</code></div>
+            <div>  -  <code>socratic</code></div>
+    </details>
+
 + **url**: [https://huggingface.co/datasets/openai/gsm8k](https://huggingface.co/datasets/openai/gsm8k)  
 + **paper**: [https://arxiv.org/pdf/2110.14168](https://arxiv.org/pdf/2110.14168)  
diff --git a/tasks/haerae/README.md b/tasks/haerae/README.md
@@ -1,6 +1,33 @@
-
 # haerae
+- 수학, 논리 추론에 중점을 둔 기존 벤치마크와 달리, 한국어의 문화적 특성에 중점을 둠
+- 한국어 도메인에 특화된 1500개의 질문셋으로 구성
+- 6개의 서브카테고리 포함
+    - 외래어(LW)
+    - 표준명명법(SN)
+    - 회귀어(RW)
+    - 일반지식(GK) : 일반 상식은 전통, 법, k-pop, k-drama 등으로 구성
+    - 역사(HI)
+    - 독해력(RC)
+---
 + **source**: huggingface
 + **hf_path**: HAERAE-HUB/HAE_RAE_BENCH_1.1
++ **hf_name**: 
+    <details>
+        <summary>Click</summary>
+            <div>  -  <code>correct_definition_matching</code></div>
+            <div>  -  <code>csat_geo</code></div>
+            <div>  -  <code>csat_law</code></div>
+            <div>  -  <code>csat_socio</code></div>
+            <div>  -  <code>date_understanding</code></div>
+            <div>  -  <code>general_knowledge</code></div>
+            <div>  -  <code>history</code></div>
+            <div>  -  <code>loan_words</code></div>
+            <div>  -  <code>lyrics_denoising</code></div>
+            <div>  -  <code>proverbs_denoising</code></div>
+            <div>  -  <code>rare_words</code></div>
+            <div>  -  <code>standard_nomenclature</code></div>
+            <div>  -  <code>reading_comprehension</code></div>
+    </details>
+
 + **url**: [https://huggingface.co/datasets/HAERAE-HUB/HAE_RAE_BENCH_1.1](https://huggingface.co/datasets/HAERAE-HUB/HAE_RAE_BENCH_1.1)  
 + **paper**: [https://arxiv.org/pdf/2309.02706](https://arxiv.org/pdf/2309.02706)  
diff --git a/tasks/hellaswag/README.md b/tasks/hellaswag/README.md
@@ -1,5 +1,13 @@
-
 # hellaswag
-+ **source**: github
-+ **url**: [https://github.com/rowanz/hellaswag](https://github.com/rowanz/hellaswag)  
+- SWAG를 베이스로 하는 NLI 벤치마크
+    - HellaSWAG는 Input으로 문장이 들어오면, 다음에 발생할 상황을 고르는 문제
+    - SWAG는 비디오 자막이 주어지면 다음에 발생할 상황 4가지중 하나를 고르는 벤치마크
+- 데이터셋은 ActivityNet과 WikiHow를 사용
+    - SWAG는 ActivityNet, LSMDC 데이터셋을 사용하지만 HellaSWAG는 ActivityNet만 사용
+    - WikiHow를 통해 CommonSense Reasoning을 측정
+- Adversarial Filtering(AF)를 통해 좀더 그럴듯한 오답지를 생성하여 벤치마크 난이도를 올림
+---
++ **source**: huggingface
++ **hf_path**: Rowan/hellaswag
++ **url**: [https://huggingface.co/datasets/Rowan/hellaswag](https://huggingface.co/datasets/Rowan/hellaswag)  
 + **paper**: [https://arxiv.org/pdf/1905.07830](https://arxiv.org/pdf/1905.07830)  
diff --git a/tasks/human_eval/README.md b/tasks/human_eval/README.md
@@ -1,5 +1,9 @@
-
 # human_eval
+- Codex 모델의 벤치마크로 사용
+- 사람이 수기로 작성한 164개의 질문셋
+- Docstring이 주어졌을 때, 함수를 생성할 수 있는지 평가하며, 평가는 Unit-Test를 통해 자동화됨
+- 언어 이해, 간단한 수학, 알고리즘, 소프트웨어 인터뷰 등의 문제들로 구성됨
+---
 + **source**: huggingface
 + **hf_path**: openai/openai_humaneval
 + **url**: [https://huggingface.co/datasets/openai/openai_humaneval](https://huggingface.co/datasets/openai/openai_humaneval)  

diff --git a/tasks/kmmlu/README.md b/tasks/kmmlu/README.md
@@ -1,6 +1,60 @@
-
 # kmmlu
+- 인문학, STEM, 응용과학에 이르는 45개 Task의 한국어 MCQA 벤치마크
+- 기계번역은 부자연스러워서 데이터셋의 질을 떨어뜨림
+- 또한, MMLU 등의 영어권 벤치마크는 문화적 차이가 있음(미국 불문법 vs 한국 성문법)
+- 공무원시험, 한국 자격시험, 수능 등에서 발췌함
+---
 + **source**: huggingface
 + **hf_path**: HAERAE-HUB/KMMLU
++ **hf_name**: 
+    <details>
+        <summary>Click</summary>
+            <div>  -  <code>Accounting</code></div>
+            <div>  -  <code>Agricultural-Sciences</code></div>
+            <div>  -  <code>Aviation-Engineering-and-Maintenance</code></div>
+            <div>  -  <code>Biology</code></div>
+            <div>  -  <code>Chemical-Engineering</code></div>
+            <div>  -  <code>Chemistry</code></div>
+            <div>  -  <code>Civil-Engineering</code></div>
+            <div>  -  <code>Computer-Science</code></div>
+            <div>  -  <code>Construction</code></div>
+            <div>  -  <code>Criminal-Law</code></div>
+            <div>  -  <code>Ecology</code></div>
+            <div>  -  <code>Economics</code></div>
+            <div>  -  <code>Education</code></div>
+            <div>  -  <code>Electrical-Engineering</code></div>
+            <div>  -  <code>Electronics-Engineering</code></div>
+            <div>  -  <code>Energy-Management</code></div>
+            <div>  -  <code>Environmental-Science</code></div>
+            <div>  -  <code>Fashion</code></div>
+            <div>  -  <code>Food-Processing</code></div>
+            <div>  -  <code>Gas-Technology-and-Engineering</code></div>
+            <div>  -  <code>Geomatics</code></div>
+            <div>  -  <code>Health</code></div>
+            <div>  -  <code>Industrial-Engineer</code></div>
+            <div>  -  <code>Information-Technology</code></div>
+            <div>  -  <code>Interior-Architecture-and-Design</code></div>
+            <div>  -  <code>Law</code></div>
+            <div>  -  <code>Machine-Design-and-Manufacturing</code></div>
+            <div>  -  <code>Management</code></div>
+            <div>  -  <code>Maritime-Engineering</code></div>
+            <div>  -  <code>Marketing</code></div>
+            <div>  -  <code>Materials-Engineering</code></div>
+            <div>  -  <code>Mechanical-Engineering</code></div>
+            <div>  -  <code>Nondestructive-Testing</code></div>
+            <div>  -  <code>Patent</code></div>
+            <div>  -  <code>Political-Science-and-Sociology</code></div>
+            <div>  -  <code>Psychology</code></div>
+            <div>  -  <code>Public-Safety</code></div>
+            <div>  -  <code>Railway-and-Automotive-Engineering</code></div>
+            <div>  -  <code>Real-Estate</code></div>
+            <div>  -  <code>Refrigerating-Machinery</code></div>
+            <div>  -  <code>Social-Welfare</code></div>
+            <div>  -  <code>Taxation</code></div>
+            <div>  -  <code>Telecommunications-and-Wireless-Technology</code></div>
+            <div>  -  <code>Korean-History</code></div>
+            <div>  -  <code>Math</code></div>
+    </details>
+
 + **url**: [https://huggingface.co/datasets/HAERAE-HUB/KMMLU](https://huggingface.co/datasets/HAERAE-HUB/KMMLU)  
 + **paper**: [https://arxiv.org/pdf/2402.11548](https://arxiv.org/pdf/2402.11548)  
diff --git a/tasks/lambada/README.md b/tasks/lambada/README.md
@@ -1,5 +1,20 @@
-
 # lambada
+- 전체 문단을 봤을 때는 마지막 단어를 예측할 수 있지만, 오직 이전 문장만 봤을 땐 마지막 단어를 예측하기 어렵다는 것에 기반함
+    - 아래와 같이 각 문장만 보면 말이 되지만, 전체적인 맥락에선 오락가락 하는 모습임
+
+    ```json
+    {
+        "Human": "What is your job?",
+        "Machine": "I'm a lawyer.",
+        "Human": "What do you do?",
+        "Machine": "I'm a doctor."
+    }
+    ```
+
+- LAMBADA는 Context와 Target Sentence로 구성되며, Target Sentence의 마지막 단어를 맞추는 Task임
+- Bookcorpus에 기반한 데이터셋 사용
+    - bookcorpus의 소설 데이터를 많이 이용함
+---
 + **source**: huggingface
 + **hf_path**: EleutherAI/lambada_openai
 + **url**: [https://huggingface.co/datasets/EleutherAI/lambada_openai](https://huggingface.co/datasets/EleutherAI/lambada_openai)  

diff --git a/tasks/logiqa/README.md b/tasks/logiqa/README.md
@@ -1,5 +1,13 @@
-
 # logiqa
+- Logical Reasoning을 측정하기 위한 벤치마크
+- 중국 공무원 시험 문제를 기반으로 8678개의 데이터셋으로 구성
+- 5가지의 유형의 Reasoning을 측정함
+    - `Categorical Reasoning` : 해당 범주에 속하는지
+    - `Sufficient Condition Reasoning` : 전제가 충분 조건인지
+    - `Necessary Condition Reasoning` : 전제가 필요 조건인지
+    - `Disjunctive Condition Reasoning` : 전제가 A or B일 때, 하나라도 성립하면 참
+    - `Conjuctive Condition Reasoning` : 전제가 A and B일 때, 둘다 성립하면 참
+---
 + **source**: huggingface
 + **hf_path**: EleutherAI/logiqa
 + **url**: [https://huggingface.co/datasets/EleutherAI/logiqa](https://huggingface.co/datasets/EleutherAI/logiqa)  

diff --git a/tasks/math/README.md b/tasks/math/README.md
@@ -1,5 +1,8 @@
-
 # math
+- 고등학교 수학 경시대회 수준의 12500개의 문제로 구성됨
+- 모델이 Latex 코드로 generate한 결과 중`\boxed{}`로 태깅된 값을 Exact Match로 평가함
+- 난이도는 1 ~ 5까지 매겨지며, 기하학을 포함한 7개 과목으로 구성
+---
 + **source**: huggingface
 + **hf_path**: lighteval/MATH
 + **url**: [https://huggingface.co/datasets/lighteval/MATH](https://huggingface.co/datasets/lighteval/MATH)  

diff --git a/tasks/mbpp/README.md b/tasks/mbpp/README.md
@@ -1,6 +1,20 @@
-
 # mbpp
+- Mostly Basic Programming Problems
+- 구글에서 Programming 합성 문제를 측정하기 위한 2개의 벤치마크를 내놓음 - MBPP, MathQA-Python
+- MBPP는 974개의 프로그래밍 과제로, 입문자 수준의 프로그래머는 해결 가능한 수준
+    - 파이선 함수와 Text Description으로 구성됨
+    - 루프, 조건문 등을 주로 다룸  
+    <img src="assets/mbpp.png" width=360>
+- 크라우드 소싱 및 수정 작업으로 이루어져 있으며, 수정본은 `sanitized` 버전으로 426개의 셋으로 제공됨
+- HumanEval은 Docstring으로 프롬프트를 작성한 반면, MBPP는 자연어로 Description이 작성되어 있음
+---
 + **source**: huggingface
 + **hf_path**: google-research-datasets/mbpp
++ **hf_name**: 
+    <details>
+        <summary>Click</summary>
+            <div>  -  <code>sanitized</code></div>
+    </details>
+
 + **url**: [https://huggingface.co/datasets/google-research-datasets/mbpp](https://huggingface.co/datasets/google-research-datasets/mbpp)  
 + **paper**: [https://arxiv.org/pdf/2108.07732](https://arxiv.org/pdf/2108.07732)  
diff --git a/tasks/mbpp/assets/mbpp.png b/tasks/mbpp/assets/mbpp.png