Skip to content

Commit

Permalink
fix: update README.md files
Browse files Browse the repository at this point in the history
  • Loading branch information
aiqwe committed Sep 30, 2024
1 parent 7cde95a commit 952f4cf
Show file tree
Hide file tree
Showing 36 changed files with 412 additions and 30 deletions.
11 changes: 10 additions & 1 deletion tasks/agi_eval/README.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,14 @@

# agi_eval
- 사람을 평가하는 표준적인 시험을 바탕으로 설계함
- 중국 대학 입학시험(가오카오)
- 미국 대학 입학시험(SAT)
- 로스쿨 입학시험(LSAT)
- 변호사 자격시험
- 수학경시대회
- 중국 국가 공무원 시험
- 20개의 Human-Centric Task로 구성됨
- 모델의 4가지 측면을 측정하는게 목적(이해, 지식, 추론, 계산)
---
+ **source**: huggingface
+ **hf_path**:
<details>
Expand Down
6 changes: 5 additions & 1 deletion tasks/arc/README.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,9 @@

# arc
- AI2 Reasoning Challenge
- SQuAD나 SNLI같이 보다 더 개선된, Reasoning을 테스트하기 위한 벤치마크
- Science 데이터셋으로 구성됨
- 난이도에 따라 `Challenge set``Easy set`으로 나뉜다
---
+ **source**: huggingface
+ **hf_path**: allenai/ai2_arc
+ **hf_name**:
Expand Down
10 changes: 9 additions & 1 deletion tasks/bigbench/README.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,13 @@

# bigbench
- Beyond the Imitation Game Benchmark
- 다량의 Task를 포함한 일종의 IQ 테스트
- 200개 이상의 Task를 포함하며, 각 Task의 키워드는 [여기를 참고](https://github.com/google/BIG-bench/blob/main/bigbench/benchmark_tasks/keywords_to_tasks.md)
- 언어학, 유아 발달, 수학, 상식 추론, 생물학, 물리학, 사회적 통념, 소프트웨어 개발 …
- 테스트량이 많기 때문에 24개의 Task로 구성된 경량화 버전인 BIGBench-Lite를 제공함
- 문제들은 `multiple_choice_targets`, `multiple_choice_scores`로 구분되어 정답을 선택할 시 1점을 얻게 됨
- 각 task 키워드마다 데이터셋 크기는 다양함
- 몇십개 ~ 백만개가 넘는 데이터셋으로 구성됨
---
+ **source**: huggingface
+ **hf_path**: google/bigbench
+ **hf_name**:
Expand Down
44 changes: 41 additions & 3 deletions tasks/bigbenchhard/README.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,43 @@

# bigbenchhard
+ **source**: github
+ **url**: [https://github.com/suzgunmirac/BIG-Bench-Hard](https://github.com/suzgunmirac/BIG-Bench-Hard)
- BIG-Bench의 200개 Task중, 모델이 Human Rater를 넘지 못한 Task 23개로 구성
- 23개의 Task 및 27개의 Sub-Task로 구성
- Few-shot을 사용했을 때, 모델들은 좋은 퍼포먼스를 보임
- Few-shot보다 더 좋은 프롬프트를 평가하기 위해 CoT Reasoning을 포함하여 구성
- [CoT Prompt](https://github.com/suzgunmirac/BIG-Bench-Hard/tree/main/cot-prompts)
---
+ **source**: huggingface
+ **hf_path**: maveriq/bigbenchhard
+ **hf_name**:
<details>
<summary>Click</summary>
<div> - <code>boolean_expressions</code></div>
<div> - <code>causal_judgement</code></div>
<div> - <code>date_understanding</code></div>
<div> - <code>disambiguation_qa</code></div>
<div> - <code>dyck_languages</code></div>
<div> - <code>formal_fallacies</code></div>
<div> - <code>geometric_shapes</code></div>
<div> - <code>hyperbaton</code></div>
<div> - <code>logical_deduction_five_objects</code></div>
<div> - <code>logical_deduction_seven_objects</code></div>
<div> - <code>logical_deduction_three_objects</code></div>
<div> - <code>movie_recommendation</code></div>
<div> - <code>multistep_arithmetic_two</code></div>
<div> - <code>navigate</code></div>
<div> - <code>object_counting</code></div>
<div> - <code>penguins_in_a_table</code></div>
<div> - <code>reasoning_about_colored_objects</code></div>
<div> - <code>ruin_names</code></div>
<div> - <code>salient_translation_error_detection</code></div>
<div> - <code>snarks</code></div>
<div> - <code>sports_understanding</code></div>
<div> - <code>temporal_sequences</code></div>
<div> - <code>tracking_shuffled_objects_five_objects</code></div>
<div> - <code>tracking_shuffled_objects_seven_objects</code></div>
<div> - <code>tracking_shuffled_objects_three_objects</code></div>
<div> - <code>web_of_lies</code></div>
<div> - <code>word_sorting</code></div>
</details>

+ **url**: [https://huggingface.co/datasets/maveriq/bigbenchhard](https://huggingface.co/datasets/maveriq/bigbenchhard)
+ **paper**: [https://arxiv.org/pdf/2210.09261](https://arxiv.org/pdf/2210.09261)
8 changes: 7 additions & 1 deletion tasks/boolq/README.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,11 @@

# boolq
- BoolQ는 Yes / No 문제셋
- 구글 검색엔진의 Query를 바탕으로 Question을 Naturally하게 생성함
- Question 작성자는 본인이 작성하는 Question이 Yes / No 형식인지 모름
- 자신이 작성하는 Question에 대한 Answer를 모르는 상태
- Question을 작성하고 관련된 문서를 Wikipedia에서 찾아서 추가함
- 모델에 Question과 Passage를 전달하여 Yes / No Output을 측정함
---
+ **source**: huggingface
+ **hf_path**: google/boolq
+ **url**: [https://huggingface.co/datasets/google/boolq](https://huggingface.co/datasets/google/boolq)
Expand Down
9 changes: 8 additions & 1 deletion tasks/commonsense_qa/README.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,12 @@

# commonsense_qa
- WSC와 같은 Common Sense용 벤치마크 들은 데이터가 너무 적음(CommonSenseQA 작업때까지만 해도 데이터들이 작았음)
- CONCEPTNET은 `(Concept1, Relation, Concept2)`의 그래프 형태를 가짐
- CommonSenseQA는 CONCEPTNET 데이터셋을 스케일링함
- 그래프들에서 유사한 개념들을 뽑아서 다지선택의 문제로 만듦
- Relation으로 연결된 Concept들을 1개의 Source, 3개의 Target으로 1개는 정답 2개는 오답인 컨셉으로 샘플링함
- 작업자들은 직접 오답을 1개 작성하고 CONCEPTNET에서 다시 1개의 오답을 추가하여 총 5지 선다형의 문제를 생성
<img src="assets/commonsense_qa.png" width=360>
---
+ **source**: huggingface
+ **hf_path**: tau/commonsense_qa
+ **url**: [https://huggingface.co/datasets/tau/commonsense_qa](https://huggingface.co/datasets/tau/commonsense_qa)
Expand Down
Binary file added tasks/commonsense_qa/assets/commonsense_qa.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
9 changes: 8 additions & 1 deletion tasks/drop/README.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,12 @@

# drop
- Discrete Reasoning Over the content of Paragraphs
- 데이터소스는 Wikipedia에서 단락을 추출하고, 크라우드 소싱을 통해 단락을 베이스로 하여 QA Pair를 생성
- 다양한 카테고리를 포함하지만, 특히 스포츠 게임, 역사 구절들을 강조함
- 답변은 3가지 타입
- `number` : 주로 스포츠 게임 요약 정보(스코어 등)
- `date` : 역사적 구절에서 날짜
- `span`: 단락의 텍스트 범위
---
+ **source**: huggingface
+ **hf_path**: ucinlp/drop
+ **url**: [https://huggingface.co/datasets/ucinlp/drop](https://huggingface.co/datasets/ucinlp/drop)
Expand Down
23 changes: 22 additions & 1 deletion tasks/glue/README.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,26 @@

# glue
- General Language Understanding Evaludation Benchmark
- 다양한 NLU 평가를 포함함
- 감정분석
- QA
- Textual Entailment
- 기존의 데이터셋을 기반으로 벤치마크를 만들었음
- Single Sentence
- `CoLA`: 언어 이론과 학술 논문에서 문법이 맞는지 주석으로 체크함
- `SST-2`: 사람들의 감정을 주석으로 달아놓은 영화 리뷰
- Similarity & Paraphrase : 문장의 유사도
- `MRPC`: 뉴스에서 가져온 문장들이 의미적으로 동일한지
- `QQP`: Quora에서 가져온 질문 Pair 데이터셋이 의미적으로 동일한지
- `STS-B`: 뉴스 헤드라인, 비디오 자막, NLI 데이터에서 가져온 문장들이 의미적으로 동일한지
- Inference : hypothesis가 Entailment / Neutral / Contradiction임을 구분
- `MNLI`
- `QNLI`: Wiki 기분 질문 데이터셋
- `RTE`: Textual Entailment Challenge에서 가져옴
- `WNLI`: WSC 기반 데이터셋
- qqp, mnli 등이 테스트셋이 많은 편이며, 보통 1만개 내외
- 데이터셋 및 Task별 Metric은 아래와 같음
<img src="assets/glue.png" width=360>
---
+ **source**: huggingface
+ **hf_path**: nyu-mll/glue
+ **hf_name**:
Expand Down
Binary file added tasks/glue/assets/glue.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
19 changes: 18 additions & 1 deletion tasks/gpqa/README.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,23 @@

# gpqa
- Graduate-Level Google-Proof Q&A benchmark
- 전문가들이 만든 생물학, 물리학, 화학 도메인의 448개의 데이터셋
- 전문가는 67%, 비전문가는 34%의 정답율을 보이는 극도로 난이도가 높은 벤치마크
- LLM이 인간 범주를 넘는다는 기반하에 사람도 풀기 어려운 벤치마크로 구성함
- 총 3개의 데이터셋 제공
- `GPQA Extended` : 데이터셋 풀버젼(564개)
- `GPQA` : 검수과정에서 전문가는 모두 틀리고, 비전문가는 모두 맞춘 데이터는 제거한 메인 데이터셋(448개)
- `GPQA Diamond` : 전문가는 모두 맞추고, 일반인은 모두 틀린 가장 질높은 데이터셋 (198개)
---
+ **source**: huggingface
+ **hf_path**: Idavidrein/gpqa
+ **hf_name**:
<details>
<summary>Click</summary>
<div> - <code>gpqa_extended</code></div>
<div> - <code>gpqa_main</code></div>
<div> - <code>gpqa_diamond</code></div>
<div> - <code>gpqa_experts</code></div>
</details>

+ **url**: [https://huggingface.co/datasets/Idavidrein/gpqa](https://huggingface.co/datasets/Idavidrein/gpqa)
+ **paper**: [https://arxiv.org/pdf/2311.12022](https://arxiv.org/pdf/2311.12022)
13 changes: 12 additions & 1 deletion tasks/gsm8k/README.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,17 @@

# gsm8k
- Multi Step Mathematical Reasoning 벤치마크
- 초등학교 수준의 수학 문제로, 8.5K 크기의 데이터셋으로 구성
- 수학적 기호를 자제하고 자연어로 구어체식 문답법으로 구성됨
- 모델이 Multi-Step Reasoning 중 잘못된 `generate`를 통해 잘못된 방향으로 나가는 것을 포착하기 위한 벤치마크임
---
+ **source**: huggingface
+ **hf_path**: openai/gsm8k
+ **hf_name**:
<details>
<summary>Click</summary>
<div> - <code>main</code></div>
<div> - <code>socratic</code></div>
</details>

+ **url**: [https://huggingface.co/datasets/openai/gsm8k](https://huggingface.co/datasets/openai/gsm8k)
+ **paper**: [https://arxiv.org/pdf/2110.14168](https://arxiv.org/pdf/2110.14168)
29 changes: 28 additions & 1 deletion tasks/haerae/README.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,33 @@

# haerae
- 수학, 논리 추론에 중점을 둔 기존 벤치마크와 달리, 한국어의 문화적 특성에 중점을 둠
- 한국어 도메인에 특화된 1500개의 질문셋으로 구성
- 6개의 서브카테고리 포함
- 외래어(LW)
- 표준명명법(SN)
- 회귀어(RW)
- 일반지식(GK) : 일반 상식은 전통, 법, k-pop, k-drama 등으로 구성
- 역사(HI)
- 독해력(RC)
---
+ **source**: huggingface
+ **hf_path**: HAERAE-HUB/HAE_RAE_BENCH_1.1
+ **hf_name**:
<details>
<summary>Click</summary>
<div> - <code>correct_definition_matching</code></div>
<div> - <code>csat_geo</code></div>
<div> - <code>csat_law</code></div>
<div> - <code>csat_socio</code></div>
<div> - <code>date_understanding</code></div>
<div> - <code>general_knowledge</code></div>
<div> - <code>history</code></div>
<div> - <code>loan_words</code></div>
<div> - <code>lyrics_denoising</code></div>
<div> - <code>proverbs_denoising</code></div>
<div> - <code>rare_words</code></div>
<div> - <code>standard_nomenclature</code></div>
<div> - <code>reading_comprehension</code></div>
</details>

+ **url**: [https://huggingface.co/datasets/HAERAE-HUB/HAE_RAE_BENCH_1.1](https://huggingface.co/datasets/HAERAE-HUB/HAE_RAE_BENCH_1.1)
+ **paper**: [https://arxiv.org/pdf/2309.02706](https://arxiv.org/pdf/2309.02706)
14 changes: 11 additions & 3 deletions tasks/hellaswag/README.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,13 @@

# hellaswag
+ **source**: github
+ **url**: [https://github.com/rowanz/hellaswag](https://github.com/rowanz/hellaswag)
- SWAG를 베이스로 하는 NLI 벤치마크
- HellaSWAG는 Input으로 문장이 들어오면, 다음에 발생할 상황을 고르는 문제
- SWAG는 비디오 자막이 주어지면 다음에 발생할 상황 4가지중 하나를 고르는 벤치마크
- 데이터셋은 ActivityNet과 WikiHow를 사용
- SWAG는 ActivityNet, LSMDC 데이터셋을 사용하지만 HellaSWAG는 ActivityNet만 사용
- WikiHow를 통해 CommonSense Reasoning을 측정
- Adversarial Filtering(AF)를 통해 좀더 그럴듯한 오답지를 생성하여 벤치마크 난이도를 올림
---
+ **source**: huggingface
+ **hf_path**: Rowan/hellaswag
+ **url**: [https://huggingface.co/datasets/Rowan/hellaswag](https://huggingface.co/datasets/Rowan/hellaswag)
+ **paper**: [https://arxiv.org/pdf/1905.07830](https://arxiv.org/pdf/1905.07830)
6 changes: 5 additions & 1 deletion tasks/human_eval/README.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,9 @@

# human_eval
- Codex 모델의 벤치마크로 사용
- 사람이 수기로 작성한 164개의 질문셋
- Docstring이 주어졌을 때, 함수를 생성할 수 있는지 평가하며, 평가는 Unit-Test를 통해 자동화됨
- 언어 이해, 간단한 수학, 알고리즘, 소프트웨어 인터뷰 등의 문제들로 구성됨
---
+ **source**: huggingface
+ **hf_path**: openai/openai_humaneval
+ **url**: [https://huggingface.co/datasets/openai/openai_humaneval](https://huggingface.co/datasets/openai/openai_humaneval)
Expand Down
56 changes: 55 additions & 1 deletion tasks/kmmlu/README.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,60 @@

# kmmlu
- 인문학, STEM, 응용과학에 이르는 45개 Task의 한국어 MCQA 벤치마크
- 기계번역은 부자연스러워서 데이터셋의 질을 떨어뜨림
- 또한, MMLU 등의 영어권 벤치마크는 문화적 차이가 있음(미국 불문법 vs 한국 성문법)
- 공무원시험, 한국 자격시험, 수능 등에서 발췌함
---
+ **source**: huggingface
+ **hf_path**: HAERAE-HUB/KMMLU
+ **hf_name**:
<details>
<summary>Click</summary>
<div> - <code>Accounting</code></div>
<div> - <code>Agricultural-Sciences</code></div>
<div> - <code>Aviation-Engineering-and-Maintenance</code></div>
<div> - <code>Biology</code></div>
<div> - <code>Chemical-Engineering</code></div>
<div> - <code>Chemistry</code></div>
<div> - <code>Civil-Engineering</code></div>
<div> - <code>Computer-Science</code></div>
<div> - <code>Construction</code></div>
<div> - <code>Criminal-Law</code></div>
<div> - <code>Ecology</code></div>
<div> - <code>Economics</code></div>
<div> - <code>Education</code></div>
<div> - <code>Electrical-Engineering</code></div>
<div> - <code>Electronics-Engineering</code></div>
<div> - <code>Energy-Management</code></div>
<div> - <code>Environmental-Science</code></div>
<div> - <code>Fashion</code></div>
<div> - <code>Food-Processing</code></div>
<div> - <code>Gas-Technology-and-Engineering</code></div>
<div> - <code>Geomatics</code></div>
<div> - <code>Health</code></div>
<div> - <code>Industrial-Engineer</code></div>
<div> - <code>Information-Technology</code></div>
<div> - <code>Interior-Architecture-and-Design</code></div>
<div> - <code>Law</code></div>
<div> - <code>Machine-Design-and-Manufacturing</code></div>
<div> - <code>Management</code></div>
<div> - <code>Maritime-Engineering</code></div>
<div> - <code>Marketing</code></div>
<div> - <code>Materials-Engineering</code></div>
<div> - <code>Mechanical-Engineering</code></div>
<div> - <code>Nondestructive-Testing</code></div>
<div> - <code>Patent</code></div>
<div> - <code>Political-Science-and-Sociology</code></div>
<div> - <code>Psychology</code></div>
<div> - <code>Public-Safety</code></div>
<div> - <code>Railway-and-Automotive-Engineering</code></div>
<div> - <code>Real-Estate</code></div>
<div> - <code>Refrigerating-Machinery</code></div>
<div> - <code>Social-Welfare</code></div>
<div> - <code>Taxation</code></div>
<div> - <code>Telecommunications-and-Wireless-Technology</code></div>
<div> - <code>Korean-History</code></div>
<div> - <code>Math</code></div>
</details>

+ **url**: [https://huggingface.co/datasets/HAERAE-HUB/KMMLU](https://huggingface.co/datasets/HAERAE-HUB/KMMLU)
+ **paper**: [https://arxiv.org/pdf/2402.11548](https://arxiv.org/pdf/2402.11548)
17 changes: 16 additions & 1 deletion tasks/lambada/README.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,20 @@

# lambada
- 전체 문단을 봤을 때는 마지막 단어를 예측할 수 있지만, 오직 이전 문장만 봤을 땐 마지막 단어를 예측하기 어렵다는 것에 기반함
- 아래와 같이 각 문장만 보면 말이 되지만, 전체적인 맥락에선 오락가락 하는 모습임

```json
{
"Human": "What is your job?",
"Machine": "I'm a lawyer.",
"Human": "What do you do?",
"Machine": "I'm a doctor."
}
```

- LAMBADA는 Context와 Target Sentence로 구성되며, Target Sentence의 마지막 단어를 맞추는 Task임
- Bookcorpus에 기반한 데이터셋 사용
- bookcorpus의 소설 데이터를 많이 이용함
---
+ **source**: huggingface
+ **hf_path**: EleutherAI/lambada_openai
+ **url**: [https://huggingface.co/datasets/EleutherAI/lambada_openai](https://huggingface.co/datasets/EleutherAI/lambada_openai)
Expand Down
10 changes: 9 additions & 1 deletion tasks/logiqa/README.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,13 @@

# logiqa
- Logical Reasoning을 측정하기 위한 벤치마크
- 중국 공무원 시험 문제를 기반으로 8678개의 데이터셋으로 구성
- 5가지의 유형의 Reasoning을 측정함
- `Categorical Reasoning` : 해당 범주에 속하는지
- `Sufficient Condition Reasoning` : 전제가 충분 조건인지
- `Necessary Condition Reasoning` : 전제가 필요 조건인지
- `Disjunctive Condition Reasoning` : 전제가 A or B일 때, 하나라도 성립하면 참
- `Conjuctive Condition Reasoning` : 전제가 A and B일 때, 둘다 성립하면 참
---
+ **source**: huggingface
+ **hf_path**: EleutherAI/logiqa
+ **url**: [https://huggingface.co/datasets/EleutherAI/logiqa](https://huggingface.co/datasets/EleutherAI/logiqa)
Expand Down
5 changes: 4 additions & 1 deletion tasks/math/README.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,8 @@

# math
- 고등학교 수학 경시대회 수준의 12500개의 문제로 구성됨
- 모델이 Latex 코드로 generate한 결과 중`\boxed{}`로 태깅된 값을 Exact Match로 평가함
- 난이도는 1 ~ 5까지 매겨지며, 기하학을 포함한 7개 과목으로 구성
---
+ **source**: huggingface
+ **hf_path**: lighteval/MATH
+ **url**: [https://huggingface.co/datasets/lighteval/MATH](https://huggingface.co/datasets/lighteval/MATH)
Expand Down
16 changes: 15 additions & 1 deletion tasks/mbpp/README.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,20 @@

# mbpp
- Mostly Basic Programming Problems
- 구글에서 Programming 합성 문제를 측정하기 위한 2개의 벤치마크를 내놓음 - MBPP, MathQA-Python
- MBPP는 974개의 프로그래밍 과제로, 입문자 수준의 프로그래머는 해결 가능한 수준
- 파이선 함수와 Text Description으로 구성됨
- 루프, 조건문 등을 주로 다룸
<img src="assets/mbpp.png" width=360>
- 크라우드 소싱 및 수정 작업으로 이루어져 있으며, 수정본은 `sanitized` 버전으로 426개의 셋으로 제공됨
- HumanEval은 Docstring으로 프롬프트를 작성한 반면, MBPP는 자연어로 Description이 작성되어 있음
---
+ **source**: huggingface
+ **hf_path**: google-research-datasets/mbpp
+ **hf_name**:
<details>
<summary>Click</summary>
<div> - <code>sanitized</code></div>
</details>

+ **url**: [https://huggingface.co/datasets/google-research-datasets/mbpp](https://huggingface.co/datasets/google-research-datasets/mbpp)
+ **paper**: [https://arxiv.org/pdf/2108.07732](https://arxiv.org/pdf/2108.07732)
Binary file added tasks/mbpp/assets/mbpp.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading

0 comments on commit 952f4cf

Please sign in to comment.