ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [아이펠특강]데이터 증강-유재영
    NLP 2022. 2. 4. 10:25

     

    220129_AIFFEL_데이터증강_v3.pdf
    1.46MB

    Ⅰ. Introduction

    Ⅱ. Augmentation Method

    1. Image

    (1) Library

    (2) Method

    (3) CutMix

    2. Text

    (1) Back Translation

    (2) Injection

    (3) Replacement

    (4) EDA

    (5) EDA for Korean

    (6) HyperMix

    - EDA의 문제점 : 임의적 선택. 어텐션으로 극복

    Ⅲ. PLM training Method

    1. BERT vs. BART

    2. BERT

    (1) Pre-training of Deep Bidirectional Transformers for Language Understanding

    (2) Pre-training method : MLM(Masked Language Model), NSP(Next Sentence Prediction)

    3. BART

    (1) Denoising Seq2Seq Pre-training for Natural Language Generation, Translation, and Comprehension

    (2) Pre-training method : Token Masking, Token Deletion, Text Infilling, Sentence Permutation, Document Rotation

    Ⅳ. Practical Augmentation

    1. Relation Extraction

    2. Machine Reading Comprehension

    3. Algorithm

    Ⅴ. Caution

    ===================================

     

    Ⅰ. Introduction

     

     

    Ⅱ. Augmentation Method

    1. Image

    (1) Library

     

    (2) Method

     

    (3) CutMix

     

     

    2. Text

    (1) Back Translation

     

    (2) Injection

     

    (3) Replacement

     

    (4) EDA

    - Easy Augmentation Techniques for Boosting Performance on Text Classification Tasks

    - SR : 문장에서 랜덤으로 stop ward가 아닌 n개의 단어들을 선택해 임의로 선택한 동의어들 중 하나로 변경

    - RI : 문장에서 선택한 단어의 동의어를 임의로 정해 문장 내 임의의 자리에 넣는 것을 n번 반복

    - RS : 무작위로 문장 내에서 두 단어를 선택하고 위치를 변경하는 것을 n번 반복

    - RD : 확률 p를 통해 문장 내에 있는 각 단어들을 랜덤하게 삭제

     

    (5) EDA for Korean

     

    (6) HyperMix

    - EDA의 문제점 : 임의적 선택. 어텐션으로 극복

    - pretrain된 사전학습 모델을 가져다가 풀버전을 미세조정(finetuning을 해서 문제를 푸는 전이학습 방식이 정착

    - 한국어판 GPT3로 불리는 HyperMix

    - GPT3 base model 파라미터가 1억개, HyperMix는 2천억 개 넘는다. 

      그래서 파인튜닝하는 것도 computing resource가 많이 필요하고, 일반인이 감당할 수 없음

    - prompt templat을 수행하는 데 그것마저도 많은 자원을 필요로 한다.

      prompt 하려면 prompt templat이 필요하다. 

      prompt templat라는 것은 초거대 언어모델을 사용해서 원하는 task를 풀기 위해 입력 text에다가 

                                  덧붙여주는 텍스트 양식이다.

     

    Ⅲ. PLM training Method

    1. BERT vs. BART

     

    2. BERT

    - 전이학습이 컴퓨터비전분야에서 일반화되고 있다.

      제로베이스에서 학습하는 것보다, 이미 학습되어 기본적인 정보를 가지고 있어 좋은 성능을 보임.

    - NLP분야에도 접목한 것이 PLM이다. 이미 학습된 모델을 사용하기 때문에 적은 에폭에도 높은 성과를 보인다.

    (1) Pre-training of Deep Bidirectional Transformers for Language Understanding

     

    (2) Pre-training method : MLM(Masked Language Model), NSP(Next Sentence Prediction)

     

    - MLM : 문장 속에 단어를 마스크해놓고 그 부분을 예측

        => 전체 토큰의 15%를 임의로 선택하여 선택된 것의 80%는 마스킹하고, 10% 다른 token으로 대체

             나머지 10%는 그대로 둔다.

        => 마스킹 한 자리에 어떤 단어가 올 수 있는지 예측하면서 학습.

    - NSP : SEP라는 특별 토큰을 이용하여 문장의 순서를 판단

     

    3. BART

    (1) Denoising Seq2Seq Pre-training for Natural Language Generation, Translation, and Comprehension

     

    (2) Pre-training method : Token Masking, Token Deletion, Text Infilling, Sentence Permutation, Document Rotation

    - token masking : masking

    - token deletion : masking않고 삭제

    - text infilling : 특정 길이의 마스크, 문장 중간에 가림. 얼마나 많은 토근이 유실되었는지 판단

    - sentence permutation : 마침표를 기준으로 문장을 심어준다.

    - document rotation : 임의로 토큰을 선택하고 document를 토큰으로 시작하여 업데이트하는 방법.

                                 문장의 시작이 어디인지 학습

     

    Ⅳ. Practical Augmentation

    1. Relation Extraction

    - 관계추출은 문장에서 나타난 개체명 쌍(entity pair)의 관계(relation)을 판별하는 작업

     

    2. Machine Reading Comprehension

    - 기계독해는 모델이 스스로 주어진 문제를 읽은 후 분석하고 이해하여 질문에 대한 답을 찾는 작업

     

    3. Algorithm

     

    Ⅴ. Caution

     

     

     

    'NLP' 카테고리의 다른 글

    데이터 증강 작업  (0) 2022.02.06
    JSON  (0) 2022.02.06
    [김성범:DMQA]데이터 증식 기법  (0) 2022.01.21
    [김성범]Data Augmentation  (0) 2022.01.21
    [Attention] 6. Self-Attention  (0) 2022.01.18
Designed by Tistory.