NLP
-
Back TranslationNLP 2022. 2. 14. 11:46
1. Back Translation관련 함수 - 입력된 원문을 외부 제공 모듈을 이용한 목적언어로 번역했다가 원문언어로 번역 - 상기 작업을 목적언어를 바꿔가며 작업 => 직접 통제할 수 있는 번역모듈이 필요함. 2. 사용가능한 번역기 (1) API제공 서비스 ⓐ 네이버의 papago ⓑ 구글의 cloud-translation - API의 기본골격 : C/S구조, 정해진 서비스 사양 사전정의됨. (2) 공개 라이브러리 사용 ⓐ 카카오의 pororo - 4000건 한글 문장을 영어로 번역했다가 다시 한국어 번역 소요 시간, 4시간 30분 소요 ⓑ 네이버의 papago - 2019년 공개 이후 관리되지 않고 있슴. - 버전 0.1.1.1 - 질의응답 부실 ⓒ 구글의 translator - 메소드로 모듈사용하..
-
데이터 증강 작업NLP 2022. 2. 6. 23:58
1. data_augment_pororo_01 2. NLP_augmentation_using_translation 3. augmentation_haneul_yoo 4. 자연어처리(한글) 테디노트 ===================== 01. data_augment_pororo_01 (1) usage - available_tasks - available_models (2) 기계번역 예제 02. NLP_augmentation_using_translation (1) 함수 - augment() : 1개 역번역 작업 - augment_combination() : 복수의 역번역 작업 03. augmentation_haneul_yoo (1) readFiles( ) (2) writeFiles( ) (3) backTra..
-
[아이펠특강]데이터 증강-유재영NLP 2022. 2. 4. 10:25
Ⅰ. Introduction Ⅱ. Augmentation Method 1. Image (1) Library (2) Method (3) CutMix 2. Text (1) Back Translation (2) Injection (3) Replacement (4) EDA (5) EDA for Korean (6) HyperMix - EDA의 문제점 : 임의적 선택. 어텐션으로 극복 Ⅲ. PLM training Method 1. BERT vs. BART 2. BERT (1) Pre-training of Deep Bidirectional Transformers for Language Understanding (2) Pre-training method : MLM(Masked Language Model), NSP(Ne..
-
[김성범:DMQA]데이터 증식 기법NLP 2022. 1. 21. 11:33
1. Lexical Substitution (1) Thesaurus-based substitution (2) Word-Embeddings Substitution (3) Masked Language Model (4) TF-IDF based word replacement 2. Back Translation 3. Text Surface Transformation 4. Random Noise Injection (1) Spelling error injection (2) QWERTY Keyboard Error Injection (3) Unigram Noising (4) Blank Noising (5) Sentence Shuffling (6) Random Insertion (7) Random Swap (8) Rand..
-
[김성범]Data AugmentationNLP 2022. 1. 21. 08:28
[참고영상] https://www.youtube.com/watch?v=7fwxcCJsvPw&t=570s [14분 02초] 1. Thesaurus-based Substitution - Replace a random word with its synonym using a Thesaurus. - ex) It is awesome => amazing, awe-inspiring-awing => It is amazing. 2. Word Embedding-based Substitution - Use pre-trained word embeddings such as Word2Vec, GloVe, FastText, etc. - Find the nearest neighbor words and substitute. - ex) I..
-
[Attention] 6. Self-AttentionNLP 2022. 1. 18. 09:33
1. List of Attention Lectures - What is Attention? - Bottom-Up vs. Top-Down Attention - 1st Encounter with Arificial Neural Networks - Neural Machine Translation with Attention - Show, Attend and Tell(Soft vs. Hard Attention) 2. Typical way of calculating Attention (1) Take the query and each key (2) Compute the similarity between the two to obtain a weight - Similarity functions(dot product, sp..
-
NLP14 : BERT pretrained model 제작NLP 2022. 1. 6. 10:03
1. 들어가며 2. Tokenizer 준비 3. 데이터 전처리 (1) MASK 생성 (2) NSP pair 생성 (3) 데이터셋 완성 4. BERT 모델 구현 5. pretrain 진행 6. 프로젝트 : mini BERT 만들기 7. 프로젝트 제출 ============================== 1. 들어가며 2. Tokenizer 준비 - spm.SentencePieceTrainer.train() 3. 데이터 전처리 (1) MASK 생성 ⓐ mask_cnt ⓑ vocab_list ⓒ create_pretrain_mask( ) (2) NSP pair 생성 ⓐ max_num_tokens ⓑ trim_tokens( ) ⓒ create_pretrain_instances( ) (3) 데이터셋 완성 ⓐ m..