KoNLP http://konlpy.org/ko/v0.4.4/references/#corpora

코퍼스(corpus)란? (Corpusとは?) ‘코퍼스’(corpus)란 , 언어를 연구하는 각분야에서 필요로 하는 연구 재료로서, 언어의 본질적 모습을 총체적으로 드려내 보여 줄 수 있는 자료의 집합을 뜻한다(국어정보학 입문, 서상규 한영균저). 한국어로는 말뭉치 또는 말모둠으로 번역하는데, 그 정의는 사람에 따라 다르나 대략 다음과 같은 의미로 쓰이고 있다. ○ 대규모 언어 데이터베이스 ○ 인간의 음성언어(문어, 구어)를 대용량 컴퓨터에 저장하고 이를 필요에 따라 가공하여 언어 연구에사용하는 것 ○ 컴퓨터가 판독할 수 있는 형태(Mashine-readable form)로 저장된 자연어의 용례들과 이들 용례에 대한 부속정보 (additional information) 코퍼스의 개념은 20세기 전반기 미국의 구조주의 언어학에서 이미 제시되었으나 컴퓨터에 의하여 대규모 코퍼스가 구축된 것은 1963년에 완성된 브라운코퍼스(100 어절)가 처음이다. 1990년 이후 1억 어절 이상의 대규모 코퍼스(British National Corpus)가 구축되었고, 국내에서도 연세대(1988),고려대, 카이스트, 국립국어연구원에서 한국어코퍼스를 구축하고 있다. 1998년부터 시작된‘21세기 세종계획’이 완성되면 한국은 세계적 규모의 국가 코퍼스를 가지게 된다.

코퍼스의 종류(コーパスの種類)

  1. 가공 여부에 따른 분류 a. 원시코퍼스((raw corpus) : 텍스트를 컴퓨터 可讀形 자료로 만들어 데이터
    베이스화 한 것으로 예를들면 CD-ROM한국현대문학100년(문학사상사, 1999년)년이나 新潮小說100卷(新潮社, 1995년), 夏目漱石小說全集데이터, CD-ROM版朝日新聞 등이 이에 해당한다. b. 가공된 코퍼스(tagged corpus) : 수집된 텍스트 데이터베이스를 형태소 분석이나 어휘별 분류, 품사정보, 문헌별, 章·節별분류, 내용별 분류가 가능하도록 인공적으로 가공한 것으로 코퍼스를 언어의 연구에 사용하기 편리하도록 가공한 것이다. 언어 연구에 사용하기에는 가공 코퍼스가 더 유익하다.

  2. 작성 방법에 따른 분류 a. 샘플 코퍼스와 모니터코퍼스: 텍스트를 일정량만 수집한 코퍼스를 sample corpus라 하며 Broun Corpus(100만)와 LOB Corpus(100만)등이 이에 속한다. 이에 대하여 늘 변화하는 언어의 실태를 추적하기 위하여 낡은 자료를 제외하고 늘 새로운 언어정보를 수집 증보하여 최신 언어정보를 데이터베이스화 한 것을 monitor corpus라 한다. 모니터 코퍼스로는 Bank of English등이 대표적이다. b. 汎用코퍼스와 특수목적 코퍼스 : 여러 가지 연구를 상정하여 종합적으로 작성된 코퍼스를 汎用코퍼스라 하며 이에 대하여 특정 언어만을 연구하기 위하여 만들어진 코퍼스를 특수목적코퍼스라 한다. 예를들면 의료종사자이 사용하는 영어를 조사하기 위한 것이나 특정 연령층의 언어를 조사하기 위한 코퍼스가 특수목적 코퍼스에 해당되며, 21세기세종계획에서 작성하는 코퍼스는 汎用코퍼스이다. c. 共時코퍼스와 通時코퍼스 : 채취 샘플을 共時資料를 대상으로 하는가 通時資料를 대상으로 하였는가에 따라 이와 같이 나눈다. Broun Corpus(100만)와 LOB Corpus(100만)등은 共時코퍼스에 속하며 Helsinki Corpus(750∼1710년까지 자료 수록)와 ARCHER(1650∼1990년 자료 수록)는 通時코퍼스에 속한다. d. 文字言語 코퍼스와 音聲言語코퍼스 :언어 매체에 따라 문자언어에서 샘플을 채록하였는가, 음성언어를 문자화하여 채록하였는가에 따라 이렇게 분류한다. e. 竝列코퍼스(parallel corpus): 같은 내용을 두 개국어 이상 병렬시켜 만든 코퍼스이다. 예를 들면 일본 소설의 원본과 한국어 번역본의 데이터를 가지고 코퍼스를 만들면 한일 소설어의 병렬코퍼스가 될 것이다.

병렬코퍼스란?(並列コーパスとは?)

병렬 코퍼스(parallel corpus)란 동일 내용의 복수 언어 말뭉치로서, 예를 들면 한국어 원문과 일본어 번역문(그 반대 방향도 可)을 文(Sentence) 단위로 대응시켜 데이터베이스를 만든 것을 말한다. 병렬코퍼스는 데이터 자체가 복수 언어를 대상으로 만들기 때문에 언어의 대조 연구나 기계번역, 대역 사전구축, 언어 교육(작문 교육, 회화 교육) 등에 유용하게 사용될 수 있다. 한일병렬코퍼스의 구축 대상은 현대 한국어와 일본어이며, 文(sentence) 단위로 정렬한 병렬 텍스트로 구성되어 있다. 구축 대상 자료는 현대 한일어의 다양성을 반영하는 여러 장르의 자료를 대상으로 하나 현재는 신문 자료가 중심이 되어 있다 앞으로 생활문, 수필, 소설, 뉴스, 구어자료 등을 대상으로 데이터베이스를 구축할 예정이다.

연구의 필요성(研究の必要性 )

나라와 나라 간의 교류를 원활하게 하는 하기 위해서는 언어 문제가 해결되어야 하며 이 때문에 상대국의 언어를 효과적으로 연구, 교육하는 것은 국가 경쟁력을 높일 수 있는 주요 수단이 된다. 선진 각국에서는 이러한 점을 미리 깨닫고 자국어를 바탕으로 하여 상대국의 언어 정보를 대규모로 수집, 데이터베이스화 하여 여러 가지 용도로 활용하고 있는데 이러한 노력의 하나가 대규모 병렬코퍼스 구축이다. 병렬코퍼스는 언어간의 효율적인 정보 소통을 위한 통역, 번역 등의 실용적인 측면뿐만 아니라 언어간의 상이한 특징을 비교하는 언어의 대조 분석 연구라는 학문적인 측면에서도 중요한 역할을 한다. 서구 선진국가들(특히 유럽의 국가들)에서는 병렬 말뭉치의 중요성을 인식하여 자국어와 세계 공용어인 영어를 대상으로 병렬코퍼스를 구축하는 프로젝트를 활발하게 진행하고 있으며 중국에서도 중일/일중 병렬코퍼스를 구축하여 학계에 연구 자료를 제공하고 있다. 오늘날과 같이 인적 물적 교류가 빈번한 시대에는 상대국 언어에 대한 이해와 번역 및 통역의 중요성이 강조되며 상대 언어를 모르는 사람에게는 기계 번역도 필요하다. 그밖에 상대국 언어의 교육과 연구, 사전 편찬 등 언어공학적 요소가 필요한 분야에서 상대적으로 경쟁력을 높이기 위해서는 둘 이상의 언어를 병렬적으로 대응시켜 구성한 병렬(대역)코퍼스가 필수적이다.

한국의 코퍼스 구축 상황(韓国のコーパス作り事情 ) 출발은 비교적 늦었으나 여러 기관에서 의욕적으로 한국어 코퍼스를 구축하고 있으며 21세기 세종계획이 완결되면 세계 최대급 규모의 코퍼스(3억 어절)를 보유하게 될것으로 보인다. 주요 코퍼스는 다음과 같다. (1) 21세기세종계획 : 21세기 세종계획은 우리 나라의 선진 정보문화를 자주적으로 구현할 수 있는 국어정보화 중장기 발전계획의 수립을 그 목적으로 1998년 국립국어연구원이 중심이되어 출발하였다. 1998년부터 10년간(1998-2007) 단계으로 3억 어절의 코퍼스를 구축할 예정이다. 자세한 것은 다음 홈페이지 를 참조할 것. http://www.sejong.or.kr/ (2) 고려대 한국어코퍼스 : 민족문화연구원 - 전자텍스트 연구소 연세대한국어코퍼스언어정보개발 연구원 - 한국어사전편찬실 (3) KAIST한국어코퍼스:
KAIST 국어정보베이스KAIST 국어정보베이스 용례 검색 전문용어 언어공학 연구센터 출처 : http://trankj.pe.kr/corpus_is.htm

출처: http://transwriting.tistory.com/20 [번역의 바다]

+ Recent posts