2015-03-05 한글 텍스트 마이닝 MALLET 

The Programming Historian
 
cmd 창에서 환경변수 설정 끝내고 명령어 입력해서 텍스트 마이닝 돌리는 절차.
 
Importing data
bin\mallet import-dir --input pathway\to\the\directory\with\the\files --output tutorial.mallet --keep-sequence --remove-stopwords
 
Your first topic model
bin\mallet train-topics  --input tutorial.mallet
 
 
한국어로 LDA(Latent Dirichlet Allocation) 돌리기
 최근 데이터마이닝(data mining)분야에서 매우 핫한 키워드가 있다.
Latent Dirichlet Allocation 혹은 그냥 LDA로 불리우는 알고리즘이다.
기존의 LSI와 비슷한 용도로 사용되는 알고리즘인데, 특정 문서 혹은 문서집합들에서 주제를 추출하는데 활용된다.
 
알고리즘에 대한 개념적인 설명과 활용방법은 다른 블로거가 LDA 겉핥기LDA실습 이라는 글에 잘 정리되어 있다.
 
따라서 여기서는 어떻게 LDA를 돌려보거나, 혹은 활용할 수 있는지에 대해 설명하려한다.
물론 데이터마이닝 전공자들은 많은 시간을 들여 LDA에 대해 공부하고, 라이브러리를 찾아서 부딛혀 볼 수 있고, 정 안되면 논문을 보고 직접 알고리즘을 구현해 볼 수 있을 것이다.
하지만, 타 분야에서 이를 단지 활용해보고 싶거나, 어떤 알고리즘인지 일단 돌려보고 싶은 사람들에겐 이건 너무 가혹하다..  왜냐면 많은 텍스트 마아닝 라이브러리는 어렵고, 배워야할 것들이 매우 많다.
 
LDA에 대한 소개는 위의 링크들에서 잘 설명되고 있으니 알고리즘에 대한 설명은 건너뛰고, LDA를 블랙박스시스템으로 놓고서 설명하면
이 블랙박스 시스템의
입력은 텍스트 문서의 집합이고
출력은 모델링된 토픽들의 집합이다.
 
기존의 벡터 스페이스 모델과 달리 LSI LDA에서는 각각의 문서들이 여럿의 토픽, 즉 주제들과 연관지어질 수 있고, 문서에 등장하는 단어들은 그 토픽들을 이루기 위한 요소들로 여긴다. , 문서에 사용된 단어들이 토픽을 구성하고, 토픽이 합쳐져서 문서를 구성하는 형태로 문서를 가정, 혹은 모델링 하고 있다. LDA는 단어들간의 문서내에서의 동시등장(co-occurrence) 빈도를 확률화하여 이로부터 숨겨진 토픽들을 도출하는 역할을 한다.
LDA의 출력 값은 아래와 같은 알흠다운 그림을 그릴 수 있게 해주는데, 아래의그림은 LDA(정확히는 L-LDA)를 활용해 특정 트위터 타임라인의 주제를 도출한 그림이다.

[출처: Characterizing Microblogs with Topic Models by Daniel Ramage, Susan Dumais, and Dan Liebling, May 2010, In Proc. ICWSM 2010]
 
이제 본격적으로 LDA를 돌려보기 위해서는 블랙박스시스템역할을 해줄 LDA 라이브러리와 분석할 대상 데이터가 필요한다.
 
LDA라이브러리는 java 기반으로 만들어진 MALLET 을 썼는데,
첫째로는, 국내 연구자들이 많이 사용하는 java를 기반으로 구현되었으며,
둘째로는, Eclipse에서 라이브러리 형태로 가져다 쓰기 용이하고,
마지막으로는 텍스트 인코딩에 UTF-8을 기본으로 쓰고 있어서, 한국어 처리에 문제가 없다는 매우 큰 장점을 가진다.
 
분석대상 될 입력데이터는 MALLET역시 한글에 대한 분석을 지원하지 않으므로, 전처리를 필요로 한다. 전처리를 위해서는 국민대의 한국어 형태소 분석 라이브러리인 HAM을 활용할 수 있다.
 
생각보다 내용이 길어져 MALLET의 구동과 HAM을 통한 데이터 전처리 과정은 다음 글에서 이어가야겠다.
 
 
 
 
한국어로 LDA(Latent Dirichlet Allocation) 돌리기 2
이전 포스트에서 다루었던 LDA로 한글을 돌리는 방법에 대해 보다 상세한 사항들을 정리하려 한다. 이전 포스트라지만.. 사실 두달전에 썼던 글을 이제서야 업데이트 한다. ㅎㅎ
 
1. Mallet eclipse에서 활용하기. 
먼저 Mallet을 사용하기 위해 패키지를 다운받는다. 현재 내가 사용해본 버전은 2.0.7이고 Mallet 다운로드페이지에서 최신버전을 제공한다. 
앞에서 언급한대로 Mallet eclipse에서 활용하기 편리한데, 먼저 압축을 해제하고(해제된 folder를 앞으로는 MALLET_HOME 으로 쓰겠다.) 
eclipse에서 새로운 프로젝트를 생성한 후 Project Property 페이지에서 Mallet활용을 위한 jar 파일들을 link시켜주어야 한다. 
[Mallet관련 jar파일들을 추가한 화면]
위의 그림처럼 mallet을 쓰기위해서는 두개의 jar파일을 link시켜야 하는데, mallet.jar mallet-deps.jar 파일은 MALLET_HOME/dist에 존재한다. 
jar와 관련된 설정을 마치고, 간단한 test를 해볼 수 있는데, mallet library는 친절하게도 example파일들을 MALLET_HOME/src/cc/mallet/examples의 위치에 포함하고 있다.
 이 포스트에서는 LDA를 활용하는 방법에 대해 적고 있으므로, examples폴더에 LDA.java 라는 example파일이 있으면 좋겠지만, Mallet에서는 LDA LDI라는 명칭을 class이름으로 쓰고 있지는 않다. 하지만 TopicModel이라는 클래스가 LDA 알고리즘을 구현한 것이라는 소개를 Mallet 페이지 어딘가에서 찾을 수 있다. 따라서 TopicModel.java를 통해서 LDA를 테스트해 볼 수 있다. 
2. Example(TopicModel.java) 실행하기 
TopicModel 클래스 파일에는 text기반의 데이터 파일을 읽는 과정과 LDA를 실행시키는 과정, 그리고 LDA의 실행결과를 콘솔에 출력하는 코드가 포함되어 있다. 
따라서 LDA실행을 위해서는 TopicModel 클래스 파일만 실행시키면 되는데, 코드를 간단히 살펴보면 알 수 있듯이, 해당파일은 입력 데이터 파일의 위치를 args로 입력받는다.  eclipse에서는 Run Configurations에 들어가서 Arguments패널에서 데이터 파일의 위치를 설정해주어야 한다. 
Mallet이 받는 데이터 파일의 구조는 3가지이고데이터 import 페이지에 설명되어 있다. 
간단하게 정리하면 
1. One instance per file은 각 text파일 마다 하나의 문서의 내용이 들어있는 형태, 폴더주소를 입력데이터의 path로 받음 
2. One file, one instance per line은 하나의 text파일에 한줄당 한 문서의 내용들이 들어가 있는 형태, 하나의 파일명을 입력 데이터 path로 받음
3. SVMLight format은  SVM 형태의 데이터를 입력으로 받음. 
2번째 파일 형식은 데이터 import 페이지에 설명되어 있드시, 
[URL] [language] [text of the page...]의 형태로 작성되어야 한다. 
여기서 URL은 문서를 지칭하는 고유의 값이어야하고, language mallet자체에 내장된 stopword list를 활용한다던지 하는 이유로 설정하여 활용할 수  있겠지만, 일단은 X로 두는걸로 한다. text of the page에 문서의 텍스트가 들어가게 된다. 
위의 형식으로 작성된 입력데이터 sample 파일과 결과는 아래의 파일로 첨부한다. 
첨부1: mallet site어딘가에서 얻는 2번째 파일 형식의 데이터, 정확한 소스가 기억안남
첨부2: 첨부 1을 넣어서 돌린 LDA의 결과, 꽤 나이스 하다
3. 한국어로 Mallet실행시키기
한국어로 mallet을 실행시키는 방법은 위의 예제처럼 간단하지 않은데 그 이유는 한국어와 영어에는 중요한 차이가 있기 때문이다. 
예를 들어 문서 A I live in South Korea라는 문장을 포함하고 있을때 우리는 꽤나 간단하게 space를 separator활용해서 이 문장의 키워드를 꺼낼 수 있다. I in 을 불용어 처리하면 live, South, Korea가 키워드가 될텐데, 이 키워드들은 대소문자 문제와 단/복수 정도의 케이스만을 제외하면 다른 문장에서 얻을 수 있는 키워드들의 비교가 용이하다.
하지만 한국어 문서를 예로들어보면, '나는 남한에 산다.' 라는 문장은 '나는', '남한에', '산다'로 분리된다. 이 단어들은 다른 문장에서 나올 같은 의미의 키워드들과 비교되기 힘들기 때문에 키워드로 활용하기에 적합한 형태가 아니다. '나는' '' ''으로, '남한에' '남한' ''로 분리하고, '산다'가 동사의 원형인지를 확인한 후 '' '남한' '산다'를 키워드로서 사용할 수 있게된다. 
위의 설명은 대략적인 설명이고 보다 자세한 한국어/영어의 언어처리방법의 차이점은 다른 많은 곳에서 찾을 수 있을 것이다. 
Mallet은 당연히 이러한 한국어 처리 과정을 지원하지 않는다. Mallet을 활용한 한국어 처리를 위해서는 이러한 한국어에 대한 전처리 과정을 수행한 후에 Mallet의 입력데이터로 제공해야 한다. 
나는 잘 알려진 국민대의 한국어형태소 분석기 HAM을 활용하여 문서에서 명사만을 걸러낸후에 Mallet의 입력으로 제공하였다. 상당히 일반적이지 않은 목적으로 테스트를 해본거라서 테스트했던 입력데이터는 크게 도움이 되지 않을 것 같아서 입력파일의 샘플만을 간단히 소개하면 아래와 같다. 
AP881218-1 X  거침 사마귀유치원 도지사 음성 기억 좌천  
AP881218-2 X  시원한프로 뉴스 거침 사마귀유치원 도지사 음성 기억 좌천 
AP881218-3 X  사마귀유치원 도지사 음성 기억 좌천 시청자 통쾌 
한국어 데이터로 LDA를 실행하기 위한 입력데이터의 준비과정을 다시 한번 설명하면.. 
1) 분석 한국어 문서들을 HAM과 같은 형태소 분석기에 돌린다. 
2) 형태소 분석기에 의해 분석된 형태소 중, LDA에서 topic추출을 위해 활용한 형태소들을 선택한다. 명사들만 활용하거나, 명사+동사, 명사+동사+부사 정도의 선택이 있을듯 하다. 
3) 각 문서와 형태소 분석기의 결과를 하나의 mallet입력파일로 변환한다. 
이렇게 정리될 수 있고, 한국어 입력데이터가 준비되면 다시 2번으로 돌아가서 sample데이터 대신 새롭게 만들어진 데이터파일을 argument로 주고 실행시키면 문제없이 구동이 가능한다.  
참고. 
HAM c기반이어서 eclipse를 활용해서 쓰는건 상당히 까다로운데, 연구실 후배가 HAM을 웹서버에 올려서 restful한 형태의 request를 지원하는 형태로 만들었다. url에 분석하고 싶은 문장을 인코딩해서 보내면 형태소분석의 결과(명사들만) soap로 보내준다. 이와 유사한 PHP모듈과 관련된 블로그 페이지 
 
 
java.lang.unsatisfiedlinkerror no in java.library.path 에러 대처법
 
LDA (topic modeling) 구현들
 
Mallet 시작하기(링크)
 
강승식 교수: 한글공학, 정보검색 연구소
 
엑셀기반 스탠포드 토픽 모델링 도구
 
한글에 대한 편집 거리 문제(한글 검색에 검색어 처리 관련 논문)
 
2015-03-05 토픽모델링을 이용한 기업sns분석에 관한 연구

자연어처리 성능평가 관련 
 
2015-03-05 -----------------------
주안점: 논문에서 각 방법론을 구현한 패키지를 찾아볼 것.
선형(linear) 대수학: 요즘 비선형으로 돌아가는 추세인데, 사회과학 분야에서는 선형. 
 
LDA 방법론 : LDA(Latent Dirichlet Allocation) 통계분석.
잠재 변수들 사이의
선형 회기(사이에 있는 p 밸류값)
회기 공식에 의해서 2~30번 계산을 하는데 이를 회전한다고 한다.
분산되어 있는 워드들을 돌려서 각 잠재 변수들 사이의 관계를 유추하는 것.
 
PCA 방법론 :
 
 
마켓 3.0 시대

신프로슈머(PROducer + conSUMER) : 기존 DIY(Do-It-Yourself)수준의 프로슈머에서 진화하여 마케팅에 참여하며 성과를 창출
소셜슈머(SOCIAL + conSUMER) : 소비자 개인 이익 보다 사회 전체 혜택을 위해 의견 개진,관찰 시키는 사회 활동가로서의 소비자
큐레이슈머(CURAtor + conSUMER) : 수동적으로 소비하지 않고 자신의 스타일에 주도적 창출 원래 상품의 용도와 전혀 다르게 사용
 
3.1 Topic Modeling 소개
토픽 모델링은 대량의 문서를 분석하는 쉬운 방법을 제공하며 문서 주제와 함께 자주 출현하는 비슷한 의미의 단어 클러스터로 구성되어 있다. (Probabilistic Topic Models by Steyvers and Griffiths, 2007)
토픽 모델링이란 문서 들의 숨겨진 주제 구조를 발견하는 알고리즘의 모음이며 이러한 알고리즘은 주제 검색이나 대용량의 텍스트 문서의 요약하는데 도움이 된다. (Daive M.Blei, 2010)
 

<그림3. 1 LDA 토픽모델링의 이해 Probabilistic topic models, DaviD m. Blei 2012.04>
 

<표3. 2 토픽 모델링의 모델 및 알고리즘>
 
3.2 LDA(Latent Dirichlet Allocation)
  주제에 대한 단어 일부가 유사한 이유를 설명하고 예측할 수 있도록 설명하는 모델이다.
 
3.3 Mallet 분석
Mallet6(Machine Learnig for Language Tookit)은 LDA방법론을 이용한 UMASS Amherst University의 JAVA기반의 오픈 패키지 이며 통계적 자연 언어처리, 문서 분류, 클러스터링, 주제 모델링, 정보추출 및 텍스트에 대해 기계 학습 응용 프로그램 이다. Naïve Bayes, Maximum Entropy, and Decision Trees이 포함 되어 있으며, 여러 통계를 사용 하였다.
 
 
4.2 형태소 분석
자연 언어 처리에서 말하는 형태소 분석이란 어떤 대상 어절의 모든 가능한 분석 결과를 출력하는 것을 의미한다. 라고 정의 한다. 7 형태소는 의미가 있는 최소의 단위 이며 문법적 관계적인 뜻을 나타내는 단어 또는 단어의 부분을 의미한다.
 

<그림4. 2 형태소 분석과정>
 
전처리 단계에서는 단어를 추출하고 부호, 숫자, 특수 문자열을 처리한다. 분석 후보 생성에서 형태소를 분리하며 불규칙한 원형을 복원하게 된다. 결합 제약 검사를 통해 모음의 조화와 형태소 결합의 제약을 검사하며 분석후보처리과정에서는 사전 탐색과 단어의 형성의 규칙을 확인하고 복합 명사를 추정하고 사전에 미등록어를 처리하며 준말을 처리하는 후처리 단계로 진행 된다.
 
 형태소 분석기는 소프트웨어는 연구, 실험, 혹은 시제품 개발의 목적으로만 허가되는 국민대 강승식 교수의 한국어 형태소 분석기를 이용하여 형태소를 추출하였다.
 

<그림4. 3 한국어 형태소 분석기>
 
 
Mallet Toolkit 열어볼 것.
 
 
2015-02-26 [R]데이터 마이닝 도구 "R" 소개 설치. #R프로그래밍

한줄 주석 
Ctrl + Shift + c
 
 

 
R을 통한 텍스트마이닝 - 단어클라우드(wordcloud)
"KoNLP"는 한글에 관한 텍스트 마이닝(text mining package)의 기본이며 필수
 
Text Mining For Korean
 
코딩 한 줄로 웹페이지 긁어오기 http://overthedatum.co.kr/archives/148
 
[R]데이터 마이닝 도구 "R" 소개 및 설치.
R무료 도서 http://r4pda.co.kr
 
요즘 빅데이터 분석툴로 각광을 받고 있는 Data mining 도구인 R에 대한 소개 및 설치 방법에 대해 알아보도록 하겠습니다.
R은 1993년 뉴질랜드 오클랜드대학의 통계학과 교수 2명(Ross Ihaka, Robert Gentleman)에  의하여 개발 되었으며
1976년 Bell Lab의 John Chambers, Rick Becker, Allan Wilks에 의하여 개발된 S Language에 뿌리를 두고 있습니다.
두 명의 저자(Robert Gentleman과 Ross Ihaka) 이름 맨 앞 철자로
1976년 Bell Lab에서 개발된 ‘S’ 언어의 이름에서 유추 되었다고 합니다.
R의 특징
(1) R 은S-PLUS의 환경을 기초로 해서 만들어진 통계적도구이다. (1995년Robert Gentleman,Ross Ihaka개발)
(2) R은 무료이고 공개되어 있으며 Unix, Window, MacOS등 다양한 환경에서 구동이 가능하다.
(3) R은 우수한 도움말 기능과 그래픽 성능을 가지고 있다.
(4) R은 프로그래밍 언어이고 사용자 정의함수를 작성하여사용할 수 있다.
 
 
일단 "R"을 다운로드 받기 위해 아래의 주소에서 다운받도록 합니다.
 
설치는 아래의 이미지 대로 따라만 가시면 됩니다.

 

 

 

 

 

 

 

 

 
R 설치 후 아이콘 모양

 
실행 후 모습

 
아래 간단하게 값들의 평균을 구하는 스크립트를 실행 해 보았습니다.

 
Tinn-R 편집기 설치
통계분석용 스크립트 편집을 위해  Tinn-R사용을 권장 합니다. 하이라이팅 기능 지원 및 R Console에서 실행 할 수 있는 기능이 있어 일반 텍스트 에디터에 작업하는 것 보다 큰 장점이 있습니다.
설치는 간단합니다.

 

 

 

 

 

 

 

실행 후 모습 입니다.

 
도구는 갖추어져 있으니 이제 열심히 기능들에 대해 분석하고 파헤쳐 볼 일만 남았습니다.
.by rocksea
 
2015-03-05 텍스트 마이닝 방법과 툴
 
자바 패키지 인스톨.
몇 가지 알고리즘이 있는데.
논문을 보고 알고리즘을 선택하거나.
토픽 모델링!?!?!?
형태소 분석기 - 루씬
 
외부에 맡겨서 진행. (유료)
 
 

KoNLP http://konlpy.org/ko/v0.4.4/references/#corpora

코퍼스(corpus)란? (Corpusとは?) ‘코퍼스’(corpus)란 , 언어를 연구하는 각분야에서 필요로 하는 연구 재료로서, 언어의 본질적 모습을 총체적으로 드려내 보여 줄 수 있는 자료의 집합을 뜻한다(국어정보학 입문, 서상규 한영균저). 한국어로는 말뭉치 또는 말모둠으로 번역하는데, 그 정의는 사람에 따라 다르나 대략 다음과 같은 의미로 쓰이고 있다. ○ 대규모 언어 데이터베이스 ○ 인간의 음성언어(문어, 구어)를 대용량 컴퓨터에 저장하고 이를 필요에 따라 가공하여 언어 연구에사용하는 것 ○ 컴퓨터가 판독할 수 있는 형태(Mashine-readable form)로 저장된 자연어의 용례들과 이들 용례에 대한 부속정보 (additional information) 코퍼스의 개념은 20세기 전반기 미국의 구조주의 언어학에서 이미 제시되었으나 컴퓨터에 의하여 대규모 코퍼스가 구축된 것은 1963년에 완성된 브라운코퍼스(100 어절)가 처음이다. 1990년 이후 1억 어절 이상의 대규모 코퍼스(British National Corpus)가 구축되었고, 국내에서도 연세대(1988),고려대, 카이스트, 국립국어연구원에서 한국어코퍼스를 구축하고 있다. 1998년부터 시작된‘21세기 세종계획’이 완성되면 한국은 세계적 규모의 국가 코퍼스를 가지게 된다.

코퍼스의 종류(コーパスの種類)

  1. 가공 여부에 따른 분류 a. 원시코퍼스((raw corpus) : 텍스트를 컴퓨터 可讀形 자료로 만들어 데이터
    베이스화 한 것으로 예를들면 CD-ROM한국현대문학100년(문학사상사, 1999년)년이나 新潮小說100卷(新潮社, 1995년), 夏目漱石小說全集데이터, CD-ROM版朝日新聞 등이 이에 해당한다. b. 가공된 코퍼스(tagged corpus) : 수집된 텍스트 데이터베이스를 형태소 분석이나 어휘별 분류, 품사정보, 문헌별, 章·節별분류, 내용별 분류가 가능하도록 인공적으로 가공한 것으로 코퍼스를 언어의 연구에 사용하기 편리하도록 가공한 것이다. 언어 연구에 사용하기에는 가공 코퍼스가 더 유익하다.

  2. 작성 방법에 따른 분류 a. 샘플 코퍼스와 모니터코퍼스: 텍스트를 일정량만 수집한 코퍼스를 sample corpus라 하며 Broun Corpus(100만)와 LOB Corpus(100만)등이 이에 속한다. 이에 대하여 늘 변화하는 언어의 실태를 추적하기 위하여 낡은 자료를 제외하고 늘 새로운 언어정보를 수집 증보하여 최신 언어정보를 데이터베이스화 한 것을 monitor corpus라 한다. 모니터 코퍼스로는 Bank of English등이 대표적이다. b. 汎用코퍼스와 특수목적 코퍼스 : 여러 가지 연구를 상정하여 종합적으로 작성된 코퍼스를 汎用코퍼스라 하며 이에 대하여 특정 언어만을 연구하기 위하여 만들어진 코퍼스를 특수목적코퍼스라 한다. 예를들면 의료종사자이 사용하는 영어를 조사하기 위한 것이나 특정 연령층의 언어를 조사하기 위한 코퍼스가 특수목적 코퍼스에 해당되며, 21세기세종계획에서 작성하는 코퍼스는 汎用코퍼스이다. c. 共時코퍼스와 通時코퍼스 : 채취 샘플을 共時資料를 대상으로 하는가 通時資料를 대상으로 하였는가에 따라 이와 같이 나눈다. Broun Corpus(100만)와 LOB Corpus(100만)등은 共時코퍼스에 속하며 Helsinki Corpus(750∼1710년까지 자료 수록)와 ARCHER(1650∼1990년 자료 수록)는 通時코퍼스에 속한다. d. 文字言語 코퍼스와 音聲言語코퍼스 :언어 매체에 따라 문자언어에서 샘플을 채록하였는가, 음성언어를 문자화하여 채록하였는가에 따라 이렇게 분류한다. e. 竝列코퍼스(parallel corpus): 같은 내용을 두 개국어 이상 병렬시켜 만든 코퍼스이다. 예를 들면 일본 소설의 원본과 한국어 번역본의 데이터를 가지고 코퍼스를 만들면 한일 소설어의 병렬코퍼스가 될 것이다.

병렬코퍼스란?(並列コーパスとは?)

병렬 코퍼스(parallel corpus)란 동일 내용의 복수 언어 말뭉치로서, 예를 들면 한국어 원문과 일본어 번역문(그 반대 방향도 可)을 文(Sentence) 단위로 대응시켜 데이터베이스를 만든 것을 말한다. 병렬코퍼스는 데이터 자체가 복수 언어를 대상으로 만들기 때문에 언어의 대조 연구나 기계번역, 대역 사전구축, 언어 교육(작문 교육, 회화 교육) 등에 유용하게 사용될 수 있다. 한일병렬코퍼스의 구축 대상은 현대 한국어와 일본어이며, 文(sentence) 단위로 정렬한 병렬 텍스트로 구성되어 있다. 구축 대상 자료는 현대 한일어의 다양성을 반영하는 여러 장르의 자료를 대상으로 하나 현재는 신문 자료가 중심이 되어 있다 앞으로 생활문, 수필, 소설, 뉴스, 구어자료 등을 대상으로 데이터베이스를 구축할 예정이다.

연구의 필요성(研究の必要性 )

나라와 나라 간의 교류를 원활하게 하는 하기 위해서는 언어 문제가 해결되어야 하며 이 때문에 상대국의 언어를 효과적으로 연구, 교육하는 것은 국가 경쟁력을 높일 수 있는 주요 수단이 된다. 선진 각국에서는 이러한 점을 미리 깨닫고 자국어를 바탕으로 하여 상대국의 언어 정보를 대규모로 수집, 데이터베이스화 하여 여러 가지 용도로 활용하고 있는데 이러한 노력의 하나가 대규모 병렬코퍼스 구축이다. 병렬코퍼스는 언어간의 효율적인 정보 소통을 위한 통역, 번역 등의 실용적인 측면뿐만 아니라 언어간의 상이한 특징을 비교하는 언어의 대조 분석 연구라는 학문적인 측면에서도 중요한 역할을 한다. 서구 선진국가들(특히 유럽의 국가들)에서는 병렬 말뭉치의 중요성을 인식하여 자국어와 세계 공용어인 영어를 대상으로 병렬코퍼스를 구축하는 프로젝트를 활발하게 진행하고 있으며 중국에서도 중일/일중 병렬코퍼스를 구축하여 학계에 연구 자료를 제공하고 있다. 오늘날과 같이 인적 물적 교류가 빈번한 시대에는 상대국 언어에 대한 이해와 번역 및 통역의 중요성이 강조되며 상대 언어를 모르는 사람에게는 기계 번역도 필요하다. 그밖에 상대국 언어의 교육과 연구, 사전 편찬 등 언어공학적 요소가 필요한 분야에서 상대적으로 경쟁력을 높이기 위해서는 둘 이상의 언어를 병렬적으로 대응시켜 구성한 병렬(대역)코퍼스가 필수적이다.

한국의 코퍼스 구축 상황(韓国のコーパス作り事情 ) 출발은 비교적 늦었으나 여러 기관에서 의욕적으로 한국어 코퍼스를 구축하고 있으며 21세기 세종계획이 완결되면 세계 최대급 규모의 코퍼스(3억 어절)를 보유하게 될것으로 보인다. 주요 코퍼스는 다음과 같다. (1) 21세기세종계획 : 21세기 세종계획은 우리 나라의 선진 정보문화를 자주적으로 구현할 수 있는 국어정보화 중장기 발전계획의 수립을 그 목적으로 1998년 국립국어연구원이 중심이되어 출발하였다. 1998년부터 10년간(1998-2007) 단계으로 3억 어절의 코퍼스를 구축할 예정이다. 자세한 것은 다음 홈페이지 를 참조할 것. http://www.sejong.or.kr/ (2) 고려대 한국어코퍼스 : 민족문화연구원 - 전자텍스트 연구소 연세대한국어코퍼스언어정보개발 연구원 - 한국어사전편찬실 (3) KAIST한국어코퍼스:
KAIST 국어정보베이스KAIST 국어정보베이스 용례 검색 전문용어 언어공학 연구센터 출처 : http://trankj.pe.kr/corpus_is.htm

출처: http://transwriting.tistory.com/20 [번역의 바다]

+ Recent posts