기계번역

원본파일: 2012 중소기업 서비스연구개발사업 제안서.hwp

IT 기술문서 다국어 자동 영한번역 프로그램 개발 기획

(IT Technical  Document  Translation : ITMT) Program

 

<개발목표>

전문적인 도메인 번역에서 한계를 드러내고 있는 구글 번역야후 바벨피쉬 등  범용 다국어 번역 프로그램과는 차별화하여전문적인 기술문서의 자동 영한번역 서비스를 제공하는 “IT기술문서 영한번역  프로그램(이하 ITMT)”을 개발 하는 것이다.

기존의 범용 번역 프로그램은 도메인 특정의 전문 용어나 기술적인 문맥에 맞지 않는 번역을 제공함으로써 그 정확성과 실용성에 한계를 드러내고 있으며 한국어 에 대한 품질 수준은 아직 초보 수준이다.

따라서 IT 도메인을 특정하여 도메인 특성에 맞는 정확한 번역 서비스를 제공할 수 있는 자동 영한번역 프로그램을 개발하여 이 분야의 수요에 맞는 양질의 서비스를 제공하고자 한다.

<개발배경>

급속도로 발전하고 있는 오늘날 IT 세계에서는 하루에도 수백수천 개의 제품이 출시되고 있으며, 전 세계에서 수많은 기술문서, 도움말 등 관련 컨텐츠가 생산되 고 배포되고 있다.

기업은 더 빨리 세계 시장에 제품을 배포하기 위해서 제품 개발과 거의 동시에 제품과 관련 자료를 다국어 버전으로 생산할 필요가 있으며, 개발자나 소비자는  이런 컨텐츠와 제품에 대한 정보를 더 빨리 얻고 공유하기를 원한다.

IT분야에서는 다른 분야와 비교할 수 없을 만큼 빠른 속도로 기술이 생산되고  배포되기 때문에 신속한 번역 지원이 필요하다.

유럽은 1980년대부터 를 EC를중심으로 유럽어간 자동 번역 기술 개발을 EC차원 에서 지원, 개발하고 있으며, 일본 역시 2000년대 들어 본격적으로 여러 분야에서 자동 번역 기술 개발을 국가 차원에서 지원하고 있다.

그러나 한국의 경우 급증하고 있는 번역에 대한 수요를 기술적으로 지원하지 못하면서 주도권이 상대적으로 인건비가 싼 중국 시장으로 빠르게 넘어가고 있다.

글로벌 IT 기업의 제품을 제외하면 필요한 컨텐츠의 현지화는 인력 및 비용부담  때문에 제한적으로 이루어지거나 현지화 되지 않는 경우도 많으며 많은 중요한 정보들이 국내 개발자와 소비자기업에 제대로 전달되지 못하는 경우도 많다 .

정보가 곧 기술력인 오늘날의 시장 환경에서 이는 국내 IT 기업의 경쟁력에 걸림돌이 되고 있는 것이다.

이런 시장의 요구를 충족하기 위해서는 일차적으로 가장 수요가 많은 영한 번역 을 대상으로 IT 용어의 전문성 및 특수성을 반영한 전문 자동 영한번역 프로그램이 필요하다.

구글, 야후, 시스트랜, 마이크로소프트 등 일반적인 범용 다국어 번역 도구는 특정 도메인을 구분하지 않기 때문에 IT 분야에 적용했을 때 IT 전문성과 문맥에  맞지 않는 용어와 오역으로 잘못된 정보를 전달하는 경우가 많은 것이 현실이며, 특히 한국어에 대한 서비스 수준은 아직도 초보수준으로 비즈니스 기술 문서에 적용하기에는 그 품질 수준이 아직 미흡하다.

따라서 스마트폰,  LCD, 반도체 등 IT 강국으로서 전 세계 IT 기술 동향과 최신정보를 저렴한 비용에 최대한 빠르게 얻고 공유할 수 있게 해주는 IT 기술문서 자동 영한번역 기술의 개발은 세계 시장에서 국내 SW의 경쟁력을 제고하는데 필수적인 요소가 될 것이다.

 

<개발내용>

“IT 기술문서 자동 영한번역 프로그램(이하 ITMT)”은 구글, 야후, 마이크로소프트 등에서 사용하고 있는 통계기반 번역 방식을 채용하고 이를 지원하는 오픈소스 번역 엔진을 기반(예, Moses)으로 한다.

통계기반 번역엔진(Statistical Machine Translation: SMT)은 원문과 번역문의 쌍으로 구성된 병렬코퍼스(병렬말뭉치, Parallel Corpus)가 번역의 핵심적인 요소를 차지하고 있다.

따라서 IT 기술문서에 대한 병렬코퍼스 DB 구축이 우선적으로 선행되어야 한다.

E4NET은 15년간 IT 전문 현지화 번역 경험에서 축적한 상당한 양의 병렬코퍼스를 원시적인 형태로 보유하고 있으며 이를 기반으로 IT에 특화된 병렬코퍼스 DB를 구축할 예정이다.

또한 이를 바탕으로 공통 용어집과 분야별 용어집을 생성하여 제공한다.

용어집은 사용자 측에서 추가, 삭제, 가공할 수 있으며, MT 실행 시 우선 참고할 용어집의 우선 순위를 사용자 측에서 수동 지정할 수 있도록 할 예정이다.

IT 기술문서의 경우 명확하게 내용을 전달하기 위해 문장 구성이 평이한 경우가 많으므로, 문장이나 문법에 대한 규칙을 적용하는 룰 기반 해석기(Rule-Based Decoder)를 SMT 엔진에 추가하여 좀 더 품질이 좋은 번역 결과를 얻을 수 있는 하이브리드형 번역엔진으로 개발한다.

룰 기반 해석기는 문장이나 문법에 대한 규칙을 정의하는 것으로 관련 연구소나 대학과 연계하여 룰 기반 해석기를 개발한다.

SMT 엔진은 통계 기반이므로 통계 데이터가 많을수록 더 우수한 번역 품질을 얻을 수 있다.

그러나 품질을 높이기 위해서 잘 정의된 샘플링 데이터로 SMT 엔진을 트레이닝해야 한다.

SMT 트레이닝을 위해 오픈 소스로 제공되고 있는 트레이닝 엔진(예, Giza++)을 기반으로 트레이닝 모델을 구축하되, 여기에 사용자가 더 나은 번역을 제안할 수 있는 Custom-lead Optimizing 기능과 이를 기반으로 엔진 스스로 자가 학습을 통해 더 나은 번역을 제안하는 Self-Optimizing 기능을 추가하여 데이터를 추가하여 더 많이 사용할수록 엔진 최적화를 강화할 수 있는 기능을 중점 개발한다.
또한 기존 번역 업계에서 널리 활용되고 있는 CAT(Computer-Aided Translation) 프로그램 – Trados, SDLX, Idiom- 등과의 연계 모델을 염두에 두고, CAT Tool의 Translation Memory를 사용한 번역 산출물에 MT 엔진의 자동 번역을 보완하는 방식을 통해 기존 CAT 번역 비용을 획기적으로 절감할 수 있는 기능에 대한 연구도 병행한다.
ITMT는 독립 어플리케이션으로 포장되어 배포될 수 있으나 병렬코퍼스의 변경 및 추가, SMT의 트레이닝, 룰 기반 해석기의 고도화 및 확장 등이 번역의 품질에 크게 영향을 미치기 때문에 중앙에서 관리할 수 있는 서버형 제품으로 개발하고 모바일, 웹, 전용 클라이언트용으로 번역 서비스를 제공함으로 적은 비용으로 높은 품질의 서비스를 제공할 수 있다.

 

답글 남기기