레이블이 번역인 게시물을 표시합니다. 모든 게시물 표시
레이블이 번역인 게시물을 표시합니다. 모든 게시물 표시

2016년 11월 21일 월요일

새로운 구글 번역 사용해보기


최근 구글에서는 자사의 번역 서비스(https://translate.google.com/)에 인공신경망에 기초한 기계 번역 기술(Neural Machine Translation)을 적용함으로써 번역 결과에 대한 정밀도를 높였습니다.

기존 구글번역은 문구기반 기계번역(PBMT: Phrase Based Machine Translation)과 통계 기반의 기계번역(SMT: Statistical Machine Translation)을 사용해왔습니다.

인공신경망 기반 번역은 딥러닝을 통해 문장을 통째로 번역하는 방식입니다. 통계적 기계 번역이 구나 절 단위로 번역한 결과를 조합·재배치하기 때문에 어감이 부자연스러운 경우가 많았다면, 인공신경망 번역은 한국어와 영어처럼 어순이 다른 언어를 번역할 때도 비교적 자연스러운 결과를 낼 수 있습니다.

네이버에서도 신경망을 적용한 번역 서비스(http://labspace.naver.com/nmt/)
를 제공하고 있으나 현재 베타서비스이고 200자 이하의 문장에 대해서만 번역 결과를 제공합니다.

구글 번역 외 일반적으로 많이 쓰이는 네이버 번역, 마이크로소프트의 Bing Translation의 번역 테스트를 해본 결과 NMT가 적용된 구글 번역이 월등히 우수한 번역 결과를 냈습니다.


[한 → 영 번역 테스트]




원문
구글
네이버(NMT)
네이버(일반)
Bing 번역
헌법 84조에 따라 대통령은 내란·외환의 죄를 제외하고 재직 중 형사 소추를 받지 않는다고 해서 수사범위에 한계가 있는 것은 아니다. 검찰은 박 대통령을 상대로 그간의 의혹들을 하나도 빠짐없이, 철저하게 조사해야 한다.
According to Article 84 of the Constitution, the President does not have a limit on the scope of the investigation if he does not take criminal prosecution while he is in office except for the crimes of civil war and foreign exchange. Prosecutors should thoroughly investigate all suspicions against President Park.
According to Article 84 of the Constitution, the president does not limit the scope of the investigation by stating that he is not permitted to face criminal charges except for civil war and foreign exchange charges.The prosecution should thoroughly investigate all suspicions, including thorough questioning of Park.
Except for the sins of the civil war in accordance with Article 84 of the Constitution, foreign exchange office doesn't mean you receive a criminal prosecution investigation do not necessarily limited in scope. The prosecution, Park must scrutinise, has led one the allegations against the president.
In accordance with article 84 of the Constitution, the President of the civil war, except the sin of Forex of the criminal prosecution does not limit to the scope of the investigation. Prosecutors alleged that between them against the President puts one omission, must be thoroughly investigated.

[영 → 한 번역 테스트]



원문
구글
네이버(NMT)
네이버(일반)
Bing 번역
There should not be any limit in the probe just because the president is protected by Article 84 of the Constitution, which exempts the president of a criminal offense during his or her term, except in the cases of insurrection or treason against the state. The prosecution must thoroughly question the president on all allegations.
대통령이 봉기 또는 국가 반역의 경우를 제외하고 대통령 임기 동안 형사 범죄를 면제하는 헌법 제 84 조에 의해 보호 받고 있기 때문에 조사에 어떠한 제한도 있어서는 안된다. 검찰은 모든 주장에 대해 대통령에게 철저히 의문을 제기해야한다.
Part 1)
대통령이 형법 위반으로 헌법 제84조를 위반한 것은 헌법 제84조에 의거하여 위헌 판결을 내려야 한다는 점에서 제한되어서는 안 된다.

Part 2)
국가에 대한 반란이나 반역죄를 제외하고는 검찰은 모든 혐의에 대해 대통령에 대해 철저히 조사해야 한다.
이 조사에서 존재하지 말아야 한다 제한이 대통령 제84헌법이 그들 그녀의 임기 동안 제외하고 형사범의 대통령 병역 면제 규정에 의해 보호된다.국가에 대한 반란 또는 반역죄의 사례에서. 검찰은 완전히 모든 혐의에 대한 대통령에게 질문을 한다.
거기 해서는 안됩니다 어떤 제한 프로브에 그냥 있기 때문에 대통령 반란 또는 상태에 대 한 반 역 죄의 경우에를 제외 하 고 그의 혹은 그녀의 기간 동안 형사 범죄의 대통령 면제 헌법의 기사 84에 의해 보호 됩니다. 검찰은 모든 주장에 대통령을 질문 철저 하 게 해야 합니다.
※ 네이버NMT의 200자 제약사항으로 인해 ‘~except in the…’ 부분을 기준으로 나누어 번역함

2016년 9월 28일 수요일

[뉴스] 구글, 이세돌과 겨룬 인공지능 활용 번역 시작

존 구글 번역 오류 58~87% 줄여"…영어-중국어 서비스부터 
(서울=연합뉴스) 최병국 기자 = 구글이 '딥러닝'(deep-learning : 심층학습) 기술을 번역 서비스에 활용하기 시작했다.
딥러닝은 이세돌과 겨룬 컴퓨터 바둑 프로그램 '알파고'에 쓰인 범용 인공지능(AI) 알고리즘이다.
사람이 입력해 준 것만 기억하는 것이 아니라 인간의 두뇌 신경망처럼 스스로 학습해 지식을 확장하고 문제를 해결하는 인공 신경망 기술이 적용된 것이다.
28일 과학잡지 사이언스 등에 따르면, 구글은 27일(현지시간) '구글 신경 기계 번역'(GNMT) 시스템을 이용한 번역 서비스를 시작한다고 발표했다.
이날은 구글이 인터넷으로 기계 번역 서비스를 시작한 지 10주년 되는 날이다. 기존 서비스는 '문구기반 기계 번역'(PBMT) 시스템을 이용한 것이다.
구글은 GNMT 번역 내용을 사람이 직접 감수한 결과 기존 PBMT 번역에 비해 오류가 평균 60%, 언어에 따라 58%(영어-중국어)에서 87%(영어-스페인어)까지 줄었다고 밝혔다. 이는 위키피디아나 뉴스 사이트에서 추출한 샘플 문장들을 번역한 결과다.
    아직 인공지능이 인간에 뒤진다
아직 인공지능이 인간에 뒤진다. 물론 인간의 번역에도 만점은 없다완벽한 번역을 6점으로 잡았을 때 인간(노란색)과 구글의 기존 PBMT 번역(파란색), 신경망 인공지능번역(녹색)의 현재까지 보인 언어별 번역 실력. [구글 연구 블로그 홈페이지 보도자료 화면 캡처]
기존 PBMT 번역의 경우 입력되는 문장을 단어와 구절로 분해해 각기 이에 대응하는 외국어 단어와 구절로 옮긴 뒤 합성해 문장으로 출력하는 방식이다.
그러나 이번에 내놓은 GNMT 번역은 입력되는 문장을 통째로 읽어 번역한다.
기계가 방대한 단어와 구절, 문장을 기억하고 연관성이 없는 것은 하나씩 없애는 방식으로 정확한 해석을 해나갈 수 있는 학습능력과 방대한 데이터를 빠르게 처리할 수 있는 구조 덕분에 가능하다.
입력된 특정 단어에 대해 인공지능은 훈련에 사용된 방대한 '사전'(영어-프랑스어는 약 25억개 문장 쌍, 중국어는 5억개 문장 쌍)을 뒤져 적합한 단어를 찾아낸다.
개발팀은 GNMT 번역 기술에 대해 설명한 논문에서 입력-출력 전 과정이 하나의 신경망에서 이뤄진다고 설명했다.
       구글 번역기의 뉴스 문장 번역 사례
구글 번역기의 뉴스 문장 번역 사례중국어 원문 문장, 기존 구글의 PBMT 번역, 새로운 GNMT 번역, 전문가의 번역. 다른 인간 전문가가 번역 내용을 감수했다. [구글 연구블로그 홈페이지 보도자료 화면 캡처]
구글은 이날 웹과 모바일 '구글 번역' 서비스에서 영어-중국어 번역부터 제공하기 시작했으며, 조만간 다른 언어 서비스도 제공할 것이라고 밝혔다.
중국어 서비스부터 시작한 것에 대해 구글 측은 인도-유럽어 간 번역에 비해 중국어의 번역이 가장 어려운 일이어서 이를 정복하는 과정에서 터득한 노하우의 활용도가 클 것이기 때문이라고 설명했다.
또 중국어 사용자가 많고 현재 구글 번역 서비스에서 영어-중국어 번역이 매일 1천800만회나 이뤄지는 점도 고려했다.
사이언스에 따르면, 이번 서비스 개발자들 가운데 중국인(계)가 유독 많은 점도 작용한 것으로 풀이했다.
구글은 이번 번역도 아직 인간의 번역에는 미치지 못하며 적지 않은 오류가 있다고 시인했다. 다만 딥러닝 기반 인공지능의 학습 경험 축적과 관련 기술 등의 발전에 따라 완벽에 가깝도록 진화해나갈 것이라고 강조했다.