인간과 토론하던 ‘프로젝트 디베이터’,IBM 왓슨 AI 신기술에 통합
비즈니스 언어 이해하는 IBM 왓슨에 신기술 통합, 인간 언어의 가장 까다로운 요소도 파악 및 분석 가능

기업용 인공지능의 선두 주자[1] IBM 11 인간 언어의 가장 까다로운 요소를 명확하게 식별, 이해, 분석하는 새로운 왓슨 기술을 소개하고, 기업들이 기술을 통해 보다 통찰력 있는 정보를 비즈니스에서 활용할 있게 것이라고 발표했다.

신기술들은 IBM 리서치 연구소에서 복잡한 주제로 인간과 토론할 있도록 개발한 유일한 AI 시스템, '프로젝트 디베이터 (Project Debater)' 핵심 자연어 처리(NLP, Natural Language Processing) 기술을 최초로 상용화한 것이다. 기술 중의 하나인어드밴스드 센티멘트 애널리시스(Advanced Sentiment Analysis)’ 기술은 최초로 관용어 구어적 표현을 식별하고 분석할 있다. ‘hardly helpful(그다지 쓸모 있지 않다)’ 또는 ‘hot under the collar(몹시 난처하다)’ 같은 표현은 알고리즘으로 파악하기 어렵기 때문에 AI 시스템에게는 넘기 힘든 산과 같았다. 왓슨 API 제공되는 기술을 통해 기업은 이런 구어적 표현이 포함된 언어 데이터까지 분석이 가능해졌고, 이런 표현들이 사용되는 비즈니스 운영 전반에 대해 보다 전체적인 이해가 가능해졌다. 아울러 IBM PDF, 계약서 각종 비즈니스 문서를 이해하는 기술도 AI 모델에 추가할 예정이다.

토마스 IBM 데이터 AI 총괄 사장은언어는 정보를 위한 도구일 뿐만 아니라 사상과 의견을 표현하는 수단이다라고 말하고, “이것이 우리가 프로젝트 디베이터에서 기술을 추출하여 IBM 왓슨에 통합시킨 이유이다. 기술들을 통해 기업들은 인간의 언어에서 많은 것을 파악, 분석, 이해할 있게 되고, 데이터에 담긴 지식을 활용하는 방법에 있어서도 진일보하게 되었다라고 말했다.

IT 애널리스트이자 기술 자문으로 활동하고 있는 해시(Phil Hassey) 카피오IT(CapioIT) 사장은 "IBM 프로젝트 디베이터가 최신 자연어 처리(NLP) 기술의 출시와 함께 제품으로 구현되었다. 제품들은 사람들이 자연스럽게 이야기하는 방식뿐 아니라 개개인이 사용하는 고유한 관용어까지 이해하도록 만들어졌다. 이는 과학적인 연구를 실제 제품으로 구현한 IBM 리서치의 하나의 성공을 의미한다 말하고 이번 발표는 앞으로 고객 경험, 프로세스 자동화, 데이터의 문맥화(contextualization) 다양한 영역에서 비즈니스 성과를 개선할 있는 여러 기회를 제공할 이라고 덧붙였다.

IBM 고객이 비즈니스에서 자연어를 보다 활용할 있도록 동안 프로젝트 디베이터의 아래와 같은 기술들을 IBM 왓슨에 통합하는 작업을 진행시킬 것이라고 밝혔다.

 

  1. 분석 어드밴스드 센티멘트 애널리시스(Advanced Sentiment Analysis): IBM 관용어(관용구, 관용 표현) 소위 센티멘트 시프터(sentiment shifter, "hardly helpful" 같이 여러 단어의 조합으로 전혀 새로운 의미를 갖는 ) 같은 복잡한 언어 구조를 효과적으로 식별하고 이해하도록 정서 분석을 강화했다. 기술은 이달 중에 ‘IBM 왓슨 내추럴 랭귀지 언더스탠딩 (Watson Natural Language Understanding, 자연어 이해)’ 통합될 예정이다. 또한, 고객들이 조달 계약과 같은 비즈니스 문서에서 사용하는 조항들을 보다 쉽게 분류할 있는 AI 모델을 만들 있도록 새로운 분류 기술을 발표했는데, 기술은 프로젝트 디베이터의 딥러닝 기반 분류 기술을 기반으로 수백 개의 샘플만을 학습하여 새로운 조항과 문구를 빠르고 쉽게 구분하고 분류할 있다. 기술은 올해 ‘IBM 왓슨 디스커버리(Watson Discovery)’ 추가 예정이다.

 

  1. 요약써머라이제이션(Summarization): 기술은 다양한 출처로부터 문자 데이터를 가져와 특정 주제에 관한 말과 글을 요약하여 사용자에게 제공한다. 올해 그래미 시상식에서 기술의 초기 버전을 활용하여 1,800 개가 넘는 기사, 블로그 약력을 분석하여 수백 명의 그래미 아티스트 유명 인사에 대한 간단한 정보를 제공했다. 데이터는 www.grammy.com 레드 카펫 라이브 스트림, 주문형 비디오 사진에 녹여져 팬들에게 그날 밤의 주요 주제에 대한 심층적인 정보를 제공하는데 활용됐다. 기술 또한 연말에 ‘IBM 왓슨 내추럴 랭귀지 언더스탠딩 (Watson Natural Language Understanding, 자연어 이해)’ 통합될 예정이다.

 

  1. 클러스터링어드밴스드 토픽 클러스터링(Advanced Topic Clustering): 프로젝트 디베이터에서 얻은 인사이트로부터 탄생한 새로운 토픽 클러스터링 기술은 사용자가 수집되는 데이터를 무리지어(cluster) 관련 정보의 유의미한 "토픽" 생성한 다음 분석할 있게 한다. 올해 후반에 ‘IBM 왓슨 디스커버리(Watson Discovery)’ 통합될 기술은 분야별 전문가가 특정 비즈니스 또는 업종(: 보험, 의료, 제조) 언어를 반영하도록 토픽을 맞춤화하고 정밀 튜닝하는 것을 가능하게 한다.  

 IBM 오래 전부터 컴퓨터 시스템이 정서, 방언, 억양 등을 포함한 인간의 언어를 빠르고 정확하게 학습, 분석, 이해하게 해주는 기술을 개발하면서 자연어 처리 분야를 선도해 왔다. IBM 주로 IBM 리서치 연구소에서 개발한 자연어 처리 기술을 IBM 왓슨 제품을 통해 상용화하고 있는데, 문서 해독을 위한 ‘IBM 왓슨 디스커버리(Watson Discovery)’, 가상 에이전트인 ‘IBM 왓슨 어시스턴트(Watson Assistant)’, 고급 정서 분석용 ‘IBM 왓슨 내추럴 랭귀지 언더스탠딩(Watson Natural Language Understanding)’등이 여기에 포함된다.

이런 자연어 처리 기술 활용의 예로 ‘ESPN(미국 스포츠 전문 케이블 TV 방송국) 판타지 풋볼(Fantasy Football: 실제 데이터를 활용하여 팬들이 구단 운영 시뮬레이션을 해보는 게임)’ ‘IBM 왓슨 디스커버리 ‘IBM 왓슨 날리지 스튜디오(Watson Knowledge Studio)’   매일 수백만 가지의 풋볼 데이터 출처들을 분석하여 수십만 명에 달하는 판타지 풋볼 리그(Fantasy Football League)회원들에게 실시간으로 선수에 관한 깊이 있는 정보를 제공한다. IBM 왓슨은 알려지지 않은 뒷이야기부터 선수들의 부상 분석 모든 내용에 대한 뉴스 기사, 블로그, 포럼, 순위, 예측, 팟캐스트 트위터의 어조와 정서를 분석한다. ESPN 판타지 풋볼은 이러한 정보를 선수 카드에 표시하여 선수들의 인기 급상승 잠재력을 예측하고, 선수에 대한 긍정적 또는 부정적 논평을 요약한 "플레이어 버즈(Player Buzz)" 사이트에 정보를 제공한다.

참고 자료

l  사진 자료: https://www.flickr.com/photos/ibm_research_zurich/45765507905/in/album-72157713383672013/

l  동영상 B-roll: https://ibm.ent.box.com/s/lpn5305m57m8924f5tyit3880igudacr

IBM 소개

자세한 내용은 IBM Watson, IBM Research에서 확인할 있다.

# # #

미래 예측적 진술 주의 사항
문서는 과거 사실에 관한 정보 관련 논의를 제외하고 증권소송개혁법(Private Securities Litigation Reform Act of 1995) 규정된 미래 예측적 진술에 해당할 있다. 미래 예측적 진술은 해당 기업이 미래의 비즈니스/재무 실적에 관해 현재 가정하는 내용을 근간으로 한다. 이러한 진술에는 실제 결과를 크게 달라지게 있는 각종 위험, 불확실성 기타 요인들이 포함되는데, 예컨대 경기 침체 고객 지출 예산 감소, 회사의 성장 생산성 목표 달성 실패, 회사의 혁신 이니셔티브 실패, 회사 이미지 실추, 성장 기회 투자의 위험성, 기업 지적 재산 포트폴리오의 경쟁 차단 실패 필요한 라이센스 취득 실패, 사이버 보안 데이터 프라이버시 고려사항, 재무 결과 변동, 현지 법률/경제/정치/보건 현황의 영향, 환경/세금/회사 연금 제도의 부작용, 효과적이지 못한 내부 통제, 회사의 회계 추정치 적용, 회사의 핵심 인력 유치 유지 능력과 핵심 기술에 대한 의존도, 주요 공급업체와의 관계가 미치는 영향, 제품 품질 문제, 정부 기관 고객과의 비즈니스가 미치는 영향, 환율 변동 소비자 금융의 위험, 시장 유동성 조건 고객 신용 위험 변화가 채권에 미치는 영향, 서드파티 유통 채널 생태계에 대한 의존도, 회사가 각종 인수, 제휴, 매각을 성공적으로 관리하는 능력, 법적 절차로 인한 위험, IBM 증권 관련 위험 요소, 그리고 양식 10-Q, 양식 10-K, 기타 미국증권거래위원회(SEC) 제출 자료 참고 자료에서 다루는 기타 위험, 불확실성, 요인 등이 해당된다. 문서의 모든 미래 예측적 진술은 오로지 문서 작성 일자를 기준으로 한다. 회사는 미래 예측적 진술을 업데이트하거나 수정할 의무가 없다.