■■▶빅데이터 분석◀ 2018. 5. 17. 20:08

빅데이터 시각화 도구 - R 프로그래밍

 

빅데이터 시대가 도래하면서 빅데이터를 분석하는 기술에 대한 관심이 뜨겁다. 특히 기하급수적으로 데이터를 생산하는 페이스북, 트위터, 구글 등에서 오픈 소스 통계분석 프로그램인 ‘R’을 핵심 분석 엔진으로 활용하면서 ‘R’은 빅데이터 분석 업계 최대 이슈로 떠오르고 있다.

 

[서울 시청 공식 홈페이지 민원게시판 빅데이터 분석을 위한 시각화 결과]

빅데이터 분석을 위한 R 프로그래밍 시각화 결과 - 서ㄹ하 윤샘 2018.03

  

미국 등에서는 데이터 분석 엔진으로 ‘R’이 대학 교육의 표준으로 자리를 잡았다. 구글에서는 ‘구글 R 스타일 가이드’나 구글의 각종 API 등을 ‘R’ 패키지 제품을 통해 사용 가능하게 하고 있다. 오라클도 오라클 데이터 분석 전용 어플라이언스에 ‘R’를 적용했다. 이처럼 ‘R’은 빅데이터 시대 분석 소프트웨어의 표준으로 자리를 잡아가고 있다.

 

지금까지 통계분석 소프트웨어로는 IBM에 합병된 SPSS와 비즈니스 인텔리전스 업계의 최강자인 SAS가 대표적이다. ‘R’은 최근 이들 업체까지 위협할 만큼 강력해졌다는 게 업계 전문가들의 평가다.

 

더욱 흥미로운 것은 ‘R’이 세계적으로 큰 관심을 얻자 SPSS의 설립자 중 한 명인 노먼 나이 스탠퍼드대학 교수가 ‘R’의 기업용 버전인 ‘레벌루션 R’를 개발해 상용화한 ‘레벌루션 애널리틱스(Revolution Analytics, 이하 RA)’라는 회사를 설립했다는 점이다.

 

SPSS 개발자인 노먼 나이 스탠포드대 교수, SPSS를 매각하고 난 뒤 ‘R’를 중심으로 하는 RA의 CEO가 됐다는 것에 대해 관심이 높다.

 

오픈소스 ‘R’를 기반으로 한 새로운 사업에 뛰어든 이유는 무엇인가?

확장성과 유연성을 갖춘 ‘R’가 미래 분석의 핵심일 수밖에 없기 때문이다.

 

머지않아 하나의 노드로 데이터를 처리할 수 없는 시대가 올 것이다. 일부에서는 이미 도래했다. ‘R’는 다수의 노드를 동시에 사용해 다중처리가 용이하다. 즉, ‘R’의 태생이 인메모리(in-memory) 방식이라 하둡의 분산 프로세싱 프레임워크인 맵리듀스(MapReduce) 방식을 적용하기 쉽다. 맵리듀스는 빅데이터를 처리할 때 필수적으로 활용된다.

 

RA가 개발한 ‘레보스케일(RevoScale) R’는 하나의 컴퓨터 내 여러 코어를 동시에 사용하며 인메모리 방식뿐 아니라 파일 시스템을 활용, 데이터 처리 능력을 극대화했다. 그 외에 하둡 환경에서 ‘R’를 사용할 수 있는 패키지도 발표했다. ‘R’의 유연성은 이미 알려진 사실이다. 그 유연성으로 많은 소프트웨어 벤더들이 ‘R’를 분석 엔진으로 포팅하거나 RA와 협력할 수 있다.

 

RA 본사는 미국 캘리포니아 주 팰러앨토에 있다. 연구개발은 시애틀에 근거지를 두고 있다. 영업 사무실은 뉴욕에 곧 오픈할 예정이다. 또 훌륭한 개발자들이 각자의 근거지를 중심으로 가상 오피스 체계로 활동하고 있다. 오픈소스 ‘R’의 기본 사상이자 정신이 각자 개발한 결과물을 공유하는 것이다. 실제로 ‘R’의 공유가 상당히 용이해 개발자들이 흩어져서 활동해도 전혀 문제가 없다.

 

RA는 은행, 투자은행, 보험, 제약, 제조, 유통업 등 다양한 분야의 기업들을 주요 고객으로 빠르게 확보해 가고 있다. RA 제품은 지속적으로 고성능 컴퓨팅, 특히 맵리듀스에 근간한 빅데이터 처리에 집중하고 있다. 그리고 그래픽이나 계산결과를 아름답게 표현하는 것에도 많이 노력하고 있다.

 

비용에 비해 우수한 ‘R’의 고효율성은 큰 매력일 수밖에 없다. 그로 인해 사용자 고객들은 더 넓은 선택권을 갖는 것이고, 벤더들 입장에서는 더 많은 제품을 확보할 수 있는 것이다.

 

RA 제품들은 결국 오픈소스 ‘R’를 근간으로 하고 있다.

‘R’은 현재 3,400여 개의 패키지들이 모든 이들에게 공개돼 있다. 패키지 수는 매년 증가하고 있다. 이와 같이 RA의 제품 포팅 역시 여러 개발자의 참여에 의해 동반 성장하고 싶은 것이 목표다.

 

‘R’에 대해 잘 모르는 많은 사람들은 상업용 패키지에 비해 검증이 덜 됐고, 기업에서 사용하기에는 사후 관리 측면에서 많은 문제가 있지 않나 우려한다.

 

검증이라 함은 ‘R’와 상업용 패키지의 신뢰성을 이야기하는 것인가, 아니면 성능을 이야기하는 것인가. ‘R’는 모든 연구의 기본이다. 연구의 기본이라는 것은 그 결과의 신뢰성이 이미 확보되었다는 것을 의미한다. 그리고 성능이 보장되지 않았다면 많은 미국의 기업들, 특히 빅데이터를 다루는 인터넷 및 소셜 네트워크 서비스 기업들이 ‘R’를 사용하지 않았을 것이다.

 

상업용 소프트웨어는 많은 비용을 들여 테스트하지만, 공개 소프트웨어는 다수의 사람이 사용하고 각자가 테스터 역할을 한다. 이상이 있는 경우, 패키지 개발자에게 리포팅이 되고 신속히 조치가 취해진다. 만약 해당 패키지의 평판이 좋지 않다면 커뮤니티 내에서 사라질 수밖에 없다. 상업용 버전을 제공하는 RA의 존재 이유는 바로 사후관리와 체계적인 기술 지원을 위해서다.

 

RA는 아시아 시장 중요성을 인지해 유럽보다 빨리 아시아 시장 파트너를 선정했다. 파트너 역량을 평가하던 과정에서 가장 놀라운 곳이 바로 한국이었다.

 

통계학 박사가 다수 확보되어 분석에 대한 이해도가 높고, 또 창의적인 분석이 가능한 역량을 갖추고 있었다. 싱가포르, 일본 등지보다 비즈니스 역량이 우수했다. 그리고 무엇보다 최근 ‘R’에 대한 관심이 급상승하여 한국의 ‘R’ 사용자 그룹이 관련 사용자 모임에 후원을 부탁하는 등의 역동적인 움직임을 보이고 있다. 한국이 분석 시장에서 아시아 지역 국가의 중심이 될 것이라 기대한다.

 

 

 

윤샘 [http://edyoon.tistory.com] 컴교실

 

 

posted by [Selha YoonSem]
: