본문 바로가기
IT동향 및 트렌드

빅데이터란? 빅데이터의 정의, 특성 및 딜레마를 알아봅시다

by 낭라리추 2022. 10. 31.
반응형

빅데이터란 무엇일까요? 요즘 산업계를 뛰어넘어 많은 곳에서 빅데이터에 대해서 언급하고 있습니다. 정부부처는 물론 빅데이터 관련 자격증 홍수까지 빅데이터란 개념이 도처에 많이 활용되고 있는데요, 빅데이터가 무엇인지 알아보도록 합시다.

 

빅데이터의 정의

 

빅데이터란 디지털 환경 속에서 만들어지는 수많은 데이터셋을 의미합니다. 단순한 수치의 나열이 아니라 문자나 영상 데이터 등을 모두 포함하는 대규모 데이터를 의미하며, 그 규모나 형태에 있어서 과거 데이터 개념과 많은 차이점을 보이고 있습니다.

 

 

 

 

 

현재 디지털 경제가 지속적으로 확대 및 확산됨에 따라 사람들은 자발적으로 혹은 비자발적으로 다양한 데이터를 디지털화 하여 제공하고 있습니다. 컴퓨터를 통해서만 디지털 환경에 접속이 가능하였던 과거 대비 현재는 스마트폰 그리고 스마트 워치 등 웨어러블 디바이스 등을 통해 개인들이 도처에 본인의 데이터 발자국을 남기고 있고, 그 데이터들이 쌓여 거대한 데이터셋이 형성되는데 이것이 바로 빅데이터입니다. 또한 최근 사물인터넷(IoT)를 통해 기기와 기기간 정보를 주고받는 사물지능통신(M2M, Machine to Machine)을 통해 개인이 의도하지 않아도 다양한 데이터가 실시간으로 온라인에 쌓이고 있습니다. 그야말로 일상의 모든 생활패턴과 활동들이 하나하나 빼곡하게 모이고 있는 셈입니다.

 

과거 데이터는 대부분 수치의 나열이었으며 이는 통상 정형데이터로 분류되었습니다. 이러한 데이터는 그 값의 의미를 파악하는 것이 어렵지 않아 분석하기가 용이한 형태였습니다. 하지만 현재 만들어지는 데이터는 개인이 SNS에 올리는 각종 영상이나 문자 데이터 등을 포함하고 있으며 이는 정형화 되지 않은 상태로 이를 비정형 데이터라고도 부릅니다. 이는 정돈되지 않은 자연스러운 형태를 띄고 있는데, 이렇게 분석이 용이하지 않은 비정형 데이터를 가공해서 비즈니스 인사이트를 찾아내는 것이 데이터 마이닝(데이터를 분석해서 그 안에 담긴 규칙이나 특정한 패턴을 찾아내는 것)입니다. 이러한 빅데이터는 미래의 가장 중요한 성장동력으로 꼽히며, 세계적 기업들은 빅데이터를 활용한 다양한 기업 생존전략을 구축하고 빅데이터 활용에 선두를 점하고 있는 상황입니다.

 

빅데이터의 특성 및 활용 사례

 

빅데이터의 특징은 4V로 요약됩니다. 용량(Volume), 다양성(Variety), 속도(Velocity) 그리고 가치(Value)입니다. 데이터가 쌓이는 증가속도는 시간이 지날수록 기하급수적으로 증가하고 있는데, 디지털 데이터가 현재 속도로 증가할 경우 지구상의 원자수 보다 디지털 비트 수가 더 많아 질 것이라는 예측도 나왔습니다. 또한 이렇게 급격한 속도와 다양한 형태로 쌓여가는 데이터를 분석하여 그 안에서 새로운 발견인 가치를 이끌어내는 것이 빅데이터의 활용목적이라고 할 수 있습니다. 빅데이터는 어떠한 현상의 원인과 결과를 밝혀 해결책을 제시해주는 인과론에 활용되기보다는 특정한 현상에 대해 큰 그림을 그릴 수 있도록 다양한 변수들 간의 개연성을 보이는 상관성에 그 활용도가 더 크다고 할 수 있습니다.

이러한 빅데이터를 활용한 사례로는 구글이 검색기록을 분석하여 독감과 신종플루 발생 가능성이 높은 지역의 정보를 제공하는 감기 지도’(Flu-map) 서비스를 예로 들수 있습니다. 구글은 자사가 보유하고 있는 검색 시스템을 통하여 WHO(세계보건기구)보다도 먼저 이러한 예측을 더 정확하게 내놓고 있습니다. 또한 아마존 등 거대 쇼핑 플랫폼이 구매자들의 구매패턴, 페이지 체류 시간 등을 분석하여 활용하고 있는 신제품 맞춤형 알림 서비스 등도 그 활용사례에 속합니다.

 

빅데이터의 양면성, 딜레마

 

이러한 빅데이터가 마냥 미래 세계의 구원자일까요? 많은 석학들은 빅데이터가 가지고 있는 양면성을 지적하며 빅데이터로 인한 암울한 미래상을 그리기도 합니다. 특히 이스라엘의 역사학자인 유발 하라리는 그의 저작인 호모 데우스에서 빅데이터가 종교가 된 세상에서 인간은 인간 특유의 경험에 의존한 판단력을 잃어버린 채 데이터라는 시스템 안으로 종속되어 버리고, 결국 그 시스템이 인간의 모든 것을 통제할 것이라는 암울한 전망을 내놓기도 했습니다.

또한 이러한 빅데이터는 위에도 언급한 것처럼 분석이 용이하지 않은 비정형적 데이터를 기반으로 하고 있어 데이터 분석이 쉽지 않고, 그것을 분석하였다 할지라도 이것이 올바르게 합리적으로 분석된 것인지 파악하기가 쉽지 않습니다. 또한 그렇게 잘못 분석된 데이터들을 기반으로 만들어지는 인공지능 알고리즘은 오류를 발생시키기가 쉬우며 이에 따라 인류가 윤리적이나 도덕적으로 옳지 않은 알고리즘에 노출될 가능성이 큰 것도 문제라고 할수 있습니다.

 

또한 수집된 데이터들의 전체 모수가 전체 집단을 대표할 수 없는 것도 문제입니다. 소셜미디어를 통해 생성되는 다양한 데이터들의 출처는 20-30대 등 젊은 층인데, 이들이 제공하는 데이터가 모두를 대변하지 않기에 데이터 수집 시 누락되는 연령층이 있을 수 있음을 항상 인지하고 있어야 할 것입니다.

 
반응형

댓글