대용량 데이터의 빅데이터 처리. 빅 데이터 - 빅 데이터 시스템이란 무엇입니까? 빅데이터 기술 개발

빅 데이터 - 간단한 단어로 무엇입니까

2010년, 빅데이터의 증가하는 문제를 해결하기 위한 첫 번째 시도가 나타나기 시작했습니다. 석방되었다 소프트웨어 제품, 거대한 정보 배열을 사용할 때 위험을 최소화하는 것을 목표로 하는 조치였습니다.

2011년까지 Microsoft, Oracle, EMC 및 IBM과 같은 대기업은 빅 데이터에 관심을 갖기 시작했습니다. 빅 데이터를 개발 전략에 처음으로 사용한 회사는 꽤 성공적이었습니다.

대학들은 이미 2013년부터 빅데이터를 별도의 주제로 연구하기 시작했습니다. 이제 데이터 과학뿐만 아니라 엔지니어링도 컴퓨팅 주제와 함께 이 영역에서 문제를 다루고 있습니다.

데이터 분석 및 처리의 주요 방법은 다음과 같습니다.

  1. 클래스 방법 또는 심층 분석(데이터 마이닝).

이러한 방법은 매우 많지만 정보 기술 분야의 성과와 함께 사용되는 수학적 도구라는 한 가지 방법으로 통합됩니다.

  1. 크라우드소싱.

이 기술을 사용하면 여러 소스에서 동시에 데이터를 얻을 수 있으며 후자의 수는 거의 무제한입니다.

  1. A/B 테스트.

전체 데이터 양에서 요소의 제어 세트가 선택되고, 이는 요소 중 하나가 변경된 다른 유사한 세트와 차례로 비교됩니다. 이러한 테스트를 수행하면 통제 집단에 가장 큰 영향을 미치는 매개변수 변동을 결정하는 데 도움이 됩니다. 빅 데이터의 볼륨 덕분에 엄청난 수의 반복을 수행할 수 있으며 각 반복은 가장 신뢰할 수 있는 결과에 접근합니다.

  1. 예측 분석.

이 분야의 전문가들은 이 상황에서 가장 유리한 결정을 내리기 위해 제어 대상이 어떻게 행동할지 미리 예측하고 계획합니다.

  1. 기계 학습(인공 지능).

이는 정보에 대한 경험적 분석과 시스템에 대한 자가 학습 알고리즘의 후속 구성을 기반으로 합니다.

  1. 네트워크 분석.

가장 일반적인 연구 방법 소셜 네트워크– 통계 데이터를 받은 후 그리드에 생성된 노드, 즉 개별 사용자와 커뮤니티 간의 상호 작용을 분석합니다.

빅데이터 발전의 전망과 동향

빅데이터가 더 이상 새롭고 알려지지 않은 것이 아닌 2017년, 그 중요성은 줄어들 뿐만 아니라 더욱 커졌습니다. 이제 전문가들은 대규모 데이터 분석이 거대 조직뿐만 아니라 중소기업에서도 가능해지리라고 내기를 하고 있다. 이 접근 방식은 다음 구성 요소를 사용하여 구현될 예정입니다.

  • 클라우드 스토리지.

데이터 저장 및 처리가 더 빠르고 경제적이 되고 있습니다. 자체 데이터 센터를 유지 관리하는 비용과 가능한 직원 확장에 비해 클라우드를 임대하는 것이 훨씬 저렴한 대안인 것 같습니다.

  • 다크 데이터 사용.

이른바 '다크 데이터'는 기업에 대한 모든 디지털화되지 않은 정보로, 직접적인 활용에는 핵심적인 역할을 하지 않지만 새로운 정보 저장 형식으로 전환하는 사유로 작용할 수 있다.

  • 인공 지능과 딥 러닝.

구조와 동작을 모방한 머신 지능 학습 기술 인간의 뇌, 끊임없이 변화하는 대량의 정보를 처리하는 데 가장 적합합니다. 이 경우 기계는 사람이 해야 할 모든 작업을 수행하지만 오류 가능성은 크게 줄어듭니다.

  • 블록체인.

이 기술을 사용하면 국제 거래를 포함하여 수많은 인터넷 거래의 속도를 높이고 단순화할 수 있습니다. 블록체인의 또 다른 장점은 거래 비용을 절감한다는 것입니다.

  • 셀프 서비스 및 가격 인하.

2017년에는 "셀프 서비스 플랫폼"을 도입할 계획입니다. 이 플랫폼은 중소기업 대표가 저장한 데이터를 독립적으로 평가하고 체계화할 수 있는 무료 플랫폼입니다.

VISA는 유사하게 빅 데이터를 사용하여 특정 작업을 수행하려는 사기 시도를 추적했습니다. 덕분에 연간 20억 달러 이상의 누출을 절약할 수 있습니다.

독일 노동부는 실업 수당 발행 작업에 빅 데이터 시스템을 구현하여 100억 유로의 비용을 절감했습니다. 동시에 시민의 5분의 1이 정당한 이유 없이 이러한 혜택을 받고 있는 것으로 나타났습니다.

빅데이터는 게임 산업도 우회하지 않았다. 따라서 World of Tanks의 개발자는 모든 플레이어에 대한 정보 연구를 수행하고 사용 가능한 활동 지표를 비교했습니다. 이는 향후 플레이어 이탈 가능성을 예측하는 데 도움이 되었습니다. 가정을 기반으로 조직 대표는 사용자와 보다 효과적으로 상호 작용할 수 있었습니다.

빅 데이터를 사용하는 주목할만한 조직에는 HSBC, Nasdaq, Coca-Cola, Starbucks 및 AT&T도 있습니다.

빅데이터의 문제점

빅데이터의 가장 큰 문제는 처리 비용이다. 여기에는 값비싼 장비와 방대한 양의 정보를 제공할 수 있는 자격을 갖춘 전문가의 임금 비용이 모두 포함될 수 있습니다. 분명히 장비는 데이터 양이 증가함에 따라 최소 성능을 잃지 않도록 정기적으로 업데이트해야 합니다.

두 번째 문제는 다시 큰 금액처리할 정보. 예를 들어 연구가 2-3이 아니라 많은 결과를 제공하는 경우 객관적인 상태를 유지하고 일반적인 데이터 스트림에서 현상의 상태에 실질적인 영향을 미칠 것만 선택하는 것은 매우 어렵습니다.

빅 데이터 개인 정보 문제. 대부분의 고객 서비스 서비스가 온라인 데이터 사용으로 이동함에 따라 사이버 범죄자의 다음 표적이 되기는 매우 쉽습니다. 온라인 거래 없이 단순히 개인 정보를 저장하는 것만으로도 원치 않는 고객이 생길 수 있습니다. 클라우드 스토리지결과.

정보 손실 문제. 주의사항은 단순 1회 데이터 백업에 그치지 않고 2~3회 이상 백업저장. 그러나 볼륨이 증가함에 따라 중복성의 복잡성이 증가하고 IT 전문가는 이 문제에 대한 최상의 솔루션을 찾기 위해 노력하고 있습니다.

러시아와 세계의 빅 데이터 기술 시장

2014년 기준 빅데이터 시장의 40%가 서비스로 구성되어 있다. 이 지표보다 약간 열등한(38%) 빅 데이터 사용 수익입니다. 컴퓨터 장비. 나머지 22%는 소프트웨어에 있습니다.

통계에 따르면 빅 데이터 문제를 해결하기 위해 글로벌 부문에서 가장 유용한 제품은 인메모리 및 NoSQL 분석 플랫폼입니다. 시장의 각각 15%와 12%는 로그 파일 분석 소프트웨어와 Columnar 플랫폼이 점유하고 있습니다. 하지만 실제로 빅데이터 문제에 대처하는 하둡/맵리듀스는 그다지 효과적이지 않다.

빅 데이터 기술 구현 결과:

  • 고객 서비스 품질 향상
  • 공급망 통합 최적화;
  • 조직 계획 최적화;
  • 고객과의 상호 작용 가속화;
  • 고객 요청 처리 효율성 향상
  • 서비스 비용 감소;
  • 클라이언트 요청 처리 최적화.

최고의 빅 데이터 책

Rick Smolan과 Jennifer Erwitt의 "빅 데이터의 인간적인 얼굴"

빅 데이터 처리 기술의 초기 연구에 적합 - 쉽고 명확하게 최신 정보를 제공합니다. 풍부한 정보가 어떤 영향을 미쳤는지 명확히 합니다. 일상 생활과학, 비즈니스, 의학 등 모든 분야. 수많은 삽화가 포함되어 있어 큰 노력 없이 인지됩니다.

Pang-Ning Tan, Michael Steinbach 및 Vipin Kumar의 "데이터 마이닝 소개"

또한 "단순한 것에서 복잡한 것까지" 빅 데이터를 다루는 방법을 설명하는 빅 데이터 초보자를 위한 유용한 책입니다. 처리 준비, 시각화, OLAP, 데이터 분석 및 분류 방법 등 초기 단계의 많은 중요한 사항을 다룹니다.

"파이썬 머신 러닝", Sebastian Raska

Python 프로그래밍 언어를 사용하여 빅 데이터를 사용하고 작업하는 방법에 대한 실용적인 가이드입니다. 공학도와 지식을 심화하려는 전문가 모두에게 적합합니다.

"인형을 위한 Hadoop", Dirk Derus, Paul S. Zikopoulos, Roman B. Melnik

Hadoop은 수천 개의 노드에서 동시에 실행되는 작업을 구성하는 분산 프로그램과 함께 작동하도록 특별히 설계된 프로젝트입니다. 이것에 대해 알면 빅 데이터의 실제 적용을 더 자세히 이해하는 데 도움이 될 것입니다.

게으른 사람만이 빅 데이터에 대해 이야기하지 않지만 빅 데이터가 무엇인지, 어떻게 작동하는지 거의 이해하지 못합니다. 가장 간단한 용어부터 시작하겠습니다. 러시아어로 말하면 빅 데이터는 특정 작업과 목적에 사용하기 위해 정형 및 비정형 데이터를 모두 처리하는 다양한 도구, 접근 방식 및 방법입니다.

비정형 데이터는 미리 정해진 구조가 없거나 특정 순서로 구성되지 않은 정보입니다.

"빅 데이터"라는 용어는 2008년 Nature의 편집자인 Clifford Lynch가 세계 정보량의 폭발적인 성장에 관한 특별호에서 처음 사용했습니다. 물론 빅 데이터 자체는 이전에도 존재했지만. 전문가들에 따르면 하루에 100GB가 넘는 데이터 흐름의 대부분은 빅 데이터 범주에 속합니다.

더 읽어보기:

오늘날 이 간단한 용어는 데이터 저장과 처리라는 두 단어만 숨깁니다.

빅 데이터 - 간단히 말해서

입력 현대 세계빅데이터는 방대한 양의 데이터를 분석할 수 있는 새로운 기술적 기회가 등장한 것과 관련된 사회경제적 현상이다.

더 읽어보기:

이해의 편의를 위해 모든 상품이 익숙한 순서가 아닌 슈퍼마켓을 상상해 보십시오. 과일 옆에 빵, 냉동 피자 옆에 토마토 페이스트, 아보카도, 두부 또는 표고버섯 등이 들어 있는 탐폰 랙 옆에 가벼운 액체. 빅 데이터는 모든 것을 제자리에 놓고 견과류 우유를 찾고, 비용과 유통 기한을 알아내고, 당신 외에 누가 그런 우유를 구입하는지, 우유가 우유보다 얼마나 좋은지 알 수 있도록 도와줍니다.

Kenneth Cookier: 빅 데이터는 더 나은 데이터입니다.

빅데이터 기술

엄청난 양의 데이터가 처리되어 개인이 더 효과적인 적용을 위해 구체적이고 필요한 결과를 얻을 수 있습니다.

더 읽어보기:

실제로 빅 데이터는 문제 해결사이자 기존 데이터 관리 시스템의 대안입니다.

McKinsey에 따르면 빅 데이터에 적용 가능한 분석 기법 및 방법:

  • 데이터 수집;
  • 크라우드소싱;
  • 혼합 및 데이터 통합
  • 기계 학습;
  • 인공 신경망;
  • 패턴 인식;
  • 예측 분석;
  • 시뮬레이션 모델링;
  • 공간 분석;
  • 통계 분석;
  • 분석 데이터의 시각화.

데이터 처리를 가능하게 하는 수평적 확장성은 빅데이터 처리의 기본 원칙이다. 데이터는 컴퓨팅 노드에 분산되며 성능 저하 없이 처리됩니다. McKinsey는 또한 적용 가능성의 맥락에서 관계형 관리 시스템과 비즈니스 인텔리전스를 포함했습니다.

기술:

  • NoSQL;
  • 맵리듀스;
  • 하둡;
  • 하드웨어 솔루션.

더 읽어보기:

빅 데이터의 경우 2001년에 Meta Group이 개발한 전통적인 정의 특성이 있습니다. 쓰리 V»:

  1. 용량- 물리적 볼륨의 값.
  2. 속도- 성장률 및 결과를 얻기 위한 빠른 데이터 처리의 필요성.
  3. 다양성- 서로 다른 유형의 데이터를 동시에 처리하는 기능.

빅 데이터: 적용 및 기회

이질적이고 빠르게 유입되는 디지털 정보의 양은 기존 도구로 처리할 수 없습니다. 데이터 자체를 분석하면 사람이 볼 수 없는 특정하고 감지할 수 없는 패턴을 볼 수 있습니다. 이를 통해 우리는 공공 행정에서 제조 및 통신에 이르기까지 우리 삶의 모든 영역을 최적화할 수 있습니다.

예를 들어, 몇 년 전에 일부 회사는 사기로부터 고객을 보호했으며 고객의 돈을 돌보는 것은 자신의 돈을 돌보는 것입니다.

Susan Atliger: 빅 데이터는 어떻습니까?

빅 데이터 기반 솔루션: Sberbank, Beeline 및 기타 회사

Beeline은 가입자에 대한 방대한 양의 데이터를 보유하고 있으며, 가입자와 협력할 뿐만 아니라 외부 컨설팅 또는 IPTV 분석과 같은 분석 제품을 만드는 데도 사용합니다. Beeline은 스토리지에 HDFS 및 Apache Spark를 사용하고 데이터 처리에 Rapidminer 및 Python을 사용하여 데이터베이스를 세분화하고 금전 사기 및 바이러스로부터 고객을 보호했습니다.

더 읽어보기:

또는 AS SAFI라는 오래된 케이스로 Sberbank를 기억하십시오. 사진을 분석하여 은행 고객을 식별하고 사기를 방지하는 시스템입니다. 이 시스템은 2014년에 도입되었으며 컴퓨터 비전 덕분에 랙에 있는 웹캠에서 가져온 데이터베이스의 사진을 비교하는 것을 기반으로 합니다. 시스템의 기본은 생체 인식 플랫폼입니다. 덕분에 사기 건수도 10배나 줄었다.

세계의 빅 데이터

예측에 따르면 2020년까지 인류는 40-44제타바이트의 정보를 형성할 것입니다. IDC 분석가들이 작성한 데이터 시대 2025 보고서에 따르면 2025년까지 10배 성장할 것입니다. 보고서에 따르면 대부분의 데이터는 일반 소비자가 아닌 기업 자체에서 생성됩니다.

이 연구의 분석가들은 데이터가 중요한 자산이 되고 보안이 삶의 중요한 기반이 될 것이라고 믿습니다. 또한 이 작업의 저자는 이 기술이 경제 환경을 바꿀 것이며 일반 사용자는 하루에 약 4800번 연결된 장치와 통신할 것이라고 확신합니다.

러시아의 빅 데이터 시장

2017년 빅데이터 시장의 글로벌 매출은 전년 대비 12.4% 증가한 1,508억 달러에 이를 것으로 예상됩니다. 세계적인 규모로 러시아 시장서비스 및 빅 데이터 기술은 여전히 ​​매우 작습니다. 2014년 미국 기업 IDC는 이를 3억 4000만 달러로 추산했으며 러시아에서는 은행, 에너지, 물류, 공공 부문, 통신 및 산업 분야에서 이 기술이 사용됩니다.

더 읽어보기:

데이터 시장은 러시아에서 초기 단계에 불과합니다. RTB 생태계 내에서 데이터 제공자는 프로그래밍 방식 데이터 관리 플랫폼(DMP) 및 데이터 교환의 소유자입니다. 통신 사업자 파일럿은 잠재적 차용자에 대한 소비자 정보를 은행과 공유합니다.

일반적으로 빅 데이터는 세 가지 소스에서 나옵니다.

  • 인터넷(소셜 네트워크, 포럼, 블로그, 미디어 및 기타 사이트)
  • 문서의 기업 아카이브;
  • 센서, 기기 및 기타 장치의 표시.

은행의 빅 데이터

위에서 설명한 시스템 외에도 2014-2018년 Sberbank의 전략에서. 고품질 고객 서비스, 위험 관리 및 비용 최적화를 위한 슈퍼 데이터 세트 분석의 중요성에 대해 설명합니다. 은행은 이제 빅 데이터를 사용하여 위험 관리, 사기 방지, 고객 신용도 분류 및 평가, 직원 관리, 지점 대기열 예측, 직원 보너스 계산 및 기타 작업을 수행합니다.

VTB24는 빅 데이터를 사용하여 고객 이탈을 분류 및 관리하고 재무제표를 생성하며 소셜 네트워크 및 포럼에서 피드백을 분석합니다. 이를 위해 그는 Teradata, SAS Visual Analytics 및 SAS Marketing Optimizer 솔루션을 사용합니다.

우리는 정기적으로 유행어와 정의를 우연히 보게 되는데, 그 의미는 직관적으로 우리에게 분명해 보이지만 그것이 무엇이며 어떻게 작동하는지에 대한 명확한 그림은 없습니다.

이러한 개념 중 하나는 빅 데이터입니다. 러시아어로 "빅 데이터"라는 문자 그대로의 번역을 찾을 수 있지만 더 자주 사람들은 빅 데이터를 그대로 말하고 씁니다. 누구나 한번쯤은 들어봤거나 적어도, 인터넷에서 이 문구를 만났고 간단해 보이지만 디지털 세계의 복잡함과는 거리가 먼 사무실 휴머니스트가 정확히 의미하는 바가 항상 명확한 것은 아닙니다.

가장 광범위한 사용자의 두뇌에 있는 이 격차를 메우기 위한 탁월한 시도는 우리가 가장 좋아하는 작가 중 한 명인 Bernard Marr의 기사입니다. “빅데이터란 무엇인가? 모두를 위한 아주 간단한 설명". 교육 및 활동 분야에 관계없이 모든 사람에게이 현상의 핵심 아이디어를 설명하기위한 유일한 목적으로 난해한 전문 용어없이.

사실, 지난 몇 년 동안 우리는 이미 빅 데이터가 만연한 세상에 살고 있지만 그것이 무엇인지 이해하는 데 계속 혼란스러워합니다. 이는 부분적으로 첨단 기술의 세계와 많은 양의 정보 처리가 점점 더 많은 새로운 옵션을 포함하여 매우 빠르게 변화하고 있기 때문에 빅 데이터 자체의 개념이 지속적으로 변형되고 재고되기 때문입니다. 그리고 이 정보의 양은 지속적으로 증가하고 있습니다.

그렇다면 빅 데이터 - 2017은 무엇을 의미합니까?

이 모든 것은 디지털 시대가 시작된 이후로 생성된 데이터 양이 폭발적으로 증가하면서 시작되었습니다. 이것은 컴퓨터의 수와 능력의 증가, 인터넷의 확장, 우리 모두가 살고 있는 실제 물리적 세계에서 정보를 캡처하고 이를 디지털 데이터로 변환할 수 있는 기술의 발전에 의해 크게 가능해졌습니다.

2017년에는 온라인에 접속할 때, GPS가 장착된 스마트폰을 사용할 때, 소셜 네트워크에서 친구와 채팅할 때, 다운로드할 때 데이터를 생성합니다. 모바일 애플리케이션또는 쇼핑할 때 음악.

우리의 행동에 디지털 거래가 포함된다면 우리가 무엇을 하든 많은 디지털 발자국을 남기고 있다고 말할 수 있습니다. 그것은 거의 항상 그리고 어디에나 있습니다.

또한 기계 자체에서 생성되는 데이터의 양이 엄청난 속도로 증가하고 있습니다. 스마트 기기가 서로 통신할 때 데이터가 생성되고 전송됩니다. 전 세계의 제조 공장에는 밤낮으로 데이터를 수집하고 전송하는 장비가 장착되어 있습니다.

가까운 미래에 우리의 거리는 실시간으로 생성된 4D 지도를 기반으로 하는 자율주행 자동차로 가득 차게 될 것입니다.

빅 데이터는 무엇을 할 수 있습니까?

감각 정보, 사진, 문자 메시지, 오디오 및 비디오 데이터의 계속 증가하는 흐름은 몇 년 전에는 상상도 할 수 없었던 방식으로 사용할 수 있는 빅 데이터의 핵심입니다.

현재 빅 데이터 기반 프로젝트는 다음을 지원합니다.

- 질병을 치료하고 암을 예방. 빅데이터 기반의 의학은 방대한 양의 진료기록과 영상을 분석하여 조기 진단이 가능하고 새로운 치료법을 만드는 데 기여합니다.

- 굶주림과 싸우다. 농업은 생태계에 대한 간섭을 최소화하면서 수확량을 극대화하고 기계 및 장비 사용을 최적화하는 방식으로 자원을 사용할 수 있는 진정한 빅 데이터 혁명을 경험하고 있습니다.

- 먼 행성 발견. 예를 들어, NASA는 방대한 양의 데이터를 분석하고 도움을 받아 먼 세계에 대한 미래 임무 모델을 구축합니다.

- 비상 사태 예측다른 성질과 가능한 손상을 최소화합니다. 여러 센서의 데이터는 다음 지진이 언제 어디서 발생하는지 또는 비상 상황에서 사람들이 어떻게 반응할지 예측하여 생존 가능성을 높일 수 있습니다.

- 범죄 예방자원을 보다 효율적으로 할당하고 가장 필요한 곳으로 안내하는 기술을 사용합니다.

그리고 우리 대부분에게 가장 가까운 것: 빅 데이터는 평범한 사람의 삶을 더 쉽고 편리하게 만듭니다. 이것은 대도시에서의 온라인 쇼핑, 여행 계획 및 탐색입니다.

빅데이터 덕분에 항공권을 사기 가장 좋은 시기를 선택하고 볼 영화나 시리즈를 결정하는 것이 훨씬 쉬워졌습니다.

어떻게 작동합니까?

빅 데이터는 무언가에 대해 더 많이 알수록 미래에 일어날 일을 더 정확하게 예측할 수 있다는 원칙에 따라 작동합니다. 개별 데이터와 이들 간의 관계를 비교하면(우리는 엄청난 양의 데이터와 이들 간의 가능한 연결 가능성에 대해 이야기하고 있음) 이전에 숨겨진 패턴을 드러냅니다. 이를 통해 문제 내부를 살펴보고 궁극적으로 이 프로세스 또는 해당 프로세스를 관리할 수 있는 방법을 이해할 수 있습니다.

대부분의 경우 대량의 정보를 처리하는 프로세스에는 수집된 데이터를 기반으로 모델을 구축하고 시뮬레이션을 실행하는 것이 포함됩니다. 이 동안 주요 설정은 지속적으로 변경되며 매번 시스템은 "설정 변경"이 가능한 결과에 미치는 영향을 모니터링합니다.

이 프로세스는 완전히 자동화되어 있습니다. 수백만 개의 시뮬레이션을 분석하고 패턴(원하는 구성표)을 찾거나 "계몽"이 발생할 때까지 가능한 모든 옵션을 정렬하여 모든 것이 시작된 문제를 해결하는 데 도움이 되기 때문입니다.

우리에게 익숙한 객체와 계산의 세계와 달리 데이터는 구조화되지 않은 형태로 수신됩니다. 즉, 우리에게 친숙한 셀과 열이있는 테이블에 밀어 넣는 것이 어렵습니다. 엄청난 양의 데이터가 이미지나 동영상으로 전송됩니다. 위성 이미지에서 Instagram 또는 Facebook에 게시하는 셀카에 이르기까지 이메일, 메신저 항목 또는 전화 통화와 같습니다.

이 끝없고 잡다한 데이터 스트림에 실용적인 의미를 부여하기 위해 빅 데이터는 인공 지능 및 머신 러닝(컴퓨터의 프로그램이 다른 프로그램을 가르칠 때)을 포함하는 가장 진보된 분석 기술을 종종 사용합니다.

컴퓨터 자체는 예를 들어 이미지, 언어를 인식하는 것과 같이 이 정보 또는 저 정보가 나타내는 것을 결정하는 방법을 배우며 인간보다 훨씬 빠르게 이 작업을 수행할 수 있습니다.

형?

오늘날 빅 데이터가 우리에게 제공하는 전례 없는 기회에 비례하여 빅 데이터 사용과 관련된 우려와 질문이 증가하고 있습니다.

개인 데이터의 개인 정보 보호. 빅데이터는 우리의 사생활에 관한 엄청난 양의 정보를 수집합니다. 비밀로 하고 싶은 정보가 많이 있습니다.

보안. 우리에게 유익한 특정 목적을 위해 모든 개인 데이터를 기계로 전송하는 데 아무런 문제가 없다고 결정하더라도 데이터가 안전한 장소에 저장되어 있다고 확신할 수 있습니까?
우리는 이것을 누구와 어떻게 보증할 수 있습니까?

차별. 모든 것이 알려지면 빅 데이터 덕분에 사람들에 대해 알려진 내용을 기반으로 사람들을 차별하는 것이 허용됩니까? 은행은 귀하의 신용 기록을 사용하고 보험 회사는 귀하에 대해 알고 있는 정보를 기반으로 자동차 보험 가격을 책정합니다. 이것이 어디까지 갈 수 있습니까?

위험을 최소화하기 위해 회사, 정부 기관 및 개인이 우리에 대해 배울 수 있는 정보를 사용하고 어떤 이유로 리소스 및 정보에 대한 액세스를 제한할 것이라고 가정할 수 있습니다.

모든 이점과 함께 이러한 모든 우려 사항도 빅 데이터의 필수적인 부분이라는 것을 인식해야 합니다. 최근까지 과학자들은 그 해답에 대해 의아해했지만 이제는 빅 데이터의 이점을 자신의 목적에 맞게 활용하려는 기업에 물결이 일고 있는 시대가 되었습니다. 그리고 이것은 치명적인 결과를 초래할 수 있습니다.

(문자 그대로 - 빅 데이터)? 먼저 옥스포드 사전을 보자.

데이터- 컴퓨터에 의해 작동되는 양, 문자 또는 기호로서 전기 신호의 형태로 저장 및 전송될 수 있고 자기, 광학 또는 기계 매체에 기록됩니다.

용어 빅 데이터기하급수적으로 증가하는 대규모 데이터 세트를 설명하는 데 사용됩니다. 이 양의 데이터를 처리하려면 머신 러닝이 필수적입니다.

빅 데이터가 제공하는 이점:

  1. 다양한 소스에서 데이터 수집.
  2. 실시간 분석을 통해 비즈니스 프로세스를 개선합니다.
  3. 엄청난 양의 데이터 저장.
  4. 통찰력. 빅데이터는 정형 데이터와 반정형 데이터를 통해 숨겨진 정보에 대해 더 통찰력이 있습니다.
  5. 빅 데이터는 올바른 위험 분석을 통해 위험을 줄이고 더 현명한 결정을 내리는 데 도움이 됩니다.

빅 데이터의 예

뉴욕 증권 거래소매일 생성 1테라바이트이전 세션의 거래 데이터.

소셜 미디어: 통계에 따르면 Facebook 데이터베이스가 매일 업로드됨 500테라바이트새로운 데이터는 주로 소셜 네트워크 서버에 사진 및 비디오 업로드, 메시징, 게시물 댓글 등으로 인해 생성됩니다.

제트 엔진생성 10테라바이트비행 중 30분마다 데이터. 매일 수천 번의 비행이 이루어지기 때문에 데이터의 양은 페타바이트에 달합니다.

빅데이터 분류

빅 데이터 형식:

  • 구조화된
  • 비정형
  • 반구조

구조화된 형태

고정된 형식으로 저장, 액세스 및 처리할 수 있는 데이터를 구조화된 데이터라고 합니다. 오랫동안 컴퓨터 과학이러한 유형의 데이터(형식이 미리 알려진 경우)로 작업하는 기술을 개선하는 데 큰 진전을 이루었고 이점을 얻는 방법을 배웠습니다. 그러나 오늘날 이미 수 제타바이트 범위에서 측정된 크기로 볼륨이 증가하는 것과 관련된 문제가 있습니다.

1제타바이트는 10억 테라바이트와 같습니다.

이 수치를 보면 빅 데이터라는 용어의 정확성과 그러한 데이터의 처리 및 저장과 관련된 어려움을 쉽게 확신할 수 있습니다.

관계형 데이터베이스에 저장된 데이터는 구조화되어 있으며 예를 들어 회사 직원 테이블과 유사합니다.

구조화되지 않은 형태

데이터 알 수 없는 구조구조화되지 않은 것으로 분류됩니다. 이 형태는 큰 크기 외에도 가공 및 추출에 많은 어려움이 있는 것이 특징입니다. 유용한 정보. 비정형 데이터의 일반적인 예는 간단한 텍스트 파일, 사진 및 비디오의 조합을 포함하는 이기종 소스입니다. 오늘날 조직은 대량의 원시 또는 비정형 데이터에 액세스할 수 있지만 이를 활용하는 방법을 모릅니다.

반구조적 형태

이 범주는 위의 두 가지를 모두 포함하므로 반구조화된 데이터에는 어떤 형식이 있지만 실제로 관계형 데이터베이스의 테이블에 의해 정의되지는 않습니다. 이 범주의 예는 XML 파일로 제공되는 개인 데이터입니다.

프라샨트 라오남성35 시마 R.여자41 사티시 갈기남성29 수브라토 로이남성26 예레미야 J.남성35

빅데이터의 특징

시간 경과에 따른 빅 데이터의 성장:

파란색은 관계형 데이터베이스에 저장된 구조화된 데이터(엔터프라이즈 데이터)를 나타냅니다. 다른 색상 - 다양한 소스의 구조화되지 않은 데이터(IP 전화, 장치 및 센서, 소셜 네트워크 및 웹 애플리케이션).

Gartner에 따르면 빅 데이터는 크기, 생성 속도, 다양성 및 변동성이 다릅니다. 이러한 특성을 더 자세히 고려해 보겠습니다.

  1. 용량. 빅 데이터라는 용어는 그 자체로 큰 규모와 관련이 있습니다. 데이터의 크기는 복구 가능한 가치를 결정하는 가장 중요한 지표입니다. 매일 600만 명이 디지털 미디어를 사용합니다. 예비 견적 2.5퀸틸리언 바이트의 데이터를 생성합니다. 따라서 볼륨은 고려해야 할 첫 번째 특성입니다.
  2. 다양성다음 측면입니다. 그는 이기종 소스와 구조화되거나 구조화되지 않은 데이터의 특성을 언급합니다. 이전에는 스프레드시트와 데이터베이스가 유일한 소스대부분의 응용 프로그램에서 고려되는 정보. 오늘날에는 이메일, 사진, 동영상, PDF 파일, 오디오는 분석 응용 프로그램에서도 고려됩니다. 이처럼 다양한 비정형 데이터는 저장, 마이닝 및 분석에 문제를 야기합니다. 기업의 27%는 올바른 데이터로 작업하고 있는지 확신하지 못합니다.
  3. 발전율. 요구 사항을 충족하기 위해 데이터가 얼마나 빨리 축적되고 처리되는지가 잠재력을 결정합니다. 속도는 비즈니스 프로세스, 애플리케이션 로그, 소셜 네트워킹 및 미디어 사이트, 센서, 모바일 기기. 데이터의 흐름은 시간적으로 거대하고 연속적입니다.
  4. 가변성처리 및 관리를 복잡하게 하는 특정 시점의 데이터 변동성을 설명합니다. 예를 들어, 대부분의 데이터는 본질적으로 구조화되지 않습니다.

빅 데이터 분석: 빅 데이터의 용도

상품 및 서비스 판촉: Facebook, Twitter와 같은 검색 엔진 및 사이트의 데이터에 액세스하여 기업이 마케팅 전략을 보다 정확하게 개발할 수 있습니다.

고객 서비스 개선: 기존 시스템 피드백빅데이터와 자연어 처리를 통해 고객 피드백을 읽고 평가하는 새로운 고객으로 대체됩니다.

위험 계산새로운 제품이나 서비스의 출시와 관련이 있습니다.

운영 효율성: 빅데이터는 올바른 정보를 보다 빠르게 추출하고, 정확한 결과를 신속하게 도출할 수 있도록 구조화되어 있습니다. 빅 데이터 기술과 스토리지의 이러한 조합은 조직이 거의 사용하지 않는 정보로 작업을 최적화하는 데 도움이 됩니다.

빅 데이터는 대규모 데이터 세트에서 정보를 수집, 구성 및 처리하는 데 필요한 혁신적인 전략 및 기술에 대한 광범위한 용어입니다. 단일 컴퓨터의 컴퓨팅 성능이나 저장 용량을 초과하는 데이터를 처리하는 문제가 새로운 것은 아니지만 이러한 유형의 컴퓨팅의 규모와 가치는 최근 몇 년 동안 크게 확대되었습니다.

이 기사에서는 빅 데이터를 탐색할 때 접할 수 있는 주요 개념을 찾을 수 있습니다. 또한 이 영역에서 현재 사용 중인 일부 프로세스 및 기술에 대해서도 설명합니다.

빅데이터란 무엇인가?

프로젝트, 공급업체, 실무자 및 비즈니스 전문가가 매우 다른 방식으로 빅 데이터를 사용하기 때문에 "빅 데이터"에 대한 정확한 정의를 정의하기 어렵습니다. 이를 염두에 두고 빅 데이터는 다음과 같이 정의할 수 있습니다.

  • 대규모 데이터세트.
  • 대규모 데이터 세트를 처리하는 데 사용되는 계산 전략 및 기술의 범주입니다.

이 맥락에서 "대형 데이터 세트"는 너무 커서 기존 도구를 사용하거나 단일 컴퓨터에서 처리하거나 저장할 수 없는 데이터 세트를 의미합니다. 이는 대규모 데이터 세트의 전체 규모가 지속적으로 변경되고 사례마다 크게 다를 수 있음을 의미합니다.

빅 데이터 시스템

빅 데이터 작업을 위한 기본 요구 사항은 다른 데이터 세트와 동일합니다. 그러나 프로세스의 각 단계에서 직면하는 방대한 규모, 처리 속도 및 데이터 특성은 도구 개발에서 심각한 새로운 도전과제를 제시합니다. 대부분의 빅 데이터 시스템의 목표는 기존의 방법으로는 불가능한 방식으로 대량의 이기종 데이터를 이해하고 통신하는 것입니다.

2001년 Gartner의 Doug Laney는 빅 데이터 처리를 다른 유형의 데이터 처리와 구별하는 몇 가지 특성을 설명하기 위해 "빅 데이터의 세 가지 V"를 도입했습니다.

  1. 볼륨(데이터 볼륨).
  2. 속도(데이터 축적 및 처리 속도).
  3. 다양성(다양한 유형의 처리된 데이터).

데이터 볼륨

처리되는 정보의 탁월한 규모는 빅 데이터 시스템을 정의하는 데 도움이 됩니다. 이러한 데이터 세트는 기존 데이터 세트보다 수십 배 더 클 수 있으므로 처리 및 저장의 모든 단계에서 더 많은 주의가 필요합니다.

요구 사항이 단일 컴퓨터의 용량을 초과하기 때문에 컴퓨터 그룹에서 리소스를 풀링, 배포 및 조정할 때 문제가 발생하는 경우가 많습니다. 작업을 더 작은 부분으로 나눌 수 있는 클러스터 관리 및 알고리즘은 이 영역에서 점점 더 중요해지고 있습니다.

축적 및 처리 속도

빅데이터가 다른 데이터 시스템과 크게 구별되는 두 번째 특징은 시스템을 통해 정보가 이동하는 속도입니다. 데이터는 종종 여러 소스에서 시스템에 들어오며 시스템의 현재 상태를 업데이트하기 위해 실시간으로 처리되어야 합니다.

즉각적인 피드백에 대한 이러한 강조로 인해 많은 실무자들이 실시간 스트리밍 시스템을 위해 배치 지향 접근 방식을 포기했습니다. 새로운 정보의 유입에 발맞추고 가장 관련성이 높은 초기 단계에서 귀중한 데이터를 얻기 위해 데이터가 지속적으로 추가, 처리 및 분석되고 있습니다. 이를 위해서는 데이터 파이프라인을 따라 오류가 발생하지 않도록 보호하기 위해 고가용성 구성 요소가 포함된 강력한 시스템이 필요합니다.

다양한 처리 데이터 유형

빅 데이터는 처리되는 광범위한 소스 및 상대적 품질과 관련된 고유한 문제가 많습니다.

데이터는 애플리케이션 및 서버 로그, 소셜 미디어 피드 및 기타 외부 API, 물리적 장치 센서 및 기타 소스와 같은 내부 시스템에서 가져올 수 있습니다. 빅데이터 시스템의 목표는 출처에 관계없이 모든 정보를 단일 시스템으로 결합하여 잠재적으로 유용한 데이터를 처리하는 것입니다.

미디어 형식과 유형도 상당히 다를 수 있습니다. 미디어 파일(이미지, 비디오 및 오디오)은 텍스트 파일, 구조화된 로그 등과 결합됩니다. 보다 전통적인 데이터 처리 시스템은 데이터가 이미 레이블이 지정되고 형식이 지정되고 구성된 파이프라인에 들어갈 것으로 예상하지만 빅 데이터 시스템은 일반적으로 데이터를 수신하고 저장합니다. 원래 상태를 유지하려고 합니다. 이상적으로는 원시 데이터에 대한 모든 변환 또는 수정이 처리 중에 메모리에서 발생합니다.

기타 특성

시간이 지남에 따라 개인과 조직은 원래의 "3V"를 확장하는 것을 제안했지만 이러한 혁신은 빅 데이터의 특성보다 문제를 설명하는 경향이 있습니다.

  • 정확성: 다양한 소스와 처리의 복잡성으로 인해 데이터 품질(따라서 결과 분석의 품질)을 평가하는 데 문제가 발생할 수 있습니다.
  • 가변성(데이터 가변성): 데이터를 변경하면 품질이 크게 변경됩니다. 저품질 데이터를 식별, 처리 또는 필터링하려면 데이터 품질을 개선하기 위해 추가 리소스가 필요할 수 있습니다.
  • 가치: 빅데이터의 최종 목표는 가치입니다. 때로는 시스템과 프로세스가 매우 복잡하여 데이터를 사용하고 실제 값을 추출하기 어렵습니다.

빅 데이터 수명 주기

그렇다면 빅 데이터는 실제로 어떻게 처리됩니까? 구현 방식에는 여러 가지가 있지만 전략과 소프트웨어 사이에는 공통점이 있습니다.

  • 시스템에 데이터 입력
  • 스토리지에 데이터 저장
  • 데이터 계산 및 분석
  • 결과 시각화

이 네 가지 범주의 워크플로를 자세히 살펴보기 전에 많은 빅 데이터 처리 도구에서 사용하는 중요한 전략인 클러스터 컴퓨팅에 대해 알아보겠습니다. 컴퓨팅 클러스터를 설정하는 것은 수명 주기의 모든 단계에서 사용되는 기술의 중추입니다.

클러스터 컴퓨팅

빅 데이터의 품질로 인해 개별 컴퓨터는 데이터 처리에 적합하지 않습니다. 클러스터는 빅 데이터의 저장 및 컴퓨팅 요구 사항을 처리할 수 있으므로 이에 더 적합합니다.

빅 데이터 클러스터링 소프트웨어는 다음과 같은 많은 이점을 제공하기 위해 많은 소형 머신의 리소스를 풀링합니다.

  • 리소스 풀링: 대용량 데이터 세트를 처리하려면 많은 양의 CPU 및 메모리 리소스와 사용 가능한 저장 공간이 많이 필요합니다.
  • 고가용성: 클러스터는 데이터 액세스 및 처리가 하드웨어 또는 소프트웨어 오류의 영향을 받지 않도록 다양한 수준의 탄력성과 가용성을 제공할 수 있습니다. 이는 실시간 분석에 특히 중요합니다.
  • 확장성: 클러스터는 빠른 수평 확장(클러스터에 새 시스템 추가)을 지원합니다.

클러스터에서 작업하려면 클러스터 구성원을 관리하고, 리소스 할당을 조정하고, 개별 노드에 대한 작업을 계획하는 도구가 필요합니다. 클러스터 멤버십 및 리소스 할당은 Hadoop YARN(Yet Another Resource Negotiator) 또는 Apache Mesos와 같은 프로그램으로 처리할 수 있습니다.

조립식 컴퓨팅 클러스터는 종종 다른 클러스터가 데이터를 처리하기 위해 상호 작용하는 기반 역할을 합니다. 소프트웨어. 컴퓨팅 클러스터에 참여하는 머신은 일반적으로 분산 스토리지 관리와도 연결됩니다.

데이터 가져오기

데이터 수집은 원시 데이터를 시스템에 추가하는 프로세스입니다. 이 작업의 복잡성은 데이터 원본의 형식과 품질, 데이터가 처리 요구 사항을 충족하는 방법에 따라 크게 달라집니다.

특별한 도구를 사용하여 시스템에 빅 데이터를 추가할 수 있습니다. Apache Sqoop과 같은 기술은 관계형 데이터베이스에서 기존 데이터를 가져와 빅 데이터 시스템에 추가할 수 있습니다. 애플리케이션 및 서버 로그를 집계하고 가져오도록 설계된 프로젝트인 Apache Flume 및 Apache Chukwa를 사용할 수도 있습니다. Apache Kafka와 같은 메시지 브로커는 다양한 데이터 생성기와 빅 데이터 시스템 간의 인터페이스로 사용할 수 있습니다. Gobblin과 같은 프레임워크는 파이프라인 끝에서 모든 도구의 출력을 결합하고 최적화할 수 있습니다.

데이터 수집 중에는 일반적으로 분석, 정렬 및 레이블 지정이 수행됩니다. 이 프로세스는 추출, 변환 및 로드를 의미하는 ETL(추출, 변환, 로드)이라고도 합니다. 이 용어는 일반적으로 레거시 스토리지 프로세스를 나타내지만 때로는 빅 데이터 시스템에도 적용됩니다. 일반적인 작업에는 서식 지정, 분류 및 레이블 지정, 데이터 필터링 또는 유효성 검사를 위해 들어오는 데이터 수정이 포함됩니다.

이상적으로는 들어오는 데이터가 최소한의 형식으로 지정됩니다.

데이터 저장고

수신된 데이터는 스토리지를 관리하는 구성 요소로 전달됩니다.

일반적으로 분산 파일 시스템은 원시 데이터를 저장하는 데 사용됩니다. Apache Hadoop의 HDFS와 같은 솔루션을 사용하면 클러스터의 여러 노드에 대량의 데이터를 쓸 수 있습니다. 이 시스템은 데이터에 액세스할 수 있는 컴퓨팅 리소스를 제공하고 메모리 작업을 위해 데이터를 클러스터 RAM에 로드하고 구성 요소 오류를 처리할 수 있습니다. Ceph 및 GlusterFS를 포함하여 HDFS 대신 다른 분산 파일 시스템을 사용할 수 있습니다.

보다 구조화된 액세스를 위해 데이터를 다른 분산 시스템으로 가져올 수도 있습니다. 분산 데이터베이스, 특히 NoSQL 데이터베이스는 이기종 데이터를 처리할 수 있기 때문에 이 역할에 적합합니다. 데이터를 구성하고 표시하려는 방법에 따라 다양한 유형의 분산 데이터베이스가 있습니다.

데이터 계산 및 분석

데이터를 사용할 수 있게 되면 시스템에서 처리를 시작할 수 있습니다. 여기의 요구 사항과 접근 방식은 정보 유형에 따라 크게 다를 수 있으므로 계산 수준은 아마도 시스템에서 가장 자유로운 부분일 것입니다. 데이터는 종종 단일 도구 또는 다양한 유형의 데이터를 처리하기 위한 다양한 도구를 사용하여 재처리됩니다.

일괄 처리는 대규모 데이터 세트의 계산 방법 중 하나입니다. 이 프로세스에는 데이터를 더 작은 조각으로 나누고, 각 조각을 별도의 기계에서 처리하도록 예약하고, 중간 결과를 기반으로 데이터를 재정렬한 다음, 최종 결과를 계산하고 수집하는 과정이 포함됩니다. 이 전략은 Apache Hadoop의 MapReduce를 사용합니다. 일괄 처리는 상당한 양의 계산이 필요한 매우 큰 데이터 세트로 작업할 때 가장 유용합니다.

다른 워크로드는 실시간 처리가 필요합니다. 동시에 정보는 즉시 처리 및 준비되어야 하며 시스템은 새로운 정보를 사용할 수 있게 되면 적시에 응답해야 합니다. 실시간 처리를 구현하는 한 가지 방법은 개별 요소로 구성된 연속적인 데이터 스트림을 처리하는 것입니다. 하나 더 일반적 특성실시간 프로세서 - 클러스터 메모리의 데이터 계산으로 디스크에 쓸 필요가 없습니다.

Apache Storm, Apache Flink 및 Apache Spark는 실시간 처리를 구현하는 다양한 방법을 제공합니다. 이러한 유연한 기술을 통해 개별 문제에 가장 적합한 접근 방식을 선택할 수 있습니다. 일반적으로 실시간 처리는 시스템에 변경되거나 빠르게 추가되는 작은 데이터 조각을 분석하는 데 가장 적합합니다.

이 모든 프로그램은 프레임워크입니다. 그러나 빅 데이터 시스템에서 데이터를 계산하거나 분석하는 다른 방법이 많이 있습니다. 이러한 도구는 종종 위의 프레임워크에 연결되고 기본 레이어와 상호 작용하기 위한 추가 인터페이스를 제공합니다. 예를 들어 Apache Hive는 Hadoop용 데이터 웨어하우스 인터페이스를 제공하고 Apache Pig는 쿼리 인터페이스를 제공하며 SQL 데이터 Apache Drill, Apache Impala, Apache Spark SQL 및 Presto와 함께 제공됩니다. 입력 기계 학습 Apache Spark의 Apache SystemML, Apache Mahout 및 MLlib가 사용됩니다. 데이터 생태계에서 널리 지원되는 직접 분석 프로그래밍에는 R과 Python이 사용됩니다.

결과 시각화

종종 시간 경과에 따른 데이터의 추세나 변화를 인식하는 것이 얻은 값보다 더 중요합니다. 데이터 시각화는 추세를 식별하고 많은 수의 데이터 요소를 구성하는 가장 유용한 방법 중 하나입니다.

실시간 처리는 애플리케이션 및 서버 메트릭을 시각화하는 데 사용됩니다. 데이터는 자주 변경되고 메트릭의 큰 차이는 일반적으로 시스템 또는 조직의 상태에 상당한 영향을 미친다는 것을 나타냅니다. Prometheus와 같은 프로젝트는 데이터 스트림 및 시계열을 처리하고 이 정보를 시각화하는 데 사용할 수 있습니다.

데이터를 시각화하는 인기 있는 방법 중 하나는 이전에 ELK 스택으로 알려졌던 Elastic 스택입니다. Logstash는 데이터 수집에, Elasticsearch는 데이터 인덱싱에, Kibana는 시각화에 사용됩니다. Elastic 스택은 빅 데이터로 작업하거나 계산 결과를 시각화하거나 원시 메트릭과 상호 작용할 수 있습니다. Apache Solr를 병합하여 시각화를 위해 Banana라는 Kibana 포크를 인덱싱하여 유사한 스택을 얻을 수 있습니다. 이러한 스택을 실크라고 합니다.

문서는 대화형 데이터 작업을 위한 또 다른 시각화 기술입니다. 이러한 프로젝트는 대화형 탐색 및 데이터 시각화를 편리한 형식으로 허용합니다. 나누는및 데이터 프레젠테이션. 이러한 유형의 인터페이스의 인기 있는 예는 Jupyter Notebook 및 Apache Zeppelin입니다.

빅데이터 용어집

  • 빅 데이터는 올바르게 처리할 수 없는 데이터 세트를 포괄적으로 가리키는 용어입니다. 기존 컴퓨터또는 도구의 양, 전달 속도 및 다양성으로 인한 것입니다. 이 용어는 이러한 데이터를 처리하기 위한 기술 및 전략에도 일반적으로 적용됩니다.
  • 일괄 처리는 큰 집합의 데이터를 처리하는 것과 관련된 계산 전략입니다. 이 방법은 일반적으로 긴급하지 않은 데이터를 처리하는 데 이상적입니다.
  • 클러스터 컴퓨팅은 여러 시스템의 리소스를 풀링하고 작업을 수행하기 위해 결합된 기능을 관리하는 방식입니다. 이를 위해서는 개별 노드 간의 통신을 처리하는 클러스터 관리 계층이 필요합니다.
  • 데이터 레이크는 상대적으로 원시 상태로 수집된 데이터의 대규모 리포지토리입니다. 이 용어는 구조화되지 않고 자주 변경되는 빅 데이터를 지칭하는 데 자주 사용됩니다.
  • 데이터 마이닝은 대규모 데이터 세트에서 패턴을 찾는 다양한 방법을 가리키는 광범위한 용어입니다. 대량의 데이터를 보다 이해하기 쉽고 일관된 정보 집합으로 구성하려는 시도입니다.
  • 데이터 웨어하우스는 분석 및 보고를 위한 조직화된 대규모 리포지토리입니다. 데이터 레이크와 달리 웨어하우스는 다른 소스와 통합되는 형식이 지정되고 잘 구성된 데이터로 구성됩니다. 데이터 웨어하우스는 종종 빅 데이터와 관련하여 언급되지만 기존 데이터 처리 시스템의 구성 요소인 경우가 많습니다.
  • ETL(추출, 변환 및 로드) - 데이터를 추출, 변환 및 로드합니다. 원시 데이터를 얻고 준비하는 과정은 다음과 같습니다. 데이터 웨어하우스와 관련이 있지만 이 프로세스의 특성은 빅 데이터 시스템의 파이프라인에서도 찾아볼 수 있습니다.
  • Hadoop은 빅 데이터를 위한 오픈 소스 Apache 프로젝트입니다. 분산형으로 구성되어 있습니다 파일 시스템 HDFS라는 클러스터와 YARN이라는 리소스 스케줄러가 있습니다. 일괄 처리 기능은 MapReduce 계산 엔진에서 제공합니다. MapReduce를 사용하면 최신 Hadoop 배포에서 다른 컴퓨팅 및 분석 시스템을 실행할 수 있습니다.
  • 인메모리 컴퓨팅은 작업 데이터 세트를 클러스터의 메모리로 완전히 이동하는 것과 관련된 전략입니다. 중간 계산은 디스크에 기록되지 않고 메모리에 저장됩니다. 이것은 I/O 바운드 시스템에 비해 시스템에 엄청난 속도 이점을 제공합니다.
  • 기계 학습은 제공된 데이터를 기반으로 학습, 조정 및 개선할 수 있는 시스템을 설계하는 연구 및 실습입니다. 일반적으로 이것은 예측 및 통계 알고리즘의 구현을 의미합니다.
  • Map Reduce(Hadoop의 MapReduce와 혼동하지 말 것)는 컴퓨팅 클러스터 스케줄링 알고리즘입니다. 이 프로세스에는 노드 간에 작업을 나누고 중간 결과를 얻고, 섞은 다음 각 집합에 대해 단일 값을 출력하는 과정이 포함됩니다.
  • NoSQL은 기존의 관계형 모델 외부에서 설계된 데이터베이스에 대한 광범위한 용어입니다. NoSQL 데이터베이스는 유연성과 분산 아키텍처로 인해 빅 데이터에 적합합니다.
  • 스트리밍은 시스템을 통해 이동할 때 데이터의 개별 항목을 계산하는 방식입니다. 이를 통해 실시간 데이터 분석이 가능하며 고속 메트릭을 사용하여 시간이 중요한 트랜잭션을 처리하는 데 적합합니다.
태그: ,

관련 출판물