기업 시스템의 데이터 관리. 데이터 분석 및 데이터 관리 데이터 관리 접근 방식의 데이터 관리 유형

2010년 9월 11일 세르게이 리진

지난 10년 동안 정보 시스템눈에 띄지 않게 질적 진화의 변화를 겪었고 오늘날 각 개인은 그러한 시스템이 많은 사람들의 상호 작용을 보장하는 본격적인 비즈니스 환경입니다. 그럼에도 불구하고 건설을위한 많은 기술이 동일하게 유지되며 항상 보이는 것처럼 무해하지는 않습니다. 정보 시스템의 고통 없는 현대화 및 데이터 구조의 변경을 위한 여러 방법을 제공하는 것이 가능합니다.

정보의 양이 증가함에 따라 기업의 비즈니스 프로세스에 변화가 필요합니다. 정보 시스템이 종이 소스 문서의 정보만 처리하는 기존의 종이 기반 상호 작용은 정보 시스템 자체 또는 오히려 정보 시스템에서 수행되는 사용자 작업이 기본 소스인 전자 지향 시스템으로 대체되고 있습니다. 전자의 도래 전자 서명전자 문서에 법적 중요성을 부여할 수 있게 되었지만 이러한 종류의 시스템이 안정적이고 안전하게 작동하도록 하는 작업의 범위는 훨씬 더 넓습니다.

다중 사용자 시스템의 문제

대부분의 현대 기업 정보 시스템은 관계형 데이터베이스 서버를 기반으로 하는 다중 사용자 시스템입니다. 이러한 시스템의 사용자는 고객(개인 및 법인). 주어진 시간에 시스템에서 개별 작업(기능적으로 또는 선언적으로 제한됨)을 수행할 수 있는 사용자의 능력은 해당 시점에 포함된 데이터에 따라 다릅니다. 여기서 발생하는 경합 제어 문제는 일반적으로 OLTP 기술의 도움으로 해결됩니다.

그러나 모든 동시성 문제가 트랜잭션 및 추가 검사를 통해 프로그래밍 방식으로 우회할 수 있는 것은 아닙니다. 가장 큰 문제는 인적 요소입니다. 각 사용자는 DBMS의 데이터로 직접 작업하는 것이 아니라 로컬 복사본의 일부를 클라이언트 응용 프로그램에 로드하여 작업합니다. 또한 원자적 연산을 구성하는 데이터 사용자가 읽기 및 쓰기 시퀀스를 할당하는 것은 프로그래밍 방식으로 불가능합니다. 따라서 읽기 데이터가 변경될 때 그러한 트랜잭션을 "롤백"하는 것은 불가능합니다. 시스템은 단순히 얼마나 많은 최근 행동사용자의 전체가 하나의 전체를 형성하고 사용자가 읽은 데이터 중 사용자가 결정을 내릴 때 고려한 것입니다.

결과적으로 트랜잭션은 애플리케이션 서버 또는 데이터베이스 서버에서 실행되는 서버 측 데이터 처리 작업과 관련해서만 유효함을 알 수 있습니다. 배경미리 결정된 알고리즘에 따라 사용자의 적극적인 참여 없이. 물론 각 사용자 작업이 별도의 트랜잭션이 되도록 시스템 아키텍처를 설계할 수 있습니다. 이 트랜잭션 내에서 가능한 모든 데이터 일관성 검사가 수행됩니다(즉, 사용자가 트랜잭션과 매개변수를 시작했다는 사실이 전달된 데이터는 트랜잭션 내에서 확인되지 않은 시스템에서 사용자가 읽은 데이터를 기반으로 해서는 안 됩니다. 그러나 항상 그런 것은 아니며 사람이 수행하는 모든 검사를 쿼리 언어로 쉽게 설명할 수 있는 것은 아닙니다. 또한 이는 복잡성을 크게 증가시키고 결과적으로 개발 비용을 증가시킵니다.

반면에 데이터 일관성 측면에서 높은 수준의 안정성을 보장하는 것은 OLTP 관리를 구성할 수 있는 가장 중요한 데이터 범주 중 일부에 대해서만 중요합니다. 다른 범주의 데이터에 대한 조항은 정보 보안최신 변경 사항뿐만 아니라 이전 변경 사항도 모두 포함하여 사용자가 수행한 모든 변경 사항에 대한 추적을 구성하는 것으로 귀결될 수 있습니다.

기록이 있는 데이터

오늘날 데이터베이스를 구축할 때 현재 데이터만 저장하는 원칙이 거의 보편적으로 사용됩니다. 디스크 공간과 컴퓨팅 성능이 부족한 상황에서 매우 적절했던 이 접근 방식은 오늘날에는 이전 이벤트를 저장하지 않고 현재 화면만 모니터에 표시하는 비디오 감시 카메라의 사용과 다소 비교할 수 있습니다.

변경 사항을 추적할 때 잘못된 작업의 특성을 명확히 해야 합니다. 이것이 의도적인 사용자 작업인지 또는 동기화 지연과 관련된 문제인지(시스템 아키텍처의 특성으로 인해)입니다. 이렇게 하려면 변경된 데이터 자체 외에도 내용을 알아야 합니다. 이 지식을 기반으로 사용자는 변경을 수행하거나 다른 실제 작업(정보 시스템 외부에서도 가능)을 수행할 수 있습니다. 또한, 데이터의 로컬 복사본을 작업에 사용하기 때문에 DBMS 자체가 아니라 해당 로컬 복사본에 있는 데이터의 내용을 알아야 합니다.

데이터를 변경할 때뿐만 아니라 읽을 때도 작업을 수행할 때 데이터의 상태에 대한 정보의 가용성이 필요하다는 사실 때문에 상황은 훨씬 더 복잡합니다. 대표적인 예로 보고서 작성 당시의 시스템 데이터를 기반으로 생성된 다양한 유형의 보고서를 들 수 있습니다. 이후 원본 데이터가 저장되어 있어야 보고서의 각 요약 지표의 형성에 대한 출처를 결정할 수 있습니다. 추가 복잡성은 변경 사항뿐만 아니라 모든 데이터 수정 사항을 추적해야 한다는 것입니다.

정보 시스템을 기본 데이터 소스로 사용하려면 거의 항상 전자 디지털 서명을 통해 정보의 법적 중요성을 보장해야 합니다. 오늘날 EDS의 범위는 주로 다음으로 제한됩니다. 전자 문서그러나 시간이 지나면서 조직 간에 전송되는 개별 문서에 법적 중요성을 부여할 뿐만 아니라 완전히 법적으로 중요한 데이터 배열을 형성해야 하며, 그 중에서 선택하는 것도 법적 효력을 갖습니다. 또한 각 데이터 변경(이후 다른 변경의 기초가 될 수 있음)은 변경한 사용자가 서명해야 합니다.

특히 관련성 이 문제각 직원이 자신의 권한을 갖고 해당 책임을 지는 국가 정보 시스템의 경우. 또한, 최근 행정 특히 행정 분야에서 사람의 참여 없이 수행되는 기능이 증가하는 추세입니다. 예를 들어 여기에서 나열된 문제의 솔루션이 필수 조건인 완전한 구현을 위해 주 등록부에서 다양한 추출물 및 인증서를 발급하는 프로세스를 인용할 수 있습니다.

데이터 변경 사항을 추적하는 것은 바람직한 요소가 될 뿐만 아니라 변경 사항을 제어하고 장기간에 걸쳐 고객 데이터 기록을 유지하는 절차를 관리하는 규제 문서의 요구 사항을 준수해야 하기 때문입니다.

데이터 관리 방법

정보 시스템에서 데이터 관리의 효율성을 향상시키는 방법에 대해 이야기하기 전에 정보 시스템에서 발생하는 프로세스를 더 자세히 고려하는 것이 좋습니다. 자세히 살펴보면 데이터가 존재하는 과정에는 네 가지 유형의 라이프 사이클이 있음을 알 수 있습니다. 첫 번째는 직접 개체의 개별 속성 값의 수명 주기입니다. 두 번째 유형은 일반적으로 대상의 수명 주기를 나타내며 새로운 대상의 출현 및 소멸과 같은 사건을 기술하고 재구성, 구성(통일, 부착) 및 분해(분리, 선택)를 설명합니다. 세 번째 및 네 번째 라이프 사이클 유형은 메타데이터 사이클(객체 클래스 및 해당 속성)입니다. 그들에게 일어날 수 있는 사건은 사물에 일어나는 사건과 유사하다: 출현, 소멸, 재구성, 구성, 분해.

대부분의 현대 정보 시스템은 직선 데이터 관리를 기반으로 구축됩니다. 새로운 범주의 데이터에 대한 정보를 저장해야 하는 경우 새 테이블을 생성하고 이러한 필요가 사라지면 테이블을 삭제하거나 보관하거나 단순히 사용을 중단합니다. 객체에 대한 추가적인 특성을 저장할 필요가 있는 경우 테이블에 새로운 컬럼을 추가하고, 이러한 필요성이 사라지면 컬럼을 삭제하거나 사용을 중단한다. 상황은 개체의 저장과 유사합니다. 합성 및 분해 작업은 새로운 요소를 생성하고 데이터를 전송하여 구현됩니다. 객체 속성 값은 모든 것이 간단합니다. 필요에 따라 변경됩니다.

이 데이터 관리 방법을 사용하면 데이터에 대한 다중 사용자 액세스를 관리하는 나열된 작업을 추가 도구를 통해서만 해결할 수 있습니다. 또한 대부분의 최신 DBMS에는 변경 추적 메커니즘이 내장되어 있습니다. 트랜잭션 로그는 일반적으로 해당 내용에 대한 액세스가 DBMS 커널에 의해서만 제한되지만 액세스가 있더라도 주어진 지점에서 상태를 복원합니다. 시간이 지남에 따라 구조의 특성으로 인해 쉽지 않습니다.

이 문제를 해결하는 또 다른 방법으로 시간(시간순) 데이터베이스의 사용을 고려할 수 있습니다. 그러나 현재까지 그러한 기지의 본격적인 산업 구현은 실제로 존재하지 않습니다. 또한 다른 문제를 해결하는 데 중점을 둡니다. 일부 최신 DBMS에는 속성 값의 백그라운드 버전 관리(동일한 트랜잭션 로그 기반)를 사용할 수 있는 특수 메커니즘이 포함되어 있지만 항상 사용하기 편리한 것은 아닙니다. 대안은 데이터 관리에 대한 접근 방식을 바꾸는 것입니다.

스토리지 기술

정보 시스템에서 사용자가 수행하는 모든 작업은 새로운 정보를 수신하는 것이므로 데이터베이스의 데이터 양이 줄어들지 않아야 합니다. 이러한 의미에서 업데이트 작업도 삭제 작업은 말할 것도 없고 이전 값의 손실로 이어지기 때문에 무해하지 않습니다. 정보 개체는 지정된 4가지 수명 주기에 대한 정보를 모두 저장해야 하며 반복하지 않아야 합니다.

SQL 용어를 사용하여 객체의 존재 종료 및 특성 변경을 반영하기 위해 삭제 및 업데이트 연산자를 사용하는 것은 허용되지 않는다고 말할 수 있습니다. 이러한 연산자는 서비스 연산자이며 데이터 배열의 이동, 보관 및 폐기와 같은 서비스 목적으로만 사용해야 합니다. 이를 가능하게 하려면 각 데이터베이스 레코드가 클래스 생성, 속성 분리, 객체 삭제, 속성 변경 등과 같은 일부 이벤트(또는 그 일부)에 대한 정보여야 합니다. 이러한 각 이벤트는 나열된 네 가지 라이프 사이클 중 하나를 참조하며 클래스, 속성, 객체, 값의 해당 네 테이블에 라이프 사이클에 대한 정보를 저장하는 것도 의미가 있습니다.

처음 세 테이블에 반영된 이벤트는 한 상태에서 다른 상태로 엔터티의 전환에 대한 정보입니다. 이러한 각 이벤트를 반영하는 레코드는 이전 상태와 현재 상태의 두 점으로 설명되는 벡터입니다. 또 다른 필수 요소는 이벤트의 타임스탬프입니다. 즉, 전환이 완료된 것으로 간주되는 시간입니다.

새 항목 또는 기존 항목 ID를 상태로 사용하는 것이 좋습니다. null을 사용하여 선택을 제외한 모든 작업을 반영하는 데 필요한 비어 있음을 나타낼 수 있습니다. 예를 들어 엔터티가 생성되면 null이 이전 상태로, 삭제되면 현재 상태로 작동합니다. 병합, 분할, 결합 및 재구성 작업을 반영하려면 연결된 여러 이벤트 레코드를 사용해야 합니다.

처음 세 테이블과 달리 Values ​​테이블의 항목은 벡터가 아니라 특정 시점부터 시작하는 객체 속성 값인 광선을 저장합니다. 이 테이블의 열은 객체 참조, 속성 참조, 주어진 값이 사용된 이후의 값 및 시간입니다.

설명 된 기술을 사용하면 정보 시스템의 현대화 문제, 특히 사용되는 데이터 체계 (구조) 변경 문제의 솔루션을 단순화 할 수 있습니다. 오늘날 데이터가 변경되면 기존 데이터가 실제로 새로운 형식으로 변환됩니다. 그러나 첫째, 변환이 항상 간단한 프로세스는 아니며 둘째, 정보 누락 문제가 발생합니다. 테이블에 열을 추가할 때 이전에 생성된 레코드의 해당 필드가 채워지지 않고 열 사용이 종료됩니다. 주어진 필드가 모든 새 항목에 대한 것이라는 사실로 이어집니다. 이 모든 것이 개발자가 지정한 무결성 제약 조건을 위반할 수 있습니다. 제안된 기술의 특징은 해당 데이터 스키마에서 과거 기간의 데이터로 작업할 수 있는 기능을 제공하는 것입니다.

데이터 액세스 제어

하나의 작업을 설명하는 이벤트 레코드를 연결하려면 추가 테이블(트랜잭션)을 사용하고 열을 다른 모든 테이블에 추가하는 것이 좋습니다. 덕분에 데이터 일관성의 관점에서 단일 트랜잭션을 구성하고 트랜잭션의 올바른 롤백을 크게 단순화하는 많은 이벤트(작업)를 수행할 수 있습니다.

다른 모든 수정과 마찬가지로 트랜잭션 롤백은 기존 레코드를 수정하거나 삭제하여 수행해서는 안 됩니다. Classes, Attributes, Objects, Values ​​테이블의 레코드에 지정된 데이터 최신 시간(실시간) 외에 데이터 쓰기 시간(트랜잭션 쓰기 시간)을 사용하여 수정 작업을 반영해야 합니다. 삽입 작업. 에 추가하여 수정 사항이 수정됩니다. 기존 기록실제 시간은 같지만 데이터 레코드의 현재 시간(트랜잭션 테이블의 관련 레코드에 있음)과 수정된 값을 사용하여 새 레코드의 잘못된 값을 사용합니다. 따라서 읽을 때 생성 시간이 더 늦은 레코드를 사용합니다.

다중 사용자 환경에서 잘못된 동작을 완전히 추적하려면 로컬 캐시 데이터의 내용, 즉 트랜잭션이 시작된 시점의 데이터 내용을 알아야 합니다. 여기서 중요한 문제는 트랜잭션의 시작과 끝 사이의 시간 간격입니다. 트랜잭션의 시작은 DBMS에서 로컬 캐시로 데이터를 읽는 것을 의미하고 끝은 변경 사항을 쓰는 것을 의미합니다. 제안된 데이터 구성 모델을 사용할 때 이 문제를 해결하기 위해서는 DBMS에서 로컬 캐시로 데이터를 읽어오는 시간을 알면 충분하다. 트랜잭션 테이블의 별도 필드에 저장하는 것이 좋습니다.

"삽입 전용" 모드로 데이터를 저장하면 모든 변경 사항의 저작권을 추적하는 문제도 해결됩니다. 이를 위해 관련 정보는 트랜잭션 테이블의 레코드에 동일한 방식으로 입력됩니다. 동시에 사용자 키의 레코드와 관련된 모든 트랜잭션에 대해 EDS를 계산하여 트랜잭션 테이블의 별도 필드에 저장하면 이러한 방식으로 형성된 정보 배열에 법적 의미를 부여할 수 있습니다. , 사용자 간의 책임 분담을 보장합니다.

설명된 접근 방식은 주로 마스터 데이터 또는 참조 정보를 관리하는 시스템과 같은 다양한 목적을 위한 시스템 구축에 적용될 수 있습니다. 특히, 이 기술을 사용하면 전자정부의 주요 구성 요소 중 하나인 공공 서비스 등록 시스템을 구축하는 데 있어 많은 문제를 해결할 수 있습니다.

컬럼별로 데이터를 분석하는 DBMS의 등장, 솔리드 스테이트 드라이브클라우드 기술은 데이터베이스 구축 원칙과 비즈니스 인텔리전스 방법의 추가 개발 모두에 상당한 영향을 미칠 수 있습니다.

오늘날 서구 과학계의 몇몇 저명한 대표자들의 손에 힘입어 유산이라는 단어는 보편적인 상용 DBMS에 고정되었습니다.



데이터는 IT 서비스를 효과적으로 개발, 제공 및 유지하기 위해 관리해야 하는 가장 중요한 자산 중 하나입니다.

데이터/정보 관리는 조직이 데이터(정보)를 계획, 수집, 생성, 구성, 사용, 제어, 배포 및 처리하는 방법에 관한 것이며, 이는 구조화 및 비구조화 데이터에 적용됩니다. 데이터 관리는 내부 운영을 지원하고 고객에게 서비스를 제공하는 비즈니스 프로세스에 가치를 추가하기 위해 데이터/정보의 가치를 식별하고 사용하도록 합니다.

이 분야에서 널리 사용되는 용어는 데이터 관리, 정보 관리 및 데이터 관리입니다. 정보 자원". 이 간행물의 목적을 위해 "데이터 관리"라는 용어는 위의 세 가지 모두의 약어로 사용됩니다.

데이터 관리의 역할은 단순히 원시 데이터를 관리하는 것이 아닙니다. 모든 컨텍스트 메타데이터(추가 "데이터에 대한 데이터")를 관리하는 것에 관한 것이며, 원시 데이터에 추가될 때 "정보" 또는 "컨텍스트 내 데이터"를 제공합니다.

조직 정보의 기초가 되는 데이터는 자산 또는 자원으로 간주되는 데 필요한 모든 속성을 가지고 있습니다. 예를 들어, 데이터는 "비즈니스 목표 달성과 조직의 성공적인 일상 운영"에 필수적입니다. 또한 "조직에서 확보하고 유지할 수 있지만 재정적 비용으로만" 사용할 수 있습니다. 마지막으로, 아마도 다른 자원/자산과 함께 "조직의 목표를 더 달성하기 위해" 사용될 것입니다.

성공적인 데이터 관리를 위한 핵심 요소는 다음과 같습니다.

모든 사용자는 다양한 채널을 통해 업무를 수행하는 데 필요한 정보에 액세스할 수 있습니다.
귀중한 데이터는 나누는(데이터 공유) 조직 내 및 다른 조직과의 데이터
조직 데이터의 품질이 허용 가능한 수준으로 유지되고 비즈니스에 사용되는 정보가 정확하고 신뢰할 수 있으며 일관성이 있습니다.
개인 정보 보호, 보안, 기밀성 및 데이터 무결성 보호에 대한 법적 요구 사항이 충족됩니다.
조직 제공 높은 레벨데이터 및 정보 처리 활동의 효율성 및 효과
엔터프라이즈 데이터 모델은 수년에 걸쳐 이미 변경된 아키텍처의 중복 및 저하를 피하기 위해 가장 중요한 엔터티와 해당 관계를 정의합니다.

데이터 자산 관리(데이터 자산 관리). 효과적인 데이터 관리가 없는 경우:

사람들은 필요하지 않은 데이터를 유지하고 수집합니다.
조직에는 사용되지 않는 기록 정보가 있을 수 있습니다.
조직은 잠재적인 사용자가 사용할 수 있는 많은 데이터를 저장할 수 있습니다.
정보는 필요한 것보다 더 많은 사람에게 제공되거나 필요한 사람에게 제공되지 않을 수 있습니다.
조직은 데이터를 수집, 분석, 저장 및 추출하는 데 비효율적이고 오래된 방법을 사용할 수 있습니다.
조직은 예를 들어 관련 데이터 소스 간에 필요한 데이터를 수집하지 못하고 품질을 저하시키며 데이터 무결성을 잃을 수 있습니다.

또한 "정보가 실제로 데이터에서 얻은 정보입니까?"라는 질문에 대답하기 어렵습니다. 양질?” 비교할 지표가 없기 때문입니다. 예를 들어, 열악한 데이터 품질은 종종 입력 및/또는 업데이트 절차의 잘못된 확인으로 인해 발생합니다. 부정확하거나 불완전한 데이터가 IT 시스템에 입력되면 해당 데이터를 사용하여 생성된 모든 보고서에 이러한 부정확성과 격차가 반영됩니다.

또한 중앙 데이터를 신뢰할 수 없기 때문에 생성 및 사용되는 다양한 운영 및 기타 여러 내부 시스템에서 생성된 정보에 일관성이 부족할 수 있습니다.

데이터 품질을 개선하는 한 가지 방법은 정책 및 표준을 설정하고 전문 지식을 제공하며 새로운 서비스에 대한 데이터 관련 측면의 처리를 용이하게 하는 데이터 관리 프로세스를 사용하는 것입니다.

이것은 완전한 데이터/정보 자산 관리를 제공해야 합니다:

고객에게 제공되는 서비스의 가치를 높입니다.
비즈니스 위험을 줄입니다.
비즈니스 프로세스 비용 절감
내부 비즈니스 프로세스의 혁신을 촉진합니다.

데이터 관리 범위

데이터/정보 관리 범위에는 다음과 같은 4가지 관리 영역이 포함됩니다.

데이터 리소스 관리: 조직의 정보 거버넌스는 이러한 모든 리소스가 알려져 있고 데이터 소유자(소유권) 및 메타데이터를 포함하여 이러한 리소스를 관리할 책임자를 지정해야 합니다.

이 프로세스는 일반적으로 데이터 관리라고 하며 다음에 대한 책임이 포함됩니다.

정보의 필요성 결정
- 기업의 데이터 레지스트리(데이터 인벤토리) 및 데이터 모델 구축
- 데이터 중복 및 미비점 파악
- 정보 콘텐츠(데이터/정보 콘텐츠)의 카탈로그/색인 지원;
- 조직 데이터의 비용과 가치를 측정합니다.

데이터/정보 기술 관리: 데이터베이스 설계 및 데이터베이스 관리와 같은 프로세스를 포함하는 조직의 정보 시스템을 지원하는 IT 부서의 관리. 이러한 측면은 일반적으로 IT 부서에서 처리합니다.

제어 정보 처리(정보 프로세스 관리): 비즈니스 프로세스는 IT 서비스가 특정 데이터를 사용하도록 합니다. 데이터 생성, 수집, 액세스, 수정, 저장, 삭제 및 보관 프로세스, 즉 데이터 수명 주기 프로세스는 종종 애플리케이션 관리 프로세스와 함께 적절하게 제어되어야 합니다.

데이터 표준 및 정책 관리: 조직은 IT 개발 전략의 일부로 데이터 관리 표준 및 정책을 정의해야 합니다. 이 정책은 조직의 정보 시스템을 지원하는 IT 인프라에 적용될 조직의 데이터 관리 절차 및 책임, 기술 정책, 아키텍처 및 표준을 관리합니다.

데이터 관리 프로세스의 범위(모범 사례에 따름)에는 기존 데이터베이스 시스템에 포함되지 않은 비정형 데이터(예: 텍스트, 이미지 및 사운드와 같은 형식을 사용하는 시스템)의 관리가 포함됩니다. 데이터 관리 프로세스는 요구 사항 수집에서 수명 종료에 이르기까지 데이터 수명 주기의 모든 단계에서 품질 보증도 담당합니다. 이 출판물의 초점은 요구 사항 수집, 자산 설계 및 개발 단계, 서비스 수명 주기에서 데이터 관리의 역할에 있습니다.

데이터 관리 프로세스를 지원하는 팀은 비즈니스 정보 헬프 데스크를 제공할 수도 있습니다. 이 경우 메타데이터를 관리하기 때문에 조직 내 데이터의 의미, 형식 및 사용성에 대한 질문에 답변할 수 있습니다. 또한 필요한 비즈니스 프로세스를 수행하고 외부 데이터 소스를 사용할 수 있도록 하는 데 필요한 조치를 취하는 데 필요한 외부 데이터를 이해하고 설명할 수 있습니다.

프로세스를 생성 또는 재구성하고 IT 서비스를 지원할 때 조직의 다양한 영역에서 데이터와 메타데이터를 재사용하는 것을 고려하는 것이 좋습니다. 이를 수행하는 기능은 공통 정보 모델이라고도 하는 엔터프라이즈 데이터 모델에서 지원될 수 있습니다. 재사용 지원은 종종 데이터 관리의 주요 관심사 중 하나입니다.

정의

데이터 관리는 따라야 하고 기술과 사용 가능한 리소스를 사용하여 개발 및 유지 관리해야 하는 일련의 복잡한 절차입니다. 또한 완전한 관리를 위해 미리 정의된 특정 규칙과 절차에 따라 아키텍처를 실행하는 것으로 정의할 수도 있습니다. 라이프 사이클회사 또는 조직 데이터. 그녀는 모든 분야, d & # 39; 데이터 관리 리소스와 연결됩니다.

다음은 데이터 관리의 주요 단계 및 절차 또는 원칙입니다.

1. 데이터베이스 관리 시스템

2. 데이터베이스 관리

3. 데이터 저장

4. 데이터 모델링

6. 데이터 보안

7. 데이터 이동

8. 데이터 아키텍처

9. 데이터 분석

1. 데이터베이스 관리 시스템:

이것은 comp 중 하나입니다 & # 39; 컴퓨터 프로그램요즘 다양한 종류와 브랜드가 있습니다. 이러한 프로그램은 데이터 관리를 위해 특별히 설계되었습니다. 이것은 몇 가지에 불과합니다. 양 Access, MsSQL, Oracle, My Sql 등. 이들 중 선택은 회사의 정책, 경험 및 관리에 따라 다릅니다.

2. 데이터베이스 관리:

데이터 관리는 데이터 관리의 모든 측면을 담당하는 그룹입니다. 역할과 책임 & # 39; 이 명령의 바인딩은 모든 데이터베이스 관리 정책에 대해 회사에 따라 다릅니다. 프로토콜을 사용하여 시스템을 구현합니다. 소프트웨어다음 속성을 지원하는 절차:

ㅏ. 개발 및 테스트 데이터베이스

비. 데이터베이스 보안

씨. 백업데이터 베이스

디. 데이터베이스 무결성 및 소프트웨어

이자형. 데이터베이스 실행

에프. 최대 데이터베이스 가용성 보장

3. 데이터 저장

즉, 데이터 웨어하우스는 이력 데이터, 용량 등을 구성하는 시스템입니다. 사실 이 시스템에는 쿼리 지원 시스템을 관리하기 위한 원재료가 포함되어 있습니다. 이 원시 자료는 분석가가 추세, 주제 태그가 지정된 데이터, 복잡한 질문 및 분석과 같은 형식의 모든 유형의 기록 데이터를 얻을 수 있도록 합니다. 이 보고서는 모든 회사가 투자 또는 비즈니스 동향을 보는 데 필수적이며 향후 계획에 사용됩니다.

데이터 웨어하우스는 다음 용어를 기반으로 합니다.

ㅏ. 데이터베이스는 모든 데이터 요소, d & # 39; 동일한 이벤트 관련, d & # 39; 상호 연결된,

비. 모든 데이터베이스 변경 사항은 향후 보고를 위해 기록됩니다.

씨. 데이터베이스의 모든 데이터는 삭제되거나 인쇄되지 않으며 데이터는 정적이며 읽기 전용입니다.

디. 데이터는 일관성이 있으며 모든 조직 정보를 포함합니다.

4. 데이터 모델링

데이터 모델링은 데이터 모델의 인스턴스를 생성하기 위해 모델 이론을 적용하여 데이터 모델을 생성하는 프로세스입니다. 데이터 모델링은 실제로 사전 정의된 프로토콜을 사용하여 데이터를 정의, 구조화 및 구성하는 것입니다. 이러한 구조는 데이터 관리 시스템에서 구현됩니다. 또한 이것은 구조에서 데이터베이스의 일부 제한을 방지합니다.

5. 데이터 품질 보증

데이터 품질은 데이터베이스의 이상과 불일치를 제거하기 위해 데이터 관리 시스템에서 구현되는 절차입니다. 또한 데이터베이스를 정리하여 데이터베이스 품질을 향상시킵니다.

6. 데이터 보안

이것은 데이터 보호라고도 하며 데이터베이스가 완전히 안전하게 유지되고 액세스 제어를 통해 아무도 해를 끼치지 않도록 시스템에 구현되는 시스템 또는 프로토콜입니다. 한편, 데이터 보호는 개인 데이터의 프라이버시와 보호도 보장합니다. 전 세계의 많은 기업과 정부는 개인 데이터 보호에 관한 법률을 제정했습니다.

7. 데이터 이동

이것은 하나의 개념으로 널리 d & # 39; ETL(추출, 변환 및 로드)인 데이터 웨어하우스와 연결됩니다. ETL은 데이터 웨어하우스와 관련된 프로세스이며 데이터가 웨어하우스에 로드될 때 매우 중요합니다.

8. 데이터 아키텍처

데이터 관리 시스템의 필수적인 부분입니다. 대상 데이터 상태를 계획하고 결정하는 절차입니다. 이는 대상 상태를 이해하고 주어진 시스템에서 데이터가 처리, 저장 및 사용되는 방법을 설명합니다. 데이터 흐름 생성을 허용하고 주어진 시스템에서 데이터 흐름을 제어하는 ​​작업 처리를 위한 조건을 만들었습니다.

기본적으로 데이터 아키텍처는 초기 개발 중에 대상 상태와 정렬을 제거한 다음 사소한 관찰을 구현하여 지원합니다. 데이터 아키텍처를 분해할 때 사소한 하위 계층과 세부 정보로 나뉜 다음 원하는 형태로 구입합니다. 이러한 수준은 세 가지 기존 아키텍처 데이터 프로세스로 생성할 수 있습니다.

ㅏ. 경제 활동의 모든 주제 및 대상을 나타내는 개념적

비. 부울은 이러한 상업 구조 등을 의미합니다 & # 39; 관련된.

씨. 물리적, 특정 데이터베이스 기능에 대한 데이터 엔진의 구현입니다.

위의 진술에서 우리는 데이터 아키텍처에 관계에 대한 완전한 분석이 포함되어 있음을 확인할 수 있습니다. 기능, 데이터 유형 및 기술 간의 관계.

9. 데이터 분석

데이터 분석은 필요한 정보를 추출하고 결과를 보고하는 데 사용되는 일련의 절차입니다. 데이터 및 쿼리의 유형에 따라 여기에는 통계적 방법의 적용, 경향, 특정 기준에 기반한 특정 데이터 하위 집합의 선택 또는 거부가 포함될 수 있습니다. 실제로 데이터 분석은 기존 데이터 모델의 검증 또는 주장이거나 현실보다 이론적인 모델을 달성하기 위해 필요한 매개변수를 추출하는 것입니다.

데이터 마이닝은 알려지지 않았지만 유용한 데이터 매개변수를 얻기 위한 절차입니다. 또한 대규모 데이터베이스에서 유용하고 원치 않는 정보를 추출하기 위한 일련의 절차로 정의할 수도 있습니다. 데이터 마이닝은 많은 데이터 덕분에 크게 분류하고 특정 목적에 관련되고 필요한 정보를 선택하는 원칙입니다.

  • DFSMSdfp(데이터 기능 제품)는 외부 메모리 할당, 데이터 액세스 구성, 데이터 세트 작업 지원, 데이터 세트 카탈로그 유지 관리를 포함하여 데이터 및 저장 장치 관리의 기본 기능을 구현하는 z/OS의 기본 요소입니다.
  • DFSMSdss(데이터 세트 서비스) - 데이터 관리 도구 및 외부 메모리 장치자기 디스크(백업, 복구, 조각 모음);
  • DFSMShsm(계층적 저장소 관리자) - 사용 강도에 따라 다양한 미디어에 데이터 세트 저장을 최적화하고 데이터의 안전성을 보장하는 도구입니다.
  • DFSMSrmm(이동식 미디어 관리자) - 이동식 미디어 관리 도구(테이프 및 광학 장치)
  • DFSMStvs(트랜잭션 VSAM 서비스) - 일괄 작업 및 CICS 트랜잭션에 대한 VSAM 데이터 세트의 병렬 처리를 지원합니다.

마지막 4개의 모듈은 선택 사항입니다.

z/OS는 잠정적으로 MVS 및 SMS라고 하는 두 가지 별개의 데이터 관리 기술을 구현하고 병렬로 존재합니다. MVS 기술(가끔 그들은 말한다. 비 SMS)는 OS/360에 기반을 둔 고전적인 데이터 관리 기능 및 방법의 사용을 기반으로 합니다. 이 기술의 주요 특징은 생성하는 동안 외부 메모리의 데이터 세트 배포 매개변수를 사용자가 직접 제어할 수 있다는 것입니다. SMS 기술(System Managed Storage에서 제공)은 생성, 배치 및 관리특별히 정의된 데이터 클래스를 기반으로 합니다. 이러한 각 클래스에는 할당 장치(볼륨), 할당된 메모리 양, 데이터 세트의 특성(유형, 구조), 유지 관리 및 보호 매개변수 등을 포함하는 고정된 속성 세트가 할당됩니다. SMS 기술을 사용하려면 특별한 시스템 설정과 특별히 구성된 외부 저장소 볼륨이 필요합니다.

이 섹션에서는 먼저 MVS 기술에 구현된 기본 개념과 도구를 설명한 다음 SMS 기술의 기능에 대해 설명합니다.

데이터 세트의 특성

운영 체제 z/OS는 순차, 인덱스 순차, 직접 액세스, 라이브러리(PDS 및 PDSE), 가상 메모리 액세스 방법(VSAM) 데이터 세트 및 데이터 세트와 같이 논리적 조직 유형이 다른 데이터 세트 작업을 지원합니다. 파일 시스템유닉스(HFS, zFS) [ 5.11 ] . 다양한 유형의 데이터 세트를 지원하기 위해 DFSMSdfp는 액세스 방법 5.1.3절에 설명되어 있습니다. 각 액세스 방법은 특정 유형의 데이터 세트 작업에 중점을 두고 I/O 구성에 필요한 작업을 지원합니다.

운영 체제 z/OS는 수준에서 데이터 세트 처리를 제공합니다. 논리 레코드그리고 블록. 이는 데이터 세트가 논리적 레코드의 모음으로 표시되고 애플리케이션이 논리적 레코드에 액세스하고 단일 엔터티로 처리한다는 것을 의미합니다. 동시에 주변기기와 주기억장치(입출력) 간의 데이터 교환은 블록(또는 물리적 레코드) 단위로 이루어진다. 블록은 여러 논리 레코드를 결합합니다. 따라서 각 데이터 세트에 대해 일관된 논리적 레코드 및 블록 크기를 설정해야 합니다.

z/OS에서는 고정 길이 레코드, 가변 길이 레코드 및 무기한 길이 레코드의 세 가지 논리 레코드 형식이 지원됩니다. 고정 길이 레코드언어에서 일정한 크기를 갖는다 작업 관리선택한 레코드 차단 방법에 따라 F 또는 FB 기호로 식별됩니다.

  • F - 각 블록에는 하나만 포함 논리적 입력;
  • FB - 각 블록은 둘 이상의 논리적 항목을 포함할 수 있습니다.

변수 항목 lengths는 하나의 데이터 세트 내에서 다른 크기를 가질 수 있으므로 데이터 외에도 현재 레코드의 길이를 나타내는 추가 필드( descriptor )가 포함됩니다. 가변 길이의 레코드를 표시하는 데 사용되는 식별자 V는 각 블록에 하나만 포함됨을 의미합니다. 논리적 입력, 항목에 대한 핸들을 포함합니다. VB 식별자는 각 블록이 둘 이상의 논리 레코드를 포함할 수 있는 경우에 사용되는 반면, 각 블록에 대해 블록 길이를 포함하는 추가 설명자가 형성됩니다.

불확실한 길이의 기록( 식별자 U )는 블록 크기로만 특징지어지며 논리 레코드로의 분할에 대한 정보를 포함하지 않습니다.

각 데이터 세트는 고유한 이름이 특징입니다. 이름은 단순하고 복합적입니다. 간단한 이름은 8자(라틴 문자 A-Z, 숫자 0-9, 특수 문자 #,@,$,-), 이름의 첫 번째 문자는 숫자가 될 수 없습니다. 예를 들어, PARTS01 , B1934-1 , $$$$A .

데이터 세트의 복합 이름은 "." 기호로 구분된 몇 개의 간단한 이름으로 구성됩니다. ("점"). 예: D.USER1. JCL, A.매우.긴. 데이터세트 .NAME, $PARTS.DATA2 .

복합 이름의 최대 길이는 점을 포함하여 44자입니다.

복합 이름의 간단한 이름은 예선.

다음으로 인덱스 순차 및 직접 액세스 데이터 세트(IBM에서 구식으로 사용하도록 권장하지 않음) 및 HFS(섹션 5.1.6에서 논의됨)를 제외하고 데이터 세트 구성의 주요 유형이 고려됩니다.

순차 데이터 세트

순차 데이터 세트( Physical Sequential , PS)는 데이터 세트에 배치된 순서대로(즉, 순차적으로) 처리되는 논리적 레코드의 모음으로 간주됩니다. 순차 데이터 세트의 수정은 모든 정보를 완전히 다시 쓰거나 데이터 세트의 끝에 새로운 논리 레코드를 추가하여 가능합니다. 순차 데이터 세트는 모든 유형의 외부 저장 장치에 비교적 많은 양의 정보(작업 보고서, 세션 로그 등)를 저장하는 데 가장 일반적으로 사용됩니다. 또한 테이프 드라이브에서는 순차 데이터 세트만 사용할 수 있습니다. 순차 데이터 세트를 처리하기 위해 z/OS는 "기본"의 두 가지 액세스 방법을 지원합니다.

관련 출판물