zona parkir komputer | Fastest Loading Responsive Blogger Template 2015

Desain Physical Database datawarehouse menurut versi microsoft book bagian 6

Physical Database Design

Hardware Platform

Storage Considerations(Pertimbangan penyimpanan)

Hal berikutnya kita perlu membeli untuk infrastruktur adalah ruang disk. Dalam Bab 4, saya mengatakan hal itu tidak mungkin untuk memperkirakan jumlah penyimpanan dengan benar pada tahap itu, karena kita tidak menyelesaikan DDS dan desain NDS. Sekarang kita telah menyelesaikan database design bisa kita lakukan estimasi.

Hal ini dilakukan dengan menghitung ukuran fakta dan tabel dimensi untuk mendapatkan ukuran DDS. Kemudian kami memperkirakan ukuran NDS berdasarkan ukuran baris dan jumlah baris untuk setiap tabel. Kemudian kami memperkirakan ukuran database tahap berdasarkan sistem sumber tabel dan metode ekstraksi data. Mari kita mulai dengan DDS, maka NDS, maka database panggung, maka database metadata, dan akhirnya konfigurasi disk

Yang kita lakukan latihan yang sama untuk semua fakta dan tabel dimensi, dan kita akan mendapatkan ukuran semua tabel di DDS. Ini prinsip yang sama di NDS. Kami menghitung ukuran baris dengan mengalikan jumlah kolom dari masing-masing tipe data dengan byte untuk jenis data. Kami memperkirakan jumlah baris dengan query sistem sumber. Jumlah baris dalam tabel NDS akan kira-kira sama dengan jumlah baris dalam sistem sumber. Kita perlu diingat bahwa jika kita memiliki beberapa sistem sumber, jumlah baris di NDS tergantung pada seberapa banyak tumpang tindih wehave antara sistem sumber.

Untuk memperkirakan ukuran database panggung, kita perlu daftar semua tabel sumber. Untuk setiap tabel, query sistem sumber untuk menentukan ukuran baris dan jumlah baris. Jika metode ekstraksi ke panggung incremental, menghitung berapa banyak baris yang dimasukkan atau diperbaharui per hari dalam sistem sumber.

Faktor lain yang mempengaruhi ukuran basis data tahap adalah bahwa Anda mungkin ingin menyimpan bernilai tiga atau lima hari '(atau lebih, tergantung pada strategi backup) data di panggung sebelum pembersihan itu dalam kasus Anda perlu memuat ulang ke NDS
untuk beberapa alasan.

Database lain yang akan kita buat adalah metadata. Hal ini tidak besar, mungkin 10-20GB. Pengalokasian 50GB akan cukup. Ini diperkirakan berdasarkan isi dari database metadata. Basis data menyimpan metadata tujuh jenis metadata: definisi data dan pemetaan metadata, struktur data metadata, sistem sumber metadata, proses ETL metadata, metadata kualitas data, metadata audit, dan penggunaan metadata. Anda juga mungkin ingin mengalokasikan beberapa ruang untuk dua atau tiga lebih kecil DDSS, seperti untuk keperluan data mining atau proyek analisis tertentu. Alasan untuk memiliki DDS terpisah untuk proyek-proyek dan kegiatan adalah karena mereka mungkin perlu memperbarui data untuk mencerminkan skenario bisnis tertentu.

Kita juga perlu membuat volume kuorum untuk mendukung failover cluster, pada RAID level 1. Sebuah volume kuorum adalah drive dapat diakses oleh setiap node di cluster. Hal ini digunakan untuk arbitrase antara node cluster dan storedata yang digunakan untuk pemulihan setelah kegagalan komunikasi dalam cluster

Configuring Databases(Konfigurasi Database)

Sekarang kita telah merancang database, mari kita membuat mereka dalam SQL Server. Berikut adalah beberapa poin yang Anda mungkin ingin mempertimbangkan saat membuat database. Mari kita studi kasus Amadeus Entertainment sebagai contoh dalam poin ini.

• Jauhkan nama database yang pendek dan ringkas . Begitu juga DDS , NDS , Stage, dan Meta . Kita perlu menjaga mereka pendek karena mereka akan digunakan sebagai awalan untuk nama proses ETL dan disimpan nama prosedu

• Ingatlah untuk menjaga pengumpulan semua data warehouse database yang sama , sebaiknya sesuai standar instalasi SQL Server perusahaan didefinisikan oleh SQL Server DBA . Database pemeriksaan mendefinisikan bagaimana SQL Server menangani karakter dan Unicode data, seperti kasus - sensitivitas , urutan , dan halaman kode . r .

• Pertimbangkan sensitivitas kasus yang sangat hati-hati. Hasil query akan berbeda tergantung pada sensitivitas kasus. Kita perlu mengatur kasus sesuai dengan kebutuhan pengguna untuk menyortir order

• Untuk setiap database kita akan membuat enam filegroups, yang terletak di enam disk fisik yang berbeda pada RAID 5, dengan satu file log transaksi terletak di log disk ditunjuk RAID 1. Filegroups adalah kumpulan file database. Mengatur database lokasi default di properti server untuk pertandingan ini

• Mengatur file data untuk mendukung pengaturan filegroup sebelumnya, yang berarti bahwa
saat membuat database, tempatkan file data sesuai dengan lokasi filegroup.

• Berdasarkan ukuran estimasi database dalam bagian sebelumnya ( 400 dan 300 lebih dari dua tahun ) , bertujuan untuk enam bulan saya akan mengatur ukuran awal dari DDS untuk 100GB dengan kenaikan pertumbuhan 25GB dan ukuran awal NDS untuk 75GB dengan kenaikan pertumbuhan 15GB .

• Peningkatan untuk database metadatakarena database metadata mengandung audit dan penggunaan metadata yang bisa berfluktuasi dengan jumlah yang signifikan tergantung pada proses ETL .

• Ukuran file log tergantung pada ukuran beban sehari-hari , model pemulihan , dan metode pembebanan ( ETL atau ELT , panggung atau tidak panggung , saya akan membicarakan hal ini pada bab selanjutnya ) serta operasi indeks. selama proses ini file log akan tumbuh sehingga setelah proses ETL selesai, ukuran log transaksi dari tiga database ini akan menunjukkan ukuran log yang diperlukan.

• Untuk model pemulihan, pilih sederhana daripada massal. Semua perubahan dalam data
gudang berasal dari proses ETL. Ketika pulih dari kegagalan, kita bisa roll ke depan menggunakan ETL dengan mengoleskan sistem sumber diekstraksi data untuk hari tertentu.

• ODS terus diperbarui oleh pengguna, hal ini berguna untuk menerapkan model pemulihan penuh sehingga kami dapat memulihkan ODS untuk setiap titik waktu.

• Untuk database metadata, kita perlu mengatur modus pemulihan penuh. hal ini berguna untuk menerapkan model pemulihan penuh sehingga kami dapat memulihkan database metadata untuk setiap titik waktu.

• Tinggalkan tingkat maksimum paralelisme pada 0 untuk memanfaatkan semua prosesor. Derajat (tingngkat)paralelisme adalah jumlah prosesor yang digunakan untuk mengeksekusi pernyataan SQL tunggal secara paralel.

• Nonaktifkan pengindeksan teks lengkap jika Anda tidak menggunakannya.

• Hal ini berbeda dari DBA untuk DBA, tetapi Anda mungkin ingin menonaktifkan autoshrink dan mengaktifkan pembaruan otomatis statistik, terutama di DDS. Sebuah database dengan autoshrink dapat menyebabkan fragmentasi dan menyebabkan masalah kinerja. Statistik otomatis memperbarui diperlukan untuk SQL Server query optimizer untuk mengetahui jalan terbaik untuk mengeksekusi query

Creating DDS Database Structure

Creating the Normalized Data Store

Hati-hati dengan urutan bagaimana Anda membangun tabel. Karena integritas referensial (kunci asing), Anda perlu untuk membangun mereka dalam urutan tertentu. Dan script mungkin perlu beberapa melewati untuk membangun sukses karena penciptaan kunci asing diletakkan pada script pembuatan tabel (jika kita membuat semua tabel pertama dan kemudian membuat semua kunci asing sesudahnya, kita hanya perlu satu pass)

Using Views

Permodelan data pada datawarehouse menurut versi micosoft book bagian 5

Pemodelan Data

(Data Modeling)

➔Designing the Dimensional Data Store

kita mulai dengan merancang DDS . Para pengguna akan menggunakan data warehouse untuk melakukan analisis dalam enam bidang usaha : penjualan produk , penjualan berlangganan , pelanggan profitabilitas , kinerja pemasok , segmentasi kampanye CRM , dan hasil kampanye CRM . Jadi , kita perlu menganalisa setiap area bisnis satu per satu untuk memodelkan proses bisnis dalam rangka menciptakan model data. Mari kita lakukan area bisnis pertama : penjualan produk . Sebuah data mart order- item dalam industri ritel adalah contoh klasik dari data warehousing .

Sebuah peristiwa(event) penjualan produk terjadi ketika seorang pelanggan membeli produk , daripada berlangganan paket . Peran(roles ( siapa, di mana , dan apa )) dalam acara ini adalah pelanggan, produk, dan toko . Tingkat ((level) atau dalam istilah pemodelan dimensi, langkah-langkah ) adalah kuantitas , harga satuan , nilai , biaya unit langsung , dan biaya satuan tidak langsung . Kami mendapatkan tingkat ini dari kebutuhan bisnis dalam Bab 4 ; dengan kata lain , mereka pengguna apa yang perlu untuk melakukan tugas mereka . Kami menempatkan langkah-langkah dalam tabel fakta dan peran ( ditambah tanggal ) dalam tabel dimensi . Peristiwa bisnis menjadi kenyataan baris tabel

➔Dimension Tables

mari kita bahas tabel dimensi. Sebuah tabel dimensi adalah tabel yang berisi berbagai atribut menjelaskan kunci dimensi dalam tabel fakta. Seperti disebutkan sebelumnya dalam bab ini, fakta peristiwa toko meja bisnis. Atribut menjelaskan kondisi badan pada saat acara bisnis yang terjadi. Sebagai contoh, dalam tabel fakta pada Gambar 5-1, kita memiliki kunci dimensi disebut customer_key. Tabel 5-1 mengatakan bahwa kolom ini berisi kunci (atau ID) pelanggan membeli produk. Pada Gambar 5-1, Anda dapat melihat bahwa tabel dimensi pelanggan adalah "terkait" dengan tabel fakta menggunakan customer_keycolumn tersebut. Customer_keycolumn adalah utama keyin tabel dimensi pelanggan, dan itu adalah kunci asing pada tabel fakta. Hal ini dikenal dalam dunia database sebagai integritas referensial

Integritas referensial(Referential integrity) adalah konsep membangun hubungan orangtua-anak(parent-child) antara dua tabel, dengan tujuan untuk memastikan bahwa setiap baris dalam tabel anak memiliki entri induk yang sesuai dalam tabel induk. Integritas referensial dapat "mengeras" atau "dipaksakan" secara fisik sebagai kendala database fisik (orang data warehouse menyebutnya hardRI). Sebuah kendala database aturan yang mengatur nilai-nilai yang diijinkan pada kolom tertentu. Atau, integritas referensial dapat dikelola oleh ETL dan tidak diberlakukan sebagai kendala fisik data (data warehouse orang menyebutnya RI lunak ini). ETL akan memeriksa bahwa nilai-nilai pada tabel fakta kunci dimensi ada di tabel dimensi.

Atribut disimpan sebagai kolom dalam tabel dimensi. Mereka dikenal Tabel dimensi berisi berbagai atribut menjelaskan kondisi dari entitas yang terlibat dalam acara bisnis yang disimpan dalam tabel fakta.sebagai dimensi attributes.

Kita juga akan membahas konsep perlahan-lahan berubah dimensi (slowly changing dimension (SCD)). SCD adalah teknik pemodelan data untuk menyimpan nilai-nilai sejarah atribut dimensi. Hal ini penting untuk membahasnya dalam konteks dimensi karena kemampuan untuk melestarikan nilai-nilai atribut sejarah.

➔Date Dimension

Hampir setiap tunggal Data mart memiliki dimensi tanggal di dalamnya. Ini mencerminkan sifat dari data mart dimensi dalam baris tabel fakta adalah kegiatan bisnis yang terjadi pada tanggal tertentu. Karena dimensi tanggal digunakan di hampir setiap mart data dalam data warehouse, penting untuk model dimensi tanggal dengan benar. Hal ini penting untuk dimensi tanggal mengandung atribut yang diperlukan oleh semua tabel fakta dalam semua data mart

Kolom atau atribut dalam dimensi tanggal dapat dikategorikan ke dalam empat kelompok

Tanggal format(date format): Kolom format tanggal berisi tanggal dalam berbagai format.
Tanggal kalender atribut(Calendar date attributes): Atribut tanggal kalender mengandung berbagai unsur tanggal, seperti hari, nama bulan, dan tahun.
Fiskal atribut(Fiscal attributes: Kolom atribut fiskal mengandung unsur-unsur yang terkait dengan kalender fiskal, seperti minggu fiskal, periode fiskal, dan tahun fiskal.
Indikator kolom(Indicator columns): Kolom Indikator mengandung nilai-nilai Boolean digunakan untuk menentukan apakah tanggal tertentu memenuhi kondisi tertentu, seperti apakah itu adalah hari libur nasional.

Yang biasanya digunakan dikolom format tanggal dalam dimensi saat ini adalah sebagai berikut (dengan contoh-contoh untuk 17 Februari 2008):

• datesuch as “02/17/2008”

• sql_datesuch as “02/17/2008 00:00:00.000”

• ansi_datesuch as “2008-02-17”

➔Slowly Changing Dimension

SCD yang merupakan teknik yang digunakan untuk menyimpan nilai historis atribut dimensi. Nilai-nilai atribut dimensi berubah seiring berjalannya waktu. Ketika nilai atribut ini berubah, Anda dapat menimpa nilai-nilai lama dengan yang baru, atau Anda dapat mempertahankan nilai lama. Ada dua metode melestarikan nilai atribut tua: Anda dapat menyimpan nilai-nilai lama sebagai baris, atau Anda dapat menyimpannya sebagai kolom

Sekarang Anda memahami bagaimana nilai-nilai sejarah yang disimpan dalam tabel dimensi (yaitu sebagai baris atau kolom), saya akan berbicara tentang tiga jenis SCD:

•SCD tipe 1 menimpa nilai-nilai lama atribut sehingga nilai-nilai lama tidak disimpan.
• SCD tipe 2 menjaga nilai-nilai lama dengan membuat baris baru untuk setiap perubahan, seperti
• SCD tipe 3 menjaga nilai-nilai lama dengan menempatkan mereka dalam kolom lain,

Umumnya, SCD tipe 2 lebih fleksibel untuk menyimpan nilai historis dimensi atribut, karena Anda dapat menyimpan banyak versi lama yang Anda inginkan tanpa mengubah struktur tabel. SCD tipe 3 menggunakan kolom untuk menyimpan nilai-nilai lama, yang menyebabkan tidak fleksibel. Ini sangat ideal untuk situasi di mana Anda tidak memiliki banyak versi lama (lima atau lebih sedikit) dan Anda tahu hanya akan ada sejumlah versi. Tipe 3 ini juga cocok ketika perubahan dalam atribut ini mempengaruhi sejumlah besar baris. Dengan kata lain, banyak baris dimensi mengubah nilai atribut ini pada waktu yang sama (simultan). Untuk penjelasan rinci tentang SCD, silakan lihat Ralph Kimball dan buku Margy Ross ', The Data Warehouse Toolkit (Wiley, 2002). Anda dapat menyimpan nilai-nilai sejarah yang menggunakan cara lain, misalnya dengan menempatkan mereka di meja lain, tapi SCD tipe 1, 2, dan 3 adalah yang paling populer, jadi mari kita langsung saja.

Panduan ini mengklasifikasikan atribut dimensi sebagai lambat atau cepat berubah bukan aturan tegas dan memiliki beberapa pertimbangan. Pertimbangan pertama adalah ukuran dimensi, yaitu, jumlah baris. Semakin besar dimensi, semakin besar kecenderungan untuk mengklasifikasikan atribut sebagai cepat berubah. Pertimbangan kedua adalah hubungan antara atribut dengan atribut lainnya dalam dimensi. The longgar kopling antara atribut dengan atribut lainnya dalam dimensi, semakin banyak kecenderungan untuk mengklasifikasikan atribut sebagai cepat berubah. Pertimbangan ketiga adalah seberapa sering atribut lainnya dalam perubahan dimensi. Semakin sedikit sering atribut lain berubah, semakin kita cenderung untuk mengklasifikasikan atribut sebagai cepat berubah

➔Product, Customer, and Store Dimensions

Sekarang kita telah membahas konsep SCD , mari kita bahas yang lain tiga dimensi : dimensi produk, dimensi pelanggan , dan dimensi toko . Berbeda dengan dimensi tanggal yang baru saja kita bahas , atribut produk bervariasi dari industri ke industri . Oleh karena itu , ketika Anda Data model dalam industri yang berbeda , perlu diingat bahwa atribut produk dapat benar-benar berbeda dari yang dibahas dalam bagian ini . Di sinilah pengalaman industri menjadi berguna .Untuk membuat dimensi produk, kita melihat sistem sumber

➔Subscription Sales Data Mart

Persyaratan lain yang kita miliki dari studi kasus adalah penjualan berlangganan, pelanggan profitabilitas, kinerja pemasok, segmentasi kampanye CRM, dan hasil kampanye CRM. Secara umum, langkah-langkah untuk merancang mart ini adalah sama; mereka hanya membutuhkan pengetahuan bisnis yang berbeda untuk desain mereka. Sebuah data mart (tabel fakta dan dimensi) menyimpan koleksi kegiatan bisnis di daerah bisnis tertentu. Untuk merancang tabel fakta dan dimensi, kita perlu memiliki pengetahuan bisnis di daerah bisnis. Sebagai contoh, untuk menentukan apa yang kolom kita perlu memiliki dalam tabel Hasil Kampanye kenyataannya, kita perlu memiliki tingkat tertentu pengetahuan bisnis dalam CRM

Ada beberapa hal yang saya ingin menyebutkan pada saat ini . Pertama , karena alasan kinerja serta desain kesederhanaan dan konsistensi , lebih baik untuk tetap berpegang pada skema bintang daripada kepingan salju . skema bintang adalah lebih sederhana dan lebih konsisten daripada skema snowflake karena hanya memiliki satu tingkat di semua dimensi . Karena skema bintang sederhana , lebih mudah untuk proses ETL untuk memuat data ke dalamnya . Sebuah skema snowflake adalah ketika Anda menormalkan dimensi menjadi beberapa tabel yang lebih kecil dengan struktur hirarki . Hal ini digunakan bila Anda ingin mendapatkan keuntungan dari kurang redundansi data. Manfaat dari skema snowflake adalah bahwa beberapa aplikasi analisis bekerja lebih baik dengan skema kepingan salju dari skema bintang . Manfaat lain dari skema snowflake adalah bahwa ruang disk kurang diperlukan . Sebuah skema snowflake dapat menurunkan kinerja query , tetapi juga dapat meningkatkan performa query . Ini mengurangi fakta kinerja tabel query karena kita harus bergabung lebih tabel untuk tabel fakta . Hal ini meningkatkan kinerja query ketika kita ingin mendapatkan nilai yang berbeda dari atribut dimensi tertentu . Jika atribut ini dinormalisasi ke dalam tabel subdimensi sendiri , pilih permintaan yang berbeda berjalan lebih cepat .

Kedua, jika dimensi sudah ada, kita menggunakan yang sudah ada bukan menciptakan versi lain. Sebagai contoh, jangan membuat dimensi pelanggan lain. Jika kita membutuhkan lebih banyak atribut, memperpanjang kolom dimensi.

Ketiga, kita harus konsisten dengan definisi data kita. Definisi untuk setiap ukuran dan setiap atribut dimensi harus akurat dan unik. Istilah yang sama digunakan sebagai ukuran atau atribut tidak boleh digunakan setiap tempat lain di gudang data dengan arti yang berbeda.

➔Supplier Performance Data Mart

Pemasok data kinerja mart memiliki empat dimensi: tanggal, minggu, pemasok, dan produk. Dimensi pemasok mendukung SCD tipe 2, ditandai dengan cap efektif dan kadaluwarsa dan is_currentcolumn tersebut

Tujuan dari data ini mart adalah untuk mendukung pengguna untuk menganalisis "kinerja pemasok," Untuk menentukan ukuran pada tabel fakta, kita perlu menentukan periode di mana kami ingin mengevaluasi kinerja. Hal ini dapat dilakukan dengan membahas persyaratan dengan bisnis.

➔CRM Data Marts

Persyaratan bisnis untuk segmentasi promosi CRM adalah (dari Bab 4): untuk memungkinkan pengguna CRM untuk memilih pelanggan berdasarkan izin komunikasi (berlangganan / berhenti berlangganan, e-mail/phone/post, dan sebagainya), atribut geografis (alamat, kota , dan sebagainya), atribut demografis (usia, jenis kelamin, pekerjaan, pendapatan, hobi, dan sebagainya), kepentingan (selera musik, kepentingan topik buku, jenis film favorit, dan sebagainya), sejarah pembelian (nilai order, tanggal pesanan , jumlah item, lokasi toko, dan sebagainya), rincian langganan (rincian paket, tanggal berlangganan, jangka waktu, lokasi toko, dan sebagainya), dan atribut dari produk yang dibeli (misalnya, genre musik, artis, jenis film yang , dan sebagainya) untuk tujuan pengiriman promosi CRM

beberapa terminologi CRM pertama. Langganan Komunikasi adalah ketika seorang pelanggan berlangganan komunikasi, seperti surat kabar mingguan. Komunikasi permissionis ketika seorang pelanggan memungkinkan kita atau mitra pihak ketiga untuk menghubungi mereka (atau berkomunikasi dengan mereka) baik melalui telepon, e-mail, pos, dan sebagainya. Preferensi komunikasi memiliki dua makna: preferensi saluran komunikasi dan preferensi isi komunikasi. Saluran ini adalah tentang bagaimana mereka ingin dihubungi, seperti melalui telepon, pos, e-mail, atau pesan teks. Konten tersebut tentang subjek yang mereka ingin tahu, seperti musik pop, film komedi, atau penulis favorit tertentu. Preferensi isi komunikasi juga dikenal sebagai kepentingan.

➔ Data Hierarchy

Dalam tabel dimensi, ada struktur tertentu yang disebut hirarki. Hirarki ini penting karena menyediakan Anda dengan jalur yang dapat Anda gunakan untuk menggulung dan menelusuri ketika menganalisis data.

Dalam tabel dimensi, kadang-kadang atribut (kolom) adalah bagian dari atribut lain, yang berarti bahwa nilai-nilai atribut dapat dikelompokkan berdasarkan atribut lainnya. Atribut yang dapat digunakan untuk kelompok dikatakan pada tingkat yang lebih tinggi dari atribut yang sedang dikelompokkan. Artinya, jika A adalah himpunan bagian dari B, maka A adalah pada tingkat yang lebih tinggi daripada B. Tingkat ini dalam tabel dimensi disebut hirarki dimensi.

Untuk menerapkan hirarki dalam situasi Anda sendiri, pertama lihat kolom (atribut) dalam tabel dimensi untuk menemukan apakah ada kelompok atau himpunan bagian. Mengatur atribut di tingkat yang tepat, yang berarti bahwa Anda harus menempatkan atribut-tingkat yang lebih tinggi di atas atribut-tingkat yang lebih rendah. Uji data untuk membuktikan bahwa semua anggota atribut tingkat rendah dapat dikelompokkan berdasarkan atribut-tingkat yang lebih tinggi. Identifikasi apakah ada beberapa jalur (cabang) dalam struktur hirarki;

➔Source System Mapping

Setelah kami menyelesaikan desain DDS, langkah berikutnya adalah untuk memetakan setiap kolom dalam DDS ke sistem sumber sehingga kita tahu di mana untuk mendapatkan data dari ketika mengisi kolom tersebut. Ketika melakukan hal ini, kita juga perlu menentukan transformasi atau perhitungan yang diperlukan untuk mendapatkan kolom sumber ke dalam kolom target. Hal ini diperlukan untuk memahami fungsi bahwa logika ETL harus melakukan ketika mengisi setiap kolom pada tabel DDS

Hasil akhirnya adalah bahwa menyimpan data dimensi yang kita dirancang di bagian sebelumnya akan benar-benar dipetakan ke sistem sumber. Oleh karena itu, kita tahu di mana setiap kolom akan bersumber dari, termasuk transformasi

➔Designing the Normalized Data Store

untuk merancang menyimpan data dinormalisasi, yang merupakan database dinormalisasi yang berada di antara panggung dan DDS. Silakan lihat aliran data diagram arsitektur. Sebuah NDS adalah toko data master yang berisi data yang lengkap, termasuk semua data transaksi historis dan semua versi sejarah data master. The NDS berisi menguasai tabel dan tabel transaksi. Sebuah transaksi tableis tabel yang berisi transaksi bisnis atau acara bisnis. Sebuah tabel master adalah tabel yang berisi orang-orang atau benda yang terlibat dalam acara bisnis.

Langkah Pertama, kita daftar semua entitas berdasarkan tabel sumber dan berdasarkan fakta dan atribut dimensi di DDS. Idealnya, diagram NDS termasuk kardinalitas di "crow’s feet" format untuk mencerminkan hubungan antara entitas seperti one-to-many. Format kaki gagak terdiri dari simbol lingkaran (nol), garis (satu), atau garpu (banyak) di dekat meja, seperti yang ditunjukkan pada Gambar 5-13

Untuk mendukung beberapa DDSS konsisten, semua kunci data warehouse perlu didefinisikan dan dipelihara di NDS sehingga semua DDSS memiliki kunci yang konsisten. Dari sudut pandang data integrasi, kita perlu memiliki kunci DW untuk setiap meja di NDS. Kita perlu untuk memetakan data referensi dari beberapa sistem sumber. Untuk membuat pemetaan, kita mengidentifikasi primary key dari tabel dalam sistem sumber dan mencocokkannya dengan kunci DW dalam tabel NDS. Ketika mengisi tabel NDS, kita membangun ETL sesuai dengan pemetaan ini. Ketika merancang NDS, kita harus mengikuti aturan normalisasi. Tujuan dari normalisasi adalah untuk menghapus data yang berlebihan dan membuatnya lebih mudah untuk mempertahankan data. Kita perlu ingat bahwa normalisasi dapat mempengaruhi kinerja. Tidak ada aturan yang pasti bahwa kita perlu merancang NDS ke bentuk normal ketiga

Langkah kedua adalah daftar kolom. Kami mendasarkan ini pada kolom DDS dan pada kolom sistem sumber.

Langkah ketiga adalah menuliskan sumber dan transformasi. Hal ini seharusnya tidak sulit karena kita mendefinisikan mereka ketika kami melakukan pemetaan sistem sumber di DDS

pengertian Fungsional dan Nonfungsional persyaratan dalam datawarehouse menurut microsoft book bagian 4

Fungsional dan Nonfungsional persyaratan

(Functional and Nonfunctional Requirements)

Hal ini penting untuk menentukan kebutuhan fungsional dan nonfungsional ketika membangun sebuah sistem data warehouse untuk memastikan bahwa sistem yang kita bangun akan membantu pengguna mencapai tujuan bisnis. Persyaratan fungsional menentukan apa yang dikerjakan sistem. Mereka berisi fitur bahwa sistem data warehouse harus memiliki. Persyaratan nonfunctional membimbing dan membatasi arsitektur

➔Mengidentifikasi Area Bisnis (Identifying Business Areas)

➔Understanding Business Operations

untuk memahami proses, peran, dan isu-isu di daerah masing-masing. Secara khusus, mereka mencari kegiatan bisnis(event), status, tingkat (level), dan peran(roles).

Sebuah acara (EVENT) merupakan kegiatan yang terjadi berulang-ulang setiap beberapa detik atau menit. Atau bisa juga setiap beberapa jam atau hari. Sebagai contoh, di daerah pembelian, kami memiliki dokumen yang disebut pesanan pembelian.
Status adalah kondisi obyek pada titik tertentu dalam waktu. Sebagai contoh, sebuah lagu dapat memiliki status aktif atau usang. Langganan pelanggan dapat memiliki status berlangganan, berhenti berlangganan, atau tidak ada.
tingkat (level)adalah pengukuran kuantitatif dari suatu obyek pada titik tertentu dalam waktu, seperti saldo rekening, tingkat persediaan, dan jumlah pelanggan. pengukuran kuantitatif tersebut berubah dari waktu ke waktu.
Peran (roles)adalah siapa, siapa, dan apa yang terlibat dalam acara tersebut. Misalnya, peran dalam acara pesanan pembelian adalah pemasok, account manager, dan produk. Manajer akun menimbulkan pesanan pembelian untuk pemasok untuk produk tertentu.

➔Mendefinisikan Kebutuhan Fungsional (Defining Functional Requirements)

Setelah memahami operasi bisnis di daerah masing-masing, manajer proyek bisnis mendiskusikan dengan pengguna bisnis persyaratan fungsional, yaitu, fitur dan fungsi dari data warehouse.dengan kata lain, apa sistem yang dilakukan? Pada akhirnya, mereka sepakat bahwa sistem data warehouse memiliki persyaratan fungsional ditunjukkan

➔ Mendefinisikan Persyaratan Nonfungsional (Defining Nonfunctional Requirements)

Pertemuan dengan arsitektur TI dan operasi tim dan diskusi dengan pengguna bisnis mengungkapkan persyaratan nonfunctional. Kebutuhan fungsional menentukan apa yang dikerjakan sistem (fitur), sedangkan persyaratan nonfunctional tidak menentukan fitur. Sebaliknya, persyaratan nonfunctional memberikan panduan dan batasan untuk arsitektur sistem. Beberapa dari mereka adalah dari perusahaan IT standar, beberapa dari tim arsitektur TI, beberapa dari pembatasan sistem sumber (permintaan dari DBA sistem sumber dan manajer operasi), dan beberapa dari kebutuhan pengguna (kebutuhan dari pengguna bisnis) .

Ada juga persyaratan nonfunctional yang terkait dengan manajemen proyek atau bagaimana proyek harus dijalankan, seperti persyaratan yang berkaitan dengan waktu, sumber daya, lokasi, dan anggaran.

➔Melakukan Studi Kelayakan data (Conducting a Data Feasibility Study)

Sebuah studi kelayakan data yang merupakan proses untuk mengeksplorasi sistem sumber, untuk memahami data dengan daftar risiko data utama dan memverifikasi itu, dan untuk menentukan apakah mungkin untuk memberikan proyek sesuai persyaratan. Mengeksplorasi sistem sumber berarti memeriksa platform database, memeriksa struktur database, dan query tabel. Memahami data berarti mencari tahu di mana data tersebut berada untuk setiap kebutuhan fungsional dan memahami makna dan kualitas data.Risiko yang diidentifikasi dengan mencari tahu apakah ada kesenjangan antara equirements dan data, yaitu, apakah untuk setiap kebutuhan data yang tersedia dan dapat diakses

Tujuan melakukan studi kelayakan Data adalah untuk mendapatkan ide tentang apakah ada resiko data yang bisa gagal proyek. Risiko Data risiko proyek yang terkait dengan ketersediaan data dan akses data. Risiko Ketersediaan data risiko tidak mampu untuk memenuhi kebutuhan karena data tidak tersedia. Misalnya, persyaratan bisa menentukan dua tahun data historis, tapi Anda hanya memiliki enam bulan senilai data. Risiko akses data areproject risiko tidak mampu memenuhi kebutuhan karena sistem ETL tidak dapat mengekstrak data dan membawanya ke gudang. Sebagai contoh, kita mungkin tidak dapat mengidentifikasi update di meja karena thereis tidak ada "terakhir diperbarui" timestamp, karena kita tidak diperbolehkan untuk menginstal pemicu dalam tabel sumber, dan karena meja terlalu besar untuk mengekstrak seluruh meja setiap waktu.Hal ini penting untuk memverifikasi risiko ini dan memastikan bahwa mereka diminimalisir. Jika kita tidak melakukan itu, kita benar-benar mempertaruhkan proyek data warehouse akan gagal.

Metodologi Pengembangan Data Warehouse menurut microsoft book bagian 3

Metodologi Pengembangan Data Warehouse

(Data Warehouse Development Methodology)

Metode air terjun (Waterfall Methodology)

Dalam sistem Waterfall Methodology terdapat langkah-langkah seperti studi kelayakan, persyaratan, arsitektur, desain, pengembangan, pengujian, penyebaran, dan operasi.

Figure 3-2.Waterfall methodologywith infrastructuresetup and project management

Sekarang saya akan membahas satu per satu, merinci apa yang harus Anda lakukan ketika membangun data warehouse:

Feasibility studi (Studi kelayakan); Anda mengumpulkan persyaratan pada tingkat tinggi (misalnya, menentukan mengapa Anda membutuhkan data warehouse dan apakah data warehouse adalah solusi yang tepat), Anda memiliki kecepatan melihat sistem sumber untuk mencari tahu apakah mungkin untuk mendapatkan Data yang Anda butuhkan, Anda mendapatkan data sampel untuk menilai kualitas data, dan Anda menulis proposal (beberapa orang lebih suka menyebut dokumen ini kasus bisnis.
Requierments (persyaratan ): membicarakan kepada pengguna untuk memahami detail dari proses, bisnis, data, dan isu-isu.serta Mengatur kunjungan lapangan untuk mendapatkan pengalaman langsung. Mendiskusikan arti dari data, user interface, dan sebagainya, dan mendokumentasikannya.perlu juga Menyertakan daftar persyaratan nonfunctional seperti kinerja dan keamanan.
Architecture :Pada dasarnya, Anda perlu menentukan aliran data arsitektur Anda yang akan digunakan disistem dan arsitektur apa yang akan Anda gunakan, secara rinci, termasuk spesifikasi untuk server database, jenis jaringan, solusi penyimpanan, dan sebagainya.
Desain(Design): Anda perlu merancang tiga bagian utama dari sistem data warehouse: data store, sistem ETL, dan aplikasi front-end.
Pengembangan(Development): Anda perlu untuk membangun tiga bagian yang Anda desain: toko data, sistem ETL (termasuk sistem mutu data dan metadata), dan aplikasi front-end. hati-hati dan pertimbangankan, ini tiga bagian dapat dibangun secara paralel. Pertimbangan yang paling penting ketika membangun secara paralel adalah untuk mendefinisikan interface yang kurat
antar bagian.
Pengujian: Pada dasarnya, Anda perlu menguji menyimpan data, ETL, dan aplikasi front-end
Deployment: Setelah sistem siap, Anda menempatkan semua komponen dalam kotak produksi: sistem ETL, menyimpan data, dan aplikasi front-end
Operasi(operation): Para pengguna terus menggunakan data warehouse dan aplikasi. Tim operasi terus mengelola data warehouse dan untuk mendukung pengguna.
Penyiapan infrastruktur(Infrastructure setup): Salah satu tugas terbesar ketika Anda membangun aplikasi adalah untuk mempersiapkan lingkungan produksi di mana Anda akan menjalankan aplikasi dan membangun pengembangan dan lingkungan pengujian.
Manajemen proyek(Project management:): Ini adalah ketika Anda mempertahankan rencana proyek (yang berarti setiap saat Anda harus tahu status dari setiap tugas dan siapa yang akan melakukan apa dan kapan), menjaga komunikasi yang baik dengan seluruh pemangku kepentingan (sponsor proyek, pengguna, dan pengembang ) termasuk laporan status dan rapat, dan menyerang secara agresif risiko (bukan menyelesaikan mereka ketika mereka menjadi masalah)

Iterative Methodology

Prinsip dasar metodologi berulang adalah untuk melepaskan bagian-bagian yang lebih besar dan lebih besar dari proyek lengkap untuk menemukan masalah awal dan membuat penyesuaian yang diperlukan ketika persyaratan tidak dapat didefinisikan secara memadai oleh pengguna.

Metodologi berulang menghilangkan semua lima risiko dan masalah yang disebutkan sebelumnya! Semua lima dari mereka telah dilakukan sejak iterasi 1 sehingga pada go-live tanggal akhir (iterasi 3), sistem akan berjalan jauh lebih lancar. Mari kita pergi melalui langkah demi langkah proses:

Dalam putaran pertama, Anda menjalankan seluruh arsitektur sebagai suatu sistem.
2. Dalam putaran pertama, pengguna melihat dan menggunakan data warehouse.
3. Dalam putaran pertama, tes dan lingkungan produksi yang digunakan.
4. Dalam putaran pertama, Anda menjalankan sistem pada kapasitas maksimum untuk pengujian kinerja.
5. Dalam putaran pertama, Anda menyebarkan produksi (go live).

Fokus pada iterasi pertama adalah arsitektur, apa yang anda tidak ingin mengambil yang paling sulit Data mart untuk membangun selama iterasi pertama. Dalam Rational metodologi Unified Process (RUP), jenis ini disebut iterasi elaborasi, di mana Anda berfokus pada architecture.RUP adalah salah satu metodologi yang menggunakan pendekatan iteratif.

Fokus dari iterasi kedua adalah fungsi tersebut. Oleh karena itu, pada iterasi kedua, Anda memilih complex data mart (CRM). Karena itu yang paling sulit yaitu Data mart, jika Anda bisa melakukan data mart ini, semua data mart lain seharusnya tidak menjadi masalah. Dalam RUP, jenis iterasi di mana Anda fokus pada fungsi juga merupakan elaborationphase.

Iterasi ketiga Anda hanya perlu bekerja seperti sebuah pabrik untuk menghasilkan kode seefisien mungkin. Dalam RUP, jenis ini disebut iterasi konstruksi, di mana Anda melakukan produksi massal untuk melengkapi sistem. Dalam RUP, ada satu tipe yang lebih iterasi yang disebut awal (yang merupakan iterasi pertama), di mana kau fokus untuk mendapatkan para pemangku kepentingan untuk menyepakati tujuan, arsitektur kasar, dan jadwal tingkat tinggi.

Iterasi terakhir akan memberikan fungsi yang tersisa, penjualan dan data persediaan mart. Dalam iterasi ini, Anda dapat mengakomodasi permintaan perubahan berdasarkan masukan dari pengguna pada dua pertama iterasi. Anda akan melakukan kegiatan yang sama seperti dua iterasi sebelumnya: dari pengumpulan persyaratan untuk menyerahkan segalanya kepada tim produksi. Anda akan membangun komponen yang sama: sistem ETL, sistem metadata, sistem mutu data, menyimpan data, dan aplikasi front-end.

Keuntungan menggunakan metodologi iterasi ini adalah jelas: meminimalkan risiko. Dengan kata lain, proyek ini memiliki lebih banyak kesempatan untuk menjadi sukses, dan sistem disampaikan akan memiliki kualitas yang lebih baik. Kerugian utama adalah bahwa infrastruktur perlu disampaikan di depan

pengertian Data Warehouse Architecture menurut versi microsoft book bagian 2

Data Warehouse Architecture

Data warehouse memiliki 2 arsitektur utama yaitu arsitektur aliran data ( data flow architecture) dan arsitektur sistem (system architecture).

Arsitektur Aliran Data ( Data Flow Architecture)

Arsitektur aliran data ( data flow architecture) adalah konfigurasi penyimpanan data dalam sistem data warehouse, beserta pengaturan bagaimana data mengalir dari sumber sistem melalui penyimpanan data untuk sebuah aplikasi yang digunakan oleh pengguna akhir. hal ini termasuk bagaimana arus data yang di kendalikan ,dicatat dan di pantau serta mekanisme guna memastikan kualitas data dalam menyimpan data.

Data stories atau lebih database atau file yang berisi data data warehouse, disusun dalam format tertentu dan terlibat dalam proses data warehouse. Berdasarkan aksesibilitas pengguna, Anda dapat mengklasifikasikan menyimpan data data warehouse menjadi tiga jenis:

A user-facing data store adalah penyimpanan data yang tersedia bagi pengguna akhir dan dipertanyakan oleh pengguna akhir dan aplikasi pengguna akhir.
An internal data store adalah semua penyimpanan data yang digunakan secara internal oleh komponen data warehouse untuk tujuan mengintegrasikan, pembersihan, penebangan, dan menyiapkan data, dan tidak terbuka untuk permintaan oleh pengguna akhir dan aplikasi pengguna akhir.
A hybrid data storeis digunakan untuk kedua mekanisme data warehouse internal dan untuk permintaan oleh pengguna akhir dan aplikasi pengguna akhir.

Sebuah data master storeis menyimpan data user facing atau hybrid yang berisi satu set lengkap data dalam data warehouse, termasuk semua versi dan semua data historis. Berdasarkan format data, Anda dapat mengklasifikasikan menyimpan data data warehouse menjadi empat jenis:

Tahap(stage) adalah sebuah penyimpan data internal digunakan untuk mengubah dan mempersiapkan data yang diperoleh dari sistem sumber, sebelum data dimuat ke penyimpan data lain dalam data warehouse.
Penyimpan data dinormalisasi(normalized data store (NDS)) adalah penyimpanan data master internal dalam bentuk satu atau lebih normalisasi database relasional untuk tujuan mengintegrasikan data dari berbagai sistem sumber diambil dalam tahapan (stage), sebelum data tersebut dimuat ke penyimpan data user facing.
Dimensional menyimpan data( dimensional data store(DDS) )adalah semua penyimpanan data user facing dalam bentuk satu atau lebih database relasional, dimana data tersebut disusun dalam format dimensi untuk tujuan mendukung permintaan analitis.

Saya membahas istilah relasional, normalisasi, denormalized, dan dimensionalin Bab 1, tapi aku akan mengulangi definisi sini sebentar:

Database relasional adalah database yang terdiri dari tabel entitas dengan hubungan orangtua-anak di antara mereka.
Database normalisasi adalah database dengan sedikit atau tanpa redundansi data dalam bentuk normal ketiga atau lebih tinggi.
Database denormalized adalah database dengan beberapa redundansi data yang tidak melalui proses normalisasi.
Database dimensi adalah database denormalized terdiri dari fakta tabel dan tabel dimensi umum yang mengandung pengukuran kegiatan bisnis, dikategorikan berdasarkan dimensi mereka.

Dalam empat bagian berikut, saya akan membahas empat arsitektur aliran data dengan kelebihan dan kekurangan:

Arsitektur DDS tunggal dengan memiliki stage (tahap) dan menyimpan data DDS.

Arsitektur NDS + DDS dengan memiliki stage (tahap), NDS, dan menyimpan data DDS.
Arsitektur The ODS + DDSdengan memiliki panggung, ODS, dan menyimpan data DDS.
Arsitektur Federasi gudang data (federated data warehouse (FDW)) yaiut arsitektur yang terdiri dari beberapa gudang data yang terintegrasi oleh lapisan pengambilan data.

Single DDS

Dalam arsitektur DDS tunggal, Anda memiliki menyimpan data satu dimensi. The DDS terdiri dari satu atau beberapa data mart dimensi. Dimensi Data mart adalah sekelompok tabel fakta terkait dan tabel dimensi yang sesuai mereka yang berisi pengukuran kegiatan usaha, yang dikategorikan berdasarkan dimensi mereka. Sebuah paket ETL ekstrak data dari sistem sumber yang berbeda dan menempatkan mereka di atas tahap (stage)

.Gamabar.Single DDS data warehouse architecture

Keuntungan dari arsitektur DDS tunggal adalah bahwa hal itu lebih sederhana dari tiga arsitektur berikutnya. Hal ini lebih sederhana karena data dari panggung (stage) yang dimuat langsung ke menyimpan data dimensi, tanpa pergi ke setiap jenis penyimpanan normalisasi terlebih dahulu. Kerugian utama adalah bahwa hal itu lebih sulit dalam arsitektur untuk membuat DDS kedua. DDS dalam arsitektur DDS tunggal adalah penyimpanan data master yang berisi satu set lengkap data dalam data warehouse, termasuk semua versi dan semua data historis. Kadang-kadang Anda perlu membuat DDS kecil yang berisi bagian dari data di DDS master untuk tujuan analisis tertentu di mana Anda ingin dapat mengubah data atau Anda ingin data sebagai data statis. Untuk membuat ini DDS lebih kecil, Anda akan perlu untuk membuat paket ETL baru yang mengambil data dari DDS induk dan populates DDS kecil. Anda perlu membangun paket ETL ini dari awal. Anda tidak dapat menggunakan kembali paket ETL ada karena paket ETL mengambil data yang ada dari panggung (stage) dan populates DDS utama. Ini adalah aliran data sangat berbeda sekali.

arsitektur DDS tunggal digunakan ketika Anda hanya perlu sebuah penyimpanan satu dimensi dan Anda tidak perlu menyimpan data normalisasi. Hal ini digunakan untuk solusi BI analitis sederhana, cepat, dan mudah di mana data yang digunakan hanya untuk memberi ruang data warehouse dimensi. Sebuah solusi DDS tunggal yang terutama berlaku bila Anda hanya memiliki satu sistem sumber karena Anda tidak perlu tambahan NDS atau ODS untuk mengintegrasikan data dari sistem sumber yang berbeda. Dibandingkan dengan NDS + DDS atau ODS + arsitektur DDS, arsitektur DDS tunggal adalah yang paling sederhana untuk membangun dan memiliki waktu tercepat ETL run karena data yang dimuat langsung ke DDS tanpa pergi ke NDS atau menyimpan data ODS pertama.

NDS + DDS

Dalam arsitektur aliran data NDS + DDS, ada tiga menyimpan data: panggung (stage), NDS, dan DDS. Arsitektur ini mirip dengan arsitektur DDS tunggal, tetapi memiliki menyimpan data dinormalkan di depan DDS. NDS dalam bentuk relasional normal ketiga atau lebih tinggi. Tujuan memiliki NDS ada dua. Pertama, mengintegrasikan data dari beberapa sistem sumber. Kedua, ia mampu memuat data ke dalam beberapa DDSS. Berbeda dengan arsitektur DDS tunggal, dalam arsitektur NDS + DDS Anda dapat memiliki beberapa DDSS. Gambar 2-5 menunjukkan arsitektur aliran data NDS + DDS.

Gambar .NDS + DDS data flow architecture

ODS + DDS

Arsitektur ini mirip dengan arsitektur NDS + DDS, tetapi memiliki ODS di tempat NDS. Seperti NDS, ODS adalah dalam bentuk normal ketiga atau lebih tinggi. Berbeda dengan NDS, ODS hanya berisi versi terbaru dari data master, ia tidak memiliki data master historis. Struktur badan adalah seperti sebuah database OLTP. The ODS tidak memiliki kunci pengganti. Tombol pengganti diselenggarakan dalam ETL DDS. The ODS mengintegrasikan data dari berbagai sistem sumber. Data dalam ODS dibersihkan dan terintegrasi. Data mengalir ke ODS telah melewati penyaringan DQ. Gambar 2-6 menunjukkan arsitektur aliran data ODS + DDS.

Figure 2-6.ODS + DDS data flowarchitecture

Seperti NDS, ODS berisi tabel transaksi dan tabel induk. Tabel transaksi berisi kegiatan bisnis, dan tabel induk berisi orang atau benda yang terlibat dalam kegiatan bisnis. Tabel fakta di DDS dihuni dari tabel transaksi di ODS. Tabel dimensi di DDS dihuni dari tabel induk di ODS. Tidak seperti NDS, tabel Master ODS yang hanya berisi versi terakhir dari data master. ODS tidak mengandung versi sejarah data master.

Tidak seperti NDS, yang merupakan sebuah penyimpanan data internal, ODS adalah menyimpan data hibrid. Ini berarti ODS dapat diakses oleh pengguna akhir dan aplikasi pengguna akhir. Dalam aplikasi NDS + DDS, NDS tidak dapat diakses oleh pengguna akhir dan aplikasi pengguna akhir. Tidak seperti NDS, ODS diupdate. Aplikasi pengguna akhir dapat mengambil data dari ODS, tetapi mereka juga dapat memperbarui ODS. Untuk menjamin kualitas data dalam ODS, aturan kualitas data juga diterapkan untuk pembaruan tersebut. Aplikasi pengguna akhir tidak harus memperbarui data yang berasal dari sumber sistem, yang dapat memperbarui hanya data itu sendiri untuk melengkapi systems'data sumber. Jika ODS digunakan untuk mendukung aplikasi dukungan pelanggan CRM, data seperti status dan komentar dapat ditulis pada ODS secara langsung, tapi semua data pelanggan masih dari sistem sumber.

Dalam arsitektur ODS + DDS, aplikasi dapat mengakses data warehouse dalam tiga tempat di tiga format yang berbeda: mereka yang membutuhkan data dalam bentuk dinormalkan dapat mengakses ODS, mereka yang membutuhkan data dalam format dimensi relasional dapat mengakses DDS, dan mereka yang membutuhkan data dalam format multidimensi dapat mengakses MDB.

Arsitektur ini memiliki keunggulan ini:

• Bentuk normal ketiga lebih ramping dari NDS karena hanya berisi nilai-nilai saat ini.

Hal ini membuat kinerja kedua ETL ODS dan DDS ETL lebih baik daripada yang di

Arsitektur NDS + DDS.

• Seperti arsitektur NDS + DDS, dalam ODS + arsitektur DDS Anda memiliki pusat

tempat untuk mengintegrasikan, memelihara, dan mempublikasikan data master.

• penyimpanan relasional normalisasi diupdate oleh aplikasi pengguna akhir, sehingga

mampu mendukung aplikasi operasional pada tingkat transaksi

Kerugian arsitektur ini adalah bahwa untuk membangun baru, kecil DDS (katakanlah 2007 Q4 data penjualan), Anda harus mendapatkannya dari DDS utama dan tidak dapat memanfaatkan DDS ETL yang ada untuk melakukan itu. Anda perlu baik untuk menulis query kustom (dengan kata lain, membuat tabel dari pilih), yang tidak disukai karena standardisasi dan konsistensi alasan, atau untuk membangun ETL baru, yang tidak disukai baik karena usaha, terutama jika itu adalah satu-off, membuang hal.

arsitektur ODS + DDS digunakan ketika Anda hanya perlu menyimpan data satu dimensi dan Anda membutuhkan sebuah pusat penyimpan data yang dinormalisasi yang akan digunakan untuk keperluan operasional seperti CRM. Para ODS mengandung rinci, data yang terintegrasi saat ini bernilai yang berguna untuk querie transaksional.

Federated Data Warehouse

Sebuah data warehouse federasi terdiri dari beberapa gudang data dengan lapisan pengambilan data di atasnya. Sebuah data warehouse federasi mengambil data dari gudang data yang ada menggunakan ETL dan beban data ke dalam dimensi penyimpanan data baru .Misalnya, karena kegiatan penggabungan dan pembebasan, Anda bisa memiliki tiga gudang data. Mungkin yang pertama adalah data warehouse dimensi, yang kedua adalah bentuk data yang dinormalisasi gudang normal ketiga, dan yang ketiga adalah gudang data relasional dengan beberapa tabel transaksi besar referensi banyak tabel referensi.

Gambar alur data FDW

Keuntungan utama dari arsitektur ini adalah bahwa Anda dapat menampung data werehouse yang ada, dan oleh karena itu waktu pembangunan akan lebih pendek . Kerugian utama adalah secara praktis, sulit untuk membangun sebuah gudang berkualitas baik dari beragam standar-standar yang ditemukan dalam sumber data mart atau data werehouse.

Anda akan menggunakan arsitektur FDW ketika Anda ingin memanfaatkan gudang data yang ada atau di mana Anda ingin mengintegrasikan data dari beberapa data mart.

System Architecture

Bagian sebelumnya mencakup arsitektur aliran data. Mereka menunjukkan bagaimana data diatur dalam menyimpan data dan bagaimana data mengalir dalam sistem data warehouse. Setelah Anda memilih arsitektur aliran data tertentu, maka Anda perlu untuk merancang arsitektur sistem, yang merupakan susunan fisik dan hubungan antara server, jaringan, perangkat lunak, sistem penyimpanan, dan klien. Merancang arsitektur sistem membutuhkan pengetahuan tentang hardware (terutama server), jaringan (khususnya yang berkaitan dengan keamanan dan kinerja dan dalam beberapa tahun terakhir juga jaringan serat), dan penyimpanan (storage area networks [SAN]), redundant array of inexpensive disks [RAID], dan otomatis tape backup solusi).

gambar.Example of a system architecture for data warehouse

Untuk merancang arsitektur sistem data warehouse , Anda terlebih dahulu menetapkan teknologi tumpukan (stack) yang ingin Anda gunakan untuk ETL , database , dan BI , seperti Microsoft SQL Server ( SSIS , SSAS , SSIS ) , Informatica + Oracle 9i + Cognos , dan sebagainya . Hal ini ditentukan berdasarkan kemampuan produk dan didasarkan pada standar perusahaan.setelah itu lakukan desain desain tingkat tinggi pada server , konfigurasi jaringan , dan penyimpanan konfigurasi yang mendukung teknologi yang dipilih , termasuk desain ketersediaan tinggi . Kemudian tentukan spesifikasi teknis rinci dari server , jaringan , dan penyimpanan . Hal ini dilakukan berdasarkan kemampuan dan persyaratan kinerja sistem . kemudian pesan perangkat keras dan perangkat lunak dan bangun sistem di pusat data bersama-sama dengan vendor perangkat keras dan jaringannya lalu instal dan mengkonfigurasi perangkat lunak. Merancang dan membangun lingkungan adalah fundamental dan penting untuk kinerja dan stabilitas sistem data warehouse yang akan membangun di atasnya .

Dalam hal perangkat lunak, ada dua jenis perangkat lunak database: Symmetric Multiprocessing (SMP) dan massively parallel processing (MPP). Sebuah sistem database SMP adalah sistem database yang berjalan pada satu atau lebih mesin dengan beberapa prosesor yang identik berbagi storage disk yang sama. Ketika sebuah sistem database SMP berjalan pada lebih dari satu mesin, hal itu disebut aclustered Database configuration.The secara fisik terletak di sistem penyimpanan disk tunggal. Contoh sistem database SMP adalah SQL Server, Oracle, DB / 2, Informix, dan Sybase. Sebuah sistem database MPP adalah sistem database yang berjalan pada lebih dari satu mesin di mana setiap mesin memiliki penyimpanan disk sendiri. Database secara fisik terletak di beberapa sistem penyimpanan disk yang saling berhubungan satu sama lain. Sebuah sistem database MPP juga dikenal sebagai sistem database paralel. Contoh sistem database MPP adalah Teradata, Neoview, Netezza, dan DATAllegro.

Case Study (studi kasus)

Studi kasus perlu mencakup semua aspek Anda ingin belajar dalam buku ini: arsitektur, metodologi, persyaratan, pemodelan data, desain database, ETL, kualitas data, metadata, menyimpan data, laporan, database multidimensi, BI, CRM, pengujian, dan administrasi data warehouse. Idealnya, studi kasus harus cukup sederhana untuk dipahami dan memberikan sebagai sebuah proyek, tapi saya tidak ingin menjadi terlalu sederhana karena tidak akan mencakup beberapa daerah yang disebutkan sebelumnya. Jadi, perlu sederhana tetapi tidak terlalu sederhana.