23 Mayıs 2020 Cumartesi

Data Lake Nedir - Ham Verinin Sakladığı Yer

Data Lake Nedir
Açıklaması şöyle. Çeşitli formatlardaki ham veya işlenmiş tüm veri anlamına gelir. 
In the past, a data warehouse was the no-brainer choice for organizations when building this analytics repository. However, an alternative approach has emerged recently, thanks to the evolution of modern table formats. People call it the “lakehouse.“
Şeklen şöyle



Data Lake Olarak Ne Kullanabiliriz
Açıklaması şöyle. Genellikle object storage kullanılıyor
In real-time systems, a data lake can be an Amazon S3, Azure Data Lake Store/Azure Blob storage, Google Cloud Storage, or Hadoop Distributed file system.
Data Lake Nasıl Sorgulanır
Data Lake içinde çok fazla veri kaynağı olduğu için bunları bizden yalıtacak şekilde sorgulayan araçlar geliştirilmiş. Presto + Alluxio bu çözümlerden birisi. Açıklaması şöyle
... bringing the data warehouse features, such as ACID semantics or time travel, to the data lake is difficult. The two systems operate with different abstractions; users see tables in the data warehouse, while the lake manages the data as files.

We need a metadata layer to bring table abstraction to the data lake. That’s the value of table formats like Delta Lake, Hudi, or Iceberg

They bring ACID semantics and enable many data warehouse features such as schema evolution, data versioning, time travel, or performance-optimized techniques.

Delta Lake Nedir
Bir de böyle bir şey var. Sadece not olmak istedim. Databricks şirketinin bir ürünü. Açıklaması şöyle.
Delta Lake is an open source release by Databricks that provides a transactional storage layer on top of data lakes.
Data Mart Nedir
Açıklaması şöyle. Data mart genellikle hızlı okuma (fast reading) içindir. 
Data marts are the business user interface of your data warehouse.
Data Mart inşa ederken şu konular dikkate alınabilir
1. Common Structures : Ortak veri tüm bölümlerin kullandığı veridir
2. Security : Bölümler birbirlerinin verisini görmemelidir.
3. Aggregated and Calculated Data : Hızlı okumaya yönelik veridir
4. Keeping Historical Data : 

Polyglot Persistence Nedir
Polyglot Persistence Nedir yazısına bakabilirsiniz

Polyglot Persistence  ve Data Lake İlişkisi Nedir
Yani Polyglot Persistence bir kavram.

Her servisin kendi veri deposu var. Ancak bu veri deposu
- klasik veri tabanı olabileceği gibi,
Key-Value Database,
Document Oriented Database veya
- herhangi bir şey de olabilir.

Açıklaması şöyle.
To my mind, one can think of a data lake as an instance of polyglot persistence (in much the same way as an object is an instance of a class). Polyglot persistence is a concept, a data lake is a materialisation of that concept in action.

Hiç yorum yok:

Yorum Gönder