Anasayfa » Veri Madenciliği Nedir?

Makaleyi Paylaş

Data Warehouse

Veri Madenciliği Nedir?

image001 

Veri madenciliği en basit şekilde büyük miktarda veri içerisinden gelecekle ilgili tahmin yapmamızı sağlayacak modellerin veya bağlantıların oluşturulmasıdır.

 

Bu bağlantılar oluştuktan sonra aradığımız veriler mevcutsa bu verilerden çıkarabileceğimiz sonuçları anlamak için kullanırız. Örneğin ;

 

 Riski az olan tüm kredi kartı başvurularını bul(sınıflandırma)

 


Harcama alışkanlığı benzer olan kredi kartı sahiplerini bul(demetleme)

 

DVD birlikte sıkça satın alınan ürünü bul (ilişkilendirme kuralları)

 

Belli bir ürünü alan insanların ortak özellikleri nelerdir ?

Müşterinin bundan sonra isteyeceği ürünler neler olabilir ?

Hangi müşterilermiz sadık hangisi hangi durumlarda uçup gidiyor ?

..vb bir çok sonuç odaklı sorularımıza cevap bulabiliriz

 

Ham veriden  bu bilgilere ulaşmanın bir çok yolu var.Gerekli olan bilgiye ulaşmada ilk önce, uygulama alanımızı doğru belirlememiz gerekiyor.Bu uygulama alanının amacına uygun veri kümesi oluşturmalı ve veriyi ayıklama ve önişlemlerden geçirmeliyiz.Sistemimizde kullanacağımız yapıya göre verilerin dönüşümünü ve azaltılmasını gerçekleştirebiliriz.Veri dönüşümünde gerekli boyutları seçebilir boyutlar arası ilişkileri belirleyebilir veya boyutu azaltabiliriz. Bu aşamadan sonra gerekli olacak olan veri madenciliği tekniklerinden birtanesi seçebiliriz. Şimdi bu teknikleri inceleyelim

 

 

1- Classification:

 

En popüler veri madenciliği görevlerinden biridir.Yeni bir nesnenin niteliklerini inceleme ve bu nesneyi önceden tanımlanmış bir sınıfa atamaktadır. Burada önemli olan bir sınıfın özelliklerinin önceden net bir şekilde belirtilmiş olması gerektiğidir. Bir malın özellikleriyle müşteri özelliklerini eşleştirebiliriz.Böylece bir müşteri için ideal ürün veya bir ürün için ideal müşteri profili çıkarılabilir.

 

 

 

image002

 

 

 

“Genç kadınlar küçük araba satın alır, yaşlı, zengin erkekler büyük, lüks araba satın alır.” Sınıflama tekniğine örnek olarak verebiliriz

 

2-Clustering

 

Belli bir grubun kümelenmesi şeklinde  düşünebiliriz.Belli bir yapı içindeki geçen terimlere-datalara-özelliklere..vb göre gruplar oluşur.Bu gruplar da en çok geçen datalardan yararlanılarak bir benzerlik ölçütü geliştirilir ve buna göre demetleme yapılır.Örneğin genç –orta ve yaşlı erkeklerin aldığı kontor  miktarı ayrı ayrı cluster oluşturmaktadır.

 

 

image003

 

 

Bir cluster algoritması sayısız döngü kullanıp model yakınsayınca durarak modeli oluşturur.Yani oluşan segmentlerin sınırları stabil hale gelir. Mevcut halde bir çok clustering algoritması ve yapısı vardır.Örneğin Hierarchical clustering, Partitional clustering,, Spectral clustering..vb Bunlar kendi içinlerinde k-means,fuzzy-c-means ,QT algoritması..vb algoritmaları kullanır.Bunları ilerleyen günlerde belki açıklayabiliriz ama şuan için böyle çeşitlerinin olduğu bilgisi yeterli olacaktır.

 

3-Association

 

Popüler veri madenciliği görevlerinden biridir.Bir nesnenin varlığı ile diğer bir nesnenin varlığı arasında tahmin yürütülerek ilişki kurulur.

 

 

image004

 

Örneğin bir markette,çocuk bezi alan birisinin hemen hemen herzaman süt aldığı testpit edildikten sonra  market sahibi çocuk bezi ve süt raflarının arasındaki mesafeyi kısaltabilir.Böylece müşteriye unutulan birşeyin hatırlatılması dolayısıyla kazanç sağlanmış olur.Bunun örneklerini günlük hayatımızda bir hayli görüyoruz.

 

 

4-Regsession

 

Amaç bir ya da daha çok değişkenin başka değişkenler cinsinden tahmin edilmesini olanaklı kılan ilişkiler bulmaktır.Örneğin bilgisayar mühendisi olan 40 yaşını aşmamış evi ve arabası olan yakışıklı erkeklerJ bir regsessiondur.

 

 

image005

 

 

5-Forecasting

 

Adından da anlaşılacağı gibi bizlere tahminler sunan veri ambarı tekniğidir.Örneğin 5 sene sonra barajlardaki doluluk oranları ne olacak ? gençler en çok hangi meslekleri seçecek? X şirketinin 2012 kar marjı ne olacak? Bu tip sorulara cevap bulan bir yapıdır.Burada ki en büyük yardımcımız zaman ve datanın geçmiş yıllarda zamanın içindeki dağılımıdır.

 

 

image006

 

 Umarım faydalı bir makale olmuştur.

 

 

 

Kaynaklar;

Rud, O.P., Data Mining Cookbook, Wiley Pub., 2001

Smyth, P., Data Mining Data Analysis on a Grand Scale, UC, 2000

Sertacogut.com/blog/wp-content/uploads/2009/03/sertac_ogut_-_veri_madenciligi_kavrami_ve_gelisim_sureci.pdf

Makaleyi Paylaş

Cevap bırakın

Email adresiniz gizli kalacak Zorunlu alanlar * olarak işaretlenmiştir

Bunları kullanabilirsinizHTML etiketler ve öznitelikleri: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>