Ham veriyle uğraşmak çoğu zaman çok zahmetlidir. Bu dönemde veri ile uğraşmak yerine tüm verileri hazır olan data setleriyle veri bilimi/makine öğrenmesi algoritmaları kullanıp sonuçları bilinen durumları tekrar etmek gibi bir trend var. Tabii ki işin en kolayı bu olduğundan tercih edildiğini biliyoruz ama bunun gerçek hayatta karşılığı yok. Veriyle elini kirletmek ise toprak altında elmas aramak kadar zor. Yine de veri biliminde bu ham veriyi işlenebilir hale getirmek işin kolay tarafı. Asıl olan o operasyonu/işi bilmek yani “business knowledge” sahibi olmaktır.
Sözün özü, makine öğrenmesinin ve istatistiğin doğru sonuçlar vermesi için altındaki literatürün/iş bilgisinin önceden çalışılması gerekiyor. Bu da biraz akademik bilgi ve araştırma istemektedir.
Her neyse ne aradığımızı biliyoruz varsayalım. Bilim insanları gibi çalışmak zor olsa da bazı verileri işleyebiliriz ve buradan yakaladıklarımızla da işe yarar bir sonuç elde edebiliriz.
Bilim süreci
Bilim bir süreçler bütünüdür. Veriyle ellerini kirletmek de bu süreçlerin başında gelir. Bu dönemde yine yanlış olmasına rağmen görülen ise veri bilimcilerin ve analistlerin veriyi temizlemekle ve işlemekle uğraşmak yerine direkt analitik yapmalarıdır ve çıkan sonuçlar ise yanlı olmaktadır, bu da bize politikayı hatırlatmaktadır. Politikanın her duruma ve kişiye göre değiştiğini herkes bilir işte bu yüzden veriyi temizlemeden, düzenlemeden sonuçlar çıkarmak zincirleme yanlışlar ortaya koyar ve daha sonra düzeltmesi de imkânsız olabilir.
Biz veri bilimi kullanarak aslında doğayı ve insan davranışlarını inceliyoruz ve bunun veri bilimi olması için de bilimin koyduğu kurallara uymalıyız. Bu kuralların en başında ise doğru ölçmek vardır. Doğru ölçülen veriler daha analitik yapmadan bile bize inanılmaz bir öngörü sağlar ama gerçek hayatta bunu yapması zordur, emek gerektirir.
1. Önce temizlik
Veri toplamadan önce bir kapsam ve metot belirlenmelidir bu olmadan veri toplanmaz. Bu sadece ham verinin toplanması ve işe yarayıp yaramadığını bilmeden uğraşmak anlamına gelir. Çıkacak sonuçları anlamlı hale getirmek de bu şekilde çok zor olacaktır ve kimseyi de mutlu etmeyecektir. Zaten asıl işimiz de veriyi anlamak, anlatmak ve anlaşılır hale getirmek değil midir?
İşte bu yüzden biz 500 yıldır artık kabul edilir yöntemler olan klasik bilim yöntemlerini dikkate alalım. Veri biliminde diğer operasyonların düzgün ilerlemesi için önce temizlik yapalım. Kirli bilim hiçbir zaman tam anlamıyla temiz bir bilime dönüşmez, bu şekilde işler zaten hızlı da gitmeyecektir ve iş uzadıkça uzayacaktır.
Ne arıyoruz biz?
Veri bilimi ile aranan her zaman organizasyonun merak ettiği, kanaat getirdiği ama kanıtlayamadığı bir sorun veya bir merak olur, örneğin üretim için bu; tezgahların hangisinin verimi daha düşük, pazarlamada ise neden bazı müşteriler hep ayın ürüne yöneliyor gibi meraklar olabilir. Burada işte hangi parametreleri veya özellikleri (property) dikkate alacağımız konusu ön plana çıkmaktadır. Bilinmeyen nedir ve bu bilinmeyeni etkileyen nedir anahtar soru olarak dikkate alınmalıdır. Bu soruların cevapları bilimsel süreçlerin sağlıklı ilerlemesini sağlayacaktır.
2. Hipotezin yanlışlanması
Hipotezler bir önceki bilinmeyen parametrelerin veya özelliklerin yardımıyla kurulur. Bu bilinmeyenleri seçip araştırmaya başlayarak hipotezimizi açıklamak isteriz. Hipotez en genel mana da bir önermedir ve neden-sonuç ilişkilerini ortaya çıkarmak için kullanılır. Genel olarak insan beyni doğrulara yönelirken hipotezin doğrulanması veya desteklenmesi için aslında yanlışlanması gerekir. Örneğin; tüm güvercinler beyazdır diye bir hipotez kurar isek tüm güvercinlerin beyaz olduğunu ispatlamak gerekir fakat bir siyah güvercin görürsek aslında hipotezi yanlışlamak için yeterli kanıtı bulmuş oluruz, yani görüldüğü üzere hipotez yanlışlanmalıdır. Buradan iş hayatına dönersek MES yazılımı ile ölçtüğümüz OEE’yi (Toplam Ekipman Etkinliği) artırmak karlılığı artırır doğru kurulmuş bir hipotez olmakla birlikte bizi de ne yapmamız gerektiğine yönlendirecektir. Bu hipotezi yanlışlamak için bir fabrikada OEE’nin karlılığı düşürdüğünü göstermek gerekir ki böyle bir durum söz konusu olamaz.
devam edecek…