Bu aralar, sizin de kulağınıza çok çalınmıştır: “Geleceğin en önemli meslekleri arasında veri bilimi önemli yer tutacak.” Biz de Clan üyelerimizi geleceğe hazırlamak için, faydalı bir derlemeye yer vermek istedik. Veri Bilimi: 10 Temel Beceri yazımızı, bu alanda araştırma yapmak ve yeni yetenekler edinmek isteyenler için, yol gösterici olması amacıyla ekledik. Bu yazının oluşması için bize kaynak olan şu makaleye göz atmanızı öneririz.

 

Veri Bilimi, veri hazırlama ve araştırma gibi çeşitli alt bölümleri içeren çok geniş bir alandır. Bu alanda veri gösterimi ve dönüşümü; veri görselleştirme ve sunumu; tahmine dayalı analitik; makine öğrenimi vb. başlıklar içerir. Yeni başlayanlar için şu soruyu sormak doğaldır: “Veri bilimcisi olmak için hangi bilgi ve becerilere ihtiyacım var?”

 

Sıralayacağımız beceriler 2 kümede yer alıyor. Birincisi teknolojik beceriler (Matematik ve İstatistik, Kodlama, Veri İşleme ve Ön İşleme, Veri Görselleştirme, Makine Öğrenmesi ve Gerçek Dünya Proje Becerileri). İkincisi kümedeki sosyal beceriler ise “İletişim Becerileri” ve “Yaşam Boyu Öğrenme” olmak üzere 2 kategoriye ayrılabilir. Takım oyuncusu olma ve etik de yine bu kümenin içinde yer alan kavramlar. Lafı uzatmayalım ve listeyi oluşturmaya başlayalım.

 

1.Matematik ve İstatistik

(I) İstatistik ve Olasılık

İstatistikler ve Olasılık, özelliklerin görselleştirilmesi, veri ön işleme, özellik dönüşümü, veri atama, boyut azaltma, özellik mühendisliği, model değerlendirme vb. Gereksinimler için kullanılır. Aşina olmanız gereken konular şunlardır:

 

a) Ortalama

b) Medyan

c) Mod

d) Standart Sapma / Varyans

e) Korelasyon Katsayısı ve Kovaryans matrisi

f) Olasılık Dağılımları (Binom, Poisson, Normal)

g) p-değeri

h) MSE (Ortalama Kare Hatası)

i) R2 Puanı

j) Baye Teoremi (Örneğin: Kesinlik, Geri Çağırma, Pozitif Öngörücü Değer, Negatif Öngörücü Değer, Karışıklık Matrisi, ROC Eğrisi)

k) A / B Testi

l) Monte Carlo Simülasyonu

 

(II) Çok Değişkenli Analiz

 

Çoğu makine öğrenmesi modeli, birkaç özelliğe veya öngörücüye sahip bir veri kümesiyle oluşturulur. Bu nedenle, çok değişkenli analize aşinalık, bir makine öğrenmesi modeli oluşturmak için son derece önemlidir. Aşina olmanız gereken konular şunlardır:

 

a) Birkaç değişkenli fonksiyonlar

b) Türevler ve gradyanlar

c) Adım fonksiyonu, Sigmoid fonksiyonu, Logit fonksiyonu, ReLU (Rectified Linear Unit) fonksiyonu

d) Maliyet fonksiyonu

e) Fonksiyonların grafiklendirilmesi

f) Bir fonksiyonun asgari ve azami değerleri

 

(III) Doğrusal Cebir

Doğrusal cebir, makine öğrenimindeki en önemli matematik becerisidir. Bir veri seti, bir matris olarak temsil edilir. Veri ön işleme, veri dönüştürme ve model değerlendirmede kullanılır. Bunun sonucunda aşina olmanız gereken konular şunlardır:

 

a) Vektörler

b) Matrisler

c) Bir matrisin transpoze edilmesi

d) Bir matrisin tersi

e) Bir matrisin determinantı

f) Nokta çarpım

g) Özdeğerler

h) Özvektörler

 

(IV) Optimizasyon Yöntemleri

 

Çoğu makine öğrenmesi algoritması, tahmini modelleme gerçekleştirir. Bunu Nesnel bir işlevi en aza indirerek yapar. Bu nedenle tahmin edilen etiketleri elde etmek için test verilerine uygulanması gereken ağırlıkları da öğrenir.

Bu yüzden aşina olmanız gereken konular şunlardır:

 

a) Maliyet işlevi / Amaç işlevi

b) Olabilirlik işlevi

c) Hata işlevi

d) Gradyan İniş Algoritması ve Çeşitleri (Örneğin Stokastik Gradyan İniş Algoritması)

 

2. Temel Programlama Becerileri

 

Veri biliminde programlama becerileri çok önemlidir. Örneğin Python ve R, veri biliminde en popüler 2 programlama dili olarak kabul edilir. Özellikle her iki dilde de temel bilgi sahibi olmanız çok önemlidir. Bazı kuruluşlarda kariyer yapmak için yalnızca R veya Python bilmeniz gerektirebilir. Ancak bazılarında ise ikisini birden bilmelisiniz.

 

(I) Python

Python’daki temel programlama becerilerine aşina olun. İşte nasıl kullanılacağına hakim olmanız gereken en önemli paketler:

 

a) Numpy

b) Pandas

c) Matplotlib

d) Seaborn

e) Scikit-learn

f) PyTorch

 

(ii) Skills in R

a) Tidyverse

b) Dplyr

c) Ggplot2

d) Caret

e) Stringr

 

(iii) Diğer Programlama Dillerinde Beceriler

Aşağıdaki endüstri standartları veya programlama dilleri, bazı kuruluşlar veya endüstriler tarafından elzem olabilir:

a) Excel

b) Tableau

c) Hadoop

d) SQL

e) Spark

 

3. Veri Düzeltme ve Ön İşleme Becerileri

Veriler, ister çıkarıma dayalı analiz, öngörücü analiz veya kuralcı analiz tipinde olsun. Veri biliminde, herhangi türdeki bir analiz için yapı taşıdır. Bir modelin tahmin gücü, modelin oluşturulmasında kullanılan verilerin kalitesine bağlıdır. Veriler, metin, tablo, görüntü, ses veya video gibi farklı biçimlerde gelir. Çoğu zaman, analiz için kullanılan verilerin daha fazla analiz için uygun bir biçime dönüştürülmesi gerekir. Bunu madencilik olarak tabir edilen kavrama uygun olarak “çıkarılması”, işlenmesi ve dönüştürülmesi olarak tanımlarız.

 

i) Veri İşleme: Veri işleme süreci, herhangi bir veri bilimcisi için kritik bir adımdır. Çok nadiren, analiz için bir veri bilimi projesinde verilere kolayca erişilebilir. Verilerin bir dosyada, veritabanında saklı olması olasıdır. Ancak web sayfaları, tweet’ler veya PDF’ler gibi belgelerden taranarak çıkarılması da olasıdır. Verileri nasıl karıştıracağınızı ve temizleyeceğinizi bilmek oldukça önemli. Aksi takdirde habersiz kalacağınız kritik içgörüler elde etmenizi sağlayacaktır.

 

ii) Veri Ön İşleme: Veri ön işleme hakkında kavramsal bilginin ötesinde yetkinliğe sahip olmak çok önemlidir. Ve sonuç olarak aşağıdaki gibi konuları içerir:

a) Eksik verilerle başa çıkmak

b) Veri isnat etme

c) Kategorik verileri işleme

d) Sınıflandırma problemleri için kodlama sınıf etiketleri

e) Temel Bileşen Analizi (PCA) ve Doğrusal Ayrım Analizi (LDA) gibi özellik dönüştürme ve boyut azaltma teknikleri.

 

4. Veri Görselleştirme Becerileri

 

İyi bir veri görselleştirmesinin temel bileşenlerine hakim olmanız gerekir.

 

a) Veri Bileşeni: Verilerin nasıl görselleştirileceğine karar vermenin önemli bir ilk adımı, verilerin ne tür veri olduğunu bilmektir. Örneğin: Kategorik veriler, Ayrık veriler, Sürekli veriler, Zaman Serisi verileri vb.

b) Geometrik Bileşen: Verileriniz için ne tür görselleştirmenin uygun olduğuna bu aşamada karar verirsiniz. Örneğin: Dağılım Grafiği, Çizgi Grafikleri, Barplotlar, Histogramlar, Qqplots, Yoğunluklar, Isı haritaları vb.

c) Eşleme Bileşeni: Burada, X’e hangi değişkeni, Y’ye hangi değişkeni tanımlayacağınıza karar vermelisiniz. Bu, özellikle veri kümeniz çeşitli özelliklerle çok boyutlu olduğunda önemlidir.

d) Ölçek Bileşeni: Burada ne tür ölçeklerin kullanılacağına karar verirsiniz. Ör: Doğrusal Ölçek, Günlük Ölçek vb.

e) Etiketler Bileşeni: Bu, eksen etiketleri, başlıklar, göstergeler, kullanılacak yazı tipi boyutu vb. tamamen görsel kriterleri içerir.

f) Etik Bileşen: Burada, görselleştirmenizin gerçek hikayeyi anlattığından emin olmak istersiniz. Bir veri görselleştirmesini temizlerken, özetlerken, işlerken veya üretirken eylemlerinizin farkında olmanız gerekir. Görselleştirmenizi hedef kitlenizi yanıltmak veya manipüle etmek için kullanmadığınızdan emin olmanız gerekir.

5. Temel Makine Öğrenmesi Becerileri

Makine Öğrenmesi, veri biliminin çok önemli bir dalıdır. Makine öğrenmesi çerçevesini çok iyi anlamak hayati öneme sahiptir. Bu sebeple Problem Çerçeveleme; Veri Analizi; Model Oluşturma, Test Etme ve Değerlendirme ve Model Uygulaması yer alır.

Aşağıdakiler aşina olunması gereken önemli makine öğrenimi algoritmalarıdır.

i) Denetimli Öğrenme (Sürekli Değişken Tahmin)

a) Temel Regresyon

b) Çoklu Regresyon analizi

c) Düzenli Regresyon

ii) Denetimli Öğrenme (Kesikli Değişken Tahmin)

a) Lojistik Regresyon Sınıflandırıcı

b) Destek Vektör Makinesi Sınıflandırıcısı

c) K-en Yakın Komşu (KNN) Sınıflandırıcısı

d) Karar Ağacı Sınıflandırıcısı

e) Rastgele Orman Sınıflandırıcısı

iii) Denetimsiz Öğrenme

a) K-Means Algoritması

 

6. Gerçek Dünya Capstone (Bitirme) Projeleri

Kurs ya da labaratuvar çalışmasından kazanılan beceriler tek başına sizi bir veri bilimcisi yapmaz. Nitelikli bir veri bilimcisi, problem çerçeveleme, veri toplama ve analizi, model oluşturma, model testi, model değerlendirme gibi veri bilimi ve makine öğrenmesi sürecindeki her aşamayı içeren gerçek dünya veri bilimi projesinin başarılı bir şekilde tamamlandığına dair kanıt gösterebilmelidir. Bu sebeple gerçek dünya veri bilimi projeleri aşağıdaki şekillerde bulunabilir:

 

a) Kaggle Projeleri

b) Stajlar

c) Görüşmeler

 

7. İletişim Becerileri

Veri bilimcileri; fikirlerini ekip üyelerine veya işletme yöneticilerine net olarak iletebilmelidir. İletişim becerilerinin gelişmiş olması şunun için de önemlidir. Örneğin: teknik kavramları çok az anlayan veya hiç anlayamayan insanlara aktarabilmek için. İyi iletişim becerileri, veri analistleri, veri mühendisleri, saha mühendisleri vb. gibi diğer ekip üyeleriyle birlik ve beraberliği geliştirmeye yardımcı olacaktır. Dolayısıyla iletişim becerileri veri biliminde önemli rol oynar.

 

8. Öğrenmeyi Hayat Boyu Sürdürme

Veri bilimi sürekli gelişen bir alandır. Bu nedenle yeni teknolojileri kucaklamaya ve öğrenmeye hazır olun. Alandaki gelişmelerden haberdar olmanın bir yolu, diğer veri bilimcileriyle ağ kurmaktır. Ağ oluşturmayı destekleyen bazı platformlar LinkedIn, Reddit, Github ve Medium’dur. (Türkiye’de EkşiSözlük’te, bu alanda yazı paylaşan yazarlarla da iletişime geçebilirsiniz.) Platformlar, alandaki son gelişmeler hakkında güncel bilgileri edinmek için çok kullanışlıdır.

 

9. Takım Oyuncu Becerileri

Bir veri bilimcisi olarak, veri analistleri, mühendisler, yöneticilerden oluşan bir ekipte çalışacaksınız. Bu nedenle iyi iletişim becerilerine ihtiyacınız var. İyi bir dinleyici olmalısınız. Harika bir veri bilimi projesi tasarlayabilmek için mühendislere veya diğer çalışanlara, proje geliştirmenin erken aşamalarında güvenmelisiniz. Başka bir deyişle iyi bir takım oyuncusu olmak oldukça önemli. Bu iş ortamında başarılı olmanıza ve ekibinizin diğer üyeleri ve yöneticilerinizle iyi ilişkiler sürdürmenize yardımcı olur. Bu da özetle sizi daima ileriye taşır.

 
10. Veri Biliminde Etik

Projenizin gerçek ve derin anlamını haiz olun. Kendinize karşı dürüst olun. Verileri manipüle etmekten veya sonuçlarda kasıtlı olarak önyargı oluşturacak bir yöntem kullanmaktan kaçının. Veri toplamadan analize, model oluşturmaktan test etmeye ve tabii ki uygulamaya kadar tüm aşamalarda etik olun. Hedef kitlenizi yanıltmak veya manipüle etmek amacıyla sonuçlar uydurmaktan kaçının. Veri bilimi projenizden elde ettiğiniz bulguları yorumlama şeklinizde etik olun. Sonuç olarak en önemli kriterlerden birinin etik olduğunu unutmayın.

 

Veri bilimi sürekli gelişen bir alandır, ancak veri biliminin temellerine hakim olmak size derin öğrenme, yapay zeka vb. gibi gelişmiş kavramları takip etmek için ihtiyaç duyduğunuz gerekli arka planı sağlayacaktır. Veri Bilimi: 10 Temel Beceri makalemiz, bu alanda araştırma yapmak ve yeni yetenekler edinmek isteyenler için doğru bir başlangıç noktası olacak. Daha fazla içerik için göz atmayı unutmayın: Excalibur Clan