Memang benar, data science disebut sebagai “pekerjaan paling sexy di abad 21,” akan tetapi tidak sedikit orang yang gemetar bahkan ketika baru mendengar kata statistika saja. Alasan kenapa disiplin ilmu yang satu ini begitu asing adalah karena keterkaitannya yang erat dengan matematika.

Apabila anda merasa pesimis apakah Anda bisa mempelajari analisis statistik atau justru penasaran ingin mempelajarinya, maka panduan berikut ini akan membantu Anda dengan membedah konsep dasarnya.

Terdapat lima konsep penting yang menjadi inti dari statistik, yang juga merupakan dasar dari data analysis. Empat konsep pertama bisa dipahami dengan mudah tanpa harus membahas persamaannya terlalu dalam:

  • Rata-rata: nilai rata-rata, didapatkan dari penjumlahan seluruh observasi dibagi dengan jumlah observasi
  • Median: titik tengah dari sebuah dataset, dihitung dengan mengurutkan semua observasi dari yang terkecil sampai yang terbersar dan mengambil nilai paling tengah.
  • Varians: persebaran umum data, dihitung dari rata-rata kuadrat selisih rata-rata.
  • Standar deviasi: juga mengukur sebaran, didapatkan dari akar kuadrat dari varians
komputasi dan statistik
Mengkomputasi data statistik dengan mudah | Foto oleh Jorge Franganillo

Bagaikan saksi dalam sebuah cerita detektif, keempat konsep ini akan menceritakan kepada Anda mengenai data yang Anda punya, karena keempat konsep tersebut adalah statistik deskriptif. Misalnya, saat Anda sedang berada di sebuah restoran dan Anda melihat orang-orang di sekeliling Anda, akan sangat suit untuk menjelaskan dalam bentuk narasi atau interpretasi mengenai seperti apa orang-orang tersebut hanya berdasarkan penampilannya saja.

Beda halnya jika Anda diberikan informasi mengenai usia, penghasilan perbulan, tingkat pendidikan, jenis kelamin, dan selera musik mereka. Kedua konsep di awal, yaitu rata-rata dan median, merupakan ukuran tendensi sentral yang bisa menggambarkan apakah orang-orang tersebut sebagian besar berusia dua puluhan, lulusan kuliah, atau apakah sebagian besar mereka kaya atau tidak.

Yang membedakan kapan konsep-konsep ini harus digunakan adalah tergantung pada distribusi variabel yang hendak Anda ukur, atau dalam contoh ini, jumlah variabilitas orang-orang tersebut.

Varians dan standar deviasi adalah ukuran variabilitas yang bisa menunjukkan perbedaan masing-masing observasi yang ada di dalam data Anda dari rata-rata  yang ada terkait dengan variabel tertentu

Jika Anda ingin melihat seberapa mirip kerumunan tersebut dari segi usia, Anda harus memulainya dengan menghitung rata-rata usia yang ada dan mengurangi usia setiap individu dengan angka tersebut, maka didaptkanlah seberapa jauh sebaran usia masing-masing individu dari rata-rata Adapun standar deviasi, akan mengungkap seberapa jauh atau dekat cluster data Anda dari rata-rata berdasarkan distribusi normal.

Standar deviasi memang mirip dengan varians terkait persebaran data - bahkan, standar deviasi didapatkan dari menghitung akar kuadrat dari varians. Perbedaannya adalah standar deviasi merupakan ukuran deskriptif yang paling mudah dilaporkan karena berada dalam unit yang sama dengan data aslinya, sedangkan varians tidak.

Anda bisa menguji ilmu yang sudah Anda pelajari di kursus statistik Anda dengan mencoba berbagai latihan statistik secara online!

Tersedia guru-guru Data science terbaik
M arizal, mse
4.9
4.9 (21 ulasan)
M arizal, mse
Rp250,000
/jam
Gift icon
Kursus pertama gratis!
Raditya
5
5 (40 ulasan)
Raditya
Rp150,000
/jam
Gift icon
Kursus pertama gratis!
Andjar tito, st, mm
5
5 (54 ulasan)
Andjar tito, st, mm
Rp250,000
/jam
Gift icon
Kursus pertama gratis!
Ramadhany
4.8
4.8 (10 ulasan)
Ramadhany
Rp80,000
/jam
Gift icon
Kursus pertama gratis!
Moch iqbal faiz
5
5 (13 ulasan)
Moch iqbal faiz
Rp150,000
/jam
Gift icon
Kursus pertama gratis!
Nasrul
5
5 (15 ulasan)
Nasrul
Rp100,000
/jam
Gift icon
Kursus pertama gratis!
Eka
5
5 (5 ulasan)
Eka
Rp150,000
/jam
Gift icon
Kursus pertama gratis!
Ardian
5
5 (5 ulasan)
Ardian
Rp400,000
/jam
Gift icon
Kursus pertama gratis!
M arizal, mse
4.9
4.9 (21 ulasan)
M arizal, mse
Rp250,000
/jam
Gift icon
Kursus pertama gratis!
Raditya
5
5 (40 ulasan)
Raditya
Rp150,000
/jam
Gift icon
Kursus pertama gratis!
Andjar tito, st, mm
5
5 (54 ulasan)
Andjar tito, st, mm
Rp250,000
/jam
Gift icon
Kursus pertama gratis!
Ramadhany
4.8
4.8 (10 ulasan)
Ramadhany
Rp80,000
/jam
Gift icon
Kursus pertama gratis!
Moch iqbal faiz
5
5 (13 ulasan)
Moch iqbal faiz
Rp150,000
/jam
Gift icon
Kursus pertama gratis!
Nasrul
5
5 (15 ulasan)
Nasrul
Rp100,000
/jam
Gift icon
Kursus pertama gratis!
Eka
5
5 (5 ulasan)
Eka
Rp150,000
/jam
Gift icon
Kursus pertama gratis!
Ardian
5
5 (5 ulasan)
Ardian
Rp400,000
/jam
Gift icon
Kursus pertama gratis!
Mulai

Apa itu Probabilitas?

Setelah memahami keempat konsep tadi, sekarang saatnya membahas konsep kelima yang merupakan bagian terpenting dari statistika: teori probabilitas. Konsep kelima ini adalah konsep yang seringkali menjadi momok, padahal faktanya teori probabilitas sangat dibutuhkan untuk memahami sebuah grafik yang sangat penting yang Anda akan temui saat Anda baru mulai mempelajari statistika.

contoh kurva data statistik
Memahami statistik matematika melalui distribusi normal

Grafik di atas menunjukkan distribusi probabilitas normal, atau sering disebut dengan distribusi normal, dimana data yang ada akan terbentuk secara simetris di sekitar angka rata-rata. Dengan kata lain, probabilitas digunakan untuk memahami teorema limit pusat atau CLT.

CLT adalah sebuah teori yang menyatakan bahwa ketika sebuah data dalam jumlah tak terbatas dari sampel acak berurutan yang diambil dari suatu populasi, distribusi sampel dari rata-rata tersebut akan mendekati distribusi normal.

Dengan kata lain, terlepas dari seperti apa distribusi populasinya, rata-rata dan standar deviasinya akan menjadi normal seiring dengan semakin banyaknya sampel yang diambil. Dengan memahami probabilitas, kita tidak hanya memahami bahasa yang digunakan dalam membahas distribusi sampel, tetapi juga alat untuk menghitungnya.

Cek di sini untuk kursus data science indonesia

Cara Memilih Uji Statistik

Setelah memahami dasar-dasar tersebut, dan juga memahami konsep-konsep dasar statistika, maka sudah waktunya untuk melihat langkah selanjutnya - yaitu menentukan uji apa yang harus dilakukan terhadap data yang Anda miliki. Dari sekian banyak uji statistik dan pendekatan yang ada, semuanya bisa dikelompokkan ke dalam beberapa kategori:

  • Asosiatif
  • Komparatif
  • Prediktif
  • Data yang tidak mengikuti distribusi normal, atau nonparametrik

Untuk menentukan uji mana yang harus dilakukan, yang pertama kali harus dilakukan adalah mengenali jenis data yang ada berdasarkan variabel yang Anda analisis. Variabelnya bisa jadi berupa skala atau kategori.

Variabel skala adalah variabel kuantitatif yang terbagi menjadi dua kategori;

  • Kontinyu: seperti tinggi badan
  • Diskrit: berupa bilangan bulat, seperti jumlah anak.

Variabel kategori adalah variabel kualitatif yang juga terbagi menjadi dua kategori:

  • Ordinal: memiliki urutan yang jelas, seperti skala nilai kebahagiaan dari 1 sampai 10
  • Nominal: tidak memiliki urutan yang berarti, seperti jenis kelamin.

Temukan kursus statistika online di sini.

Kapan Menggunakan Uji Asosiatif

Jenis tes seperti ini digunakan untuk mencari hubungan antara dua variabel. Uji ini paling efektif untuk mencari hubungan kausalitas antara dua variabel. Sebagai contoh, Anda ingin mencari asosiasi antara status pernikahan dengan tingkat pendidikan. Jenis alat uji di bawah ini berfungsi untuk menguji kekuatan asosiasi antara dua variabel:

Jenis UjiJenis VariabelContoh
Korelasi PearsonDua variabel kontinyuApakah ukuran sepatu berkaitan dengan tinggi badan
Korelasi SpearmanDua variabel ordinalSeberapa kuat hubungan antara kebahadiaan dengan status ekonomi
Chi-SquareDua variabel kategorikalMencari apakah ada hubungan antara jenis kelamin dan warna favorit
Tersedia guru-guru Data science terbaik
M arizal, mse
4.9
4.9 (21 ulasan)
M arizal, mse
Rp250,000
/jam
Gift icon
Kursus pertama gratis!
Raditya
5
5 (40 ulasan)
Raditya
Rp150,000
/jam
Gift icon
Kursus pertama gratis!
Andjar tito, st, mm
5
5 (54 ulasan)
Andjar tito, st, mm
Rp250,000
/jam
Gift icon
Kursus pertama gratis!
Ramadhany
4.8
4.8 (10 ulasan)
Ramadhany
Rp80,000
/jam
Gift icon
Kursus pertama gratis!
Moch iqbal faiz
5
5 (13 ulasan)
Moch iqbal faiz
Rp150,000
/jam
Gift icon
Kursus pertama gratis!
Nasrul
5
5 (15 ulasan)
Nasrul
Rp100,000
/jam
Gift icon
Kursus pertama gratis!
Eka
5
5 (5 ulasan)
Eka
Rp150,000
/jam
Gift icon
Kursus pertama gratis!
Ardian
5
5 (5 ulasan)
Ardian
Rp400,000
/jam
Gift icon
Kursus pertama gratis!
M arizal, mse
4.9
4.9 (21 ulasan)
M arizal, mse
Rp250,000
/jam
Gift icon
Kursus pertama gratis!
Raditya
5
5 (40 ulasan)
Raditya
Rp150,000
/jam
Gift icon
Kursus pertama gratis!
Andjar tito, st, mm
5
5 (54 ulasan)
Andjar tito, st, mm
Rp250,000
/jam
Gift icon
Kursus pertama gratis!
Ramadhany
4.8
4.8 (10 ulasan)
Ramadhany
Rp80,000
/jam
Gift icon
Kursus pertama gratis!
Moch iqbal faiz
5
5 (13 ulasan)
Moch iqbal faiz
Rp150,000
/jam
Gift icon
Kursus pertama gratis!
Nasrul
5
5 (15 ulasan)
Nasrul
Rp100,000
/jam
Gift icon
Kursus pertama gratis!
Eka
5
5 (5 ulasan)
Eka
Rp150,000
/jam
Gift icon
Kursus pertama gratis!
Ardian
5
5 (5 ulasan)
Ardian
Rp400,000
/jam
Gift icon
Kursus pertama gratis!
Mulai

Uji Komparatif Rata-Rata

Uji komparatif digunakan saat mencari perbedaan antara berbagai variabel yang berbeda dengan melihat perbedaan rata-ratanya. Sebagai contoh, Anda ingin melihat apakah tempat sekolah berpengaruh terhadap nilai tes siswa.

Jenis UjiJenis VariabelContoh
Paired T-TestDua variabel terkaitPerbedaan berat badan sebelum dan sesudah mengkonsumsi supelemen tertentu.
Independent T-TestDua variabel independenPerbedaan konsumsi gas orang-orang di Jakarta dengan Bandung
One-Way Analysis of Variance (ANOVA)Satu variabel independen dengan tingkat yang berbeda dan satu variabel kontinyuMembandingkan rata-rata nilai tes dari tiga tingkat pendidikan yang berbeda.
Two-Way ANOVADua atau lebih variabel independen dengan tingkat yang berbeda dan satu variabel kontinyu.Membandingkan rata-rata nilai tes dari tiga tingkat pendidikan dan dua belas zodiak yang berbeda

Uji Prediktif dengan Regresi Linear

Uji prediktif digunakan untuk mengetahui apakah sebuah perubahan pada satu atau lebih variabel akan meyebabkan perubahan pada variabel lainnya. Sebagai contoh, dengan data jenis kelamin, diet, dan penghasilan, Anda bisa mencari tahu apakah perubahan pada ketiga hal tersebut akan membawa perubahan pada tinggi badan.

Jenis UjiJenis VariabelContoh
Regresi Linear SederhanaSatu variabel skala (dependen) dengan satu atau dua variabel skala (prediktor)Anda ingin mengetahui apakah bisa memprediksi berat badan dengan melihat umur dan tinggi badan
Regresi Linear BergandaSatu variabel skala (dependen) dengan dua atau lebih variabel skala (prediktor)Anda ingin mengetahui apakah bisa memprediksi berat badan dengan melihat umur, tinggi badan, dan penghasilan.

Uji Data Nonparametrik

Uji ini dilakukan saat data yang ada tidak memenuhi asumsi pada jenis-jenis uji lainnya. Sebagai contoh, ketika datanya tidak mendekati distribusi normal dan bentuknya sangat miring.

Jenis UjiJenis VariabelContoh
Uji Wilcoxon Rank-SumDua variabel independenDi antara dua jenis obat, manakah yang lebih efektif pada dua kelompok populasi yang acak
Uji Wilcoxon Sign-RankDua variabel terkaitDi antara dua jenis obat, manakah yang lebih efektif pada kelompok pasien yang sama
Uji FriedmanTiga variabel metrik atau ordinal (harus salah satu, apakah methrik atau ordinal)Tiga nilai iklan berbeda yang diberikan oleh individu dalam populasi yang sama
manfaat metode statistik
Menjawab pertanyaan penelitian dan desain eksperimental Anda

Cara Melakukan Uji Statistik

Ada beberapa tentang terkait data yang Anda gunakan yang terkait dengan setiap uji statistik yang dibahas sebelumnya. Agar pengujian dapat berjalan, prediktif, dan akurat, asumsi-asumsi tersebut harus dipegang dengan baik. Karena asumsi dari setiap jenis uji bisa berbeda, maka sangat penting untuk mengeceknya terlebih dahulu sebelum Anda melakukan pemodelan data.

Program-program yang paling sering digunakan untuk analisis statistik adalah:

  • Excel
  • Stata
  • SAS
  • SPSS
  • Python
  • R

Jika Anda hendak melakukan pengujian terhadap data parametrik, ada empat asumsi utama yang harus Anda perhatikan. Namun, perlu diingat bahwa setiap jenis uji memiliki asumsi-asumsi yang berbeda yang harus Anda perhatikan, dan asumsi-asumsi yang disajikan di bawah ini hanyalah asumsi yang kemungkinan akan sering Anda temukan.

AsumsiDeskripsi
IndependenKelompok yang ada di dalam sampel harus independen
NormalitasData yang ada bersifat normal, artinya harus mengikuti distribusi normal
Homogenitas variansKelompok yang ada di dalam data Anda yang terkait dengan variabel independen Anda harus memiliki varians yang sama.

Jika Anda butuh bantuan terkait hal ini, ada banyak sekali sumber belajar online yang bisa Anda manfaatkan. Situs belajar seperti Superprof, atau webinar online dari R-bloggers akan sangat membantu dalam hal ini.

Anda bisa mulai mengikuti kursus data science hari ini.

Apa Anda menyukai artikel ini? Berikan penilaian Anda

5.00 (1 nilai)
Loading...

Kurniawan

Seseorang yang senang berbagi ilmu dan pengetahuan yang diharapkan akan bermanfaat bagi banyak orang