Thursday, February 09, 2017

Memahami Overfitting dengan mudah menggunakan contoh

Problem - Sulit memahami overfitting

Beberapa orang menyampaikan kesulitan dalam memahami overfitting. Artikel berikut dibuat dengan tujuan untuk memberikan kemudahan dalam memahami overfitting. Anda dapat memahami overfitting dengan mudah menggunakan contoh kasus yang diberikan pada dunia nyata.
Memahami Overfitting dengan mudah menggunakan contoh
Memahami Overfitting dengan mudah menggunakan contoh

Generalisasi - pengenalan pola

Overfitting adalah suatu kondisi yang mungkin terjadi pada proses generalisasi. Generalisasi adalah suatu proses induksi yang berusaha mengenali suatu pola dari suatu kejadian pada masa lampau untuk memprediksi kejadian pada masa yang akan datang.

Contoh Generalisasi: 

Perlu prediksi apakah seorang mahasiswa baru akan mampu berprestasi atau tidak.

Oleh karena itu dikumpulkan data dari mahasiswa-mahasiswa yang telah lalu untuk mengenali ciri-ciri mahasiwa yang akan berprestasi. Beberapa ciri atau atribut yang dimiliki oleh mahasiswa adalah:

  • Usia
  • Asal
  • Jenis kelamin
  • Agama
  • Golongan Darah
  • Pekerjaan Ayah
  • Pendidikan Ayah
  • Jurusan SMA
  • Prestasi (label yang ingin diprediksi)

Oleh karena itu dilakukan proses generalisasi (istilah pada machine learning) pada data mahasiswa lama untuk menentukan apakah seorang mahasiswa baru akan berprestasi atau tidak. Hasil proses generalisasi berupa model. Prediksi prestasi mahasiswa baru dilakukan dengan memasukan ciri/atribut mahasiwa baru tersebut ke dalam model yang telah dibangun.

OVERFITTING


Overfitting adalah suatu kondisi dimana model, dibangun dengan memperhitungkan seluruh ciri yang ada, termasuk noise
Padahal, bisa jadi satu atau lebih ciri tidak berkontribusi atau lebih dikenal sebagai noise (dalam kasus diatas, tidak semua ciri/atribut mahasiswa menentukan prestasi mahasiswa). Konsekuensinya, meskipun model yang dibangun sangat cocok pada data training (mahasiswa lama), namun salah dalam memprediksi prestasi mahasiswa baru.

Contoh Overfitting:

Sebetulnya yang mempengaruhi prestasi mahasiwa adalah usia, asal, pendidikan ayah, pekerjaan ayah, dan jurusan SMA. Maka noise di sini adalah jenis kelamin, agama, dan golongan darah.

Sehingga jika kebetulan golongan darah pada semua mahasiswa lama semuanya A (dan ini dikenali sebagai pola), maka ketika ada mahasiswa baru yang memenuhi kriteria usia, asal, pendidikan ayah, pekerjaan ayah, dan jurusan SMA akan diprediksi tidak berprestasi hanya karena golongan darah B.
Sementara pada kenyataannya ia berpretasi (prediksi salah).

Semoga bermanfaat

ditulis oleh: Syarif Hidayat

Catatan:
Diperbolehkan menyalin dan mempublikasikan artikel di atas selama memberi kredit dan/atau referensi kepada situs syarifhidayat.net dengan cara mencantumkan logo dan/atau menulis sumbernya yaitu situs syarifhidayat.net serta memberi link ke halaman situs syarifhidayat.net pada setiap materi yang digunakan. (Sesuai ketentuan Undang-Undang Republik Indonesia Nomor 19 Tahun 2002 tentang Hak Cipta)




Related Posts

Memahami Overfitting dengan mudah menggunakan contoh
4/ 5
Oleh