Pendahuluan
Jaringan Saraf Buatan (ANN) telah merevolusi bidang dari visi komputer ke pemrosesan bahasa alami, dan inti keberhasilan mereka terletak pada fungsi aktivasi. Di antaranya, fungsi sigmoid memainkan peran penting dalam sejarah dan perkembangan jaringan saraf. Sementara fungsi yang lebih baru seperti ReLU telah membayangi sigmoid dalam pembelajaran mendalam modern, memahami fungsinya tetap penting. Dalam posting blog ini, kita akan mengeksplorasi sifat matematis fungsi sigmoid, signifikansi historis, dan aplikasi khususnya saat ini. Apakah Anda seorang pemula atau penggemar pembelajaran mendalam, panduan ini akan membekali Anda dengan pengetahuan untuk menghargai warisan dan keterbatasan sigmoid.

Fungsi sigmoid adalah fungsi matematika yang memetakan bilangan bernilai riil menjadi nilai antara 0 dan 1. Rumusnya adalah:$$ S(x) = \frac{1}{1 + e^{-x}} $$This kurva berbentuk S (karenanya “sigmoid”) menyerupai fungsi logistik, itulah sebabnya disebut juga fungsi logistik dalam teori probabilitas.
Karakteristik Utama Sigmoid:
Bayangkan skenario di mana model Anda perlu memprediksi kemungkinan email menjadi spam. Output sigmoid 0,89 berarti probabilitas spam 89%, interpretasi yang dapat dibaca manusia dan intuitif.
Fungsi sigmoid menelusuri akarnya ke awal abad ke-20. Ini dipopulerkan dalam pemodelan biologis oleh Warren McCulloch dan Walter Pitts pada tahun 1943, yang mengusulkan model konseptual pertama neuron, neuron McCulloch-Pitts. Sementara model mereka menggunakan fungsi langkah untuk kesederhanaan, kehalusan sigmoid kemudian diadopsi pada tahun 1960-an dan 1980-an untuk mendekati “neuron” ini dalam sistem buatan.
Pada tahun 1980-an, algoritma propagasi balik menghidupkan kembali minat pada sigmoid. Seperti yang pernah dikatakan Geoffrey Hinton, seorang pelopor pembelajaran mendalam:
“Fungsi sigmoid adalah pilihan default pada tahun 1980-an karena mereka menyediakan cara praktis pertama untuk melatih jaringan saraf dengan propagasi balik.”
Namun, pada awal tahun 2000-an, sigmoid mulai memudar mendukung ReLU (Rectified Linear Unit) karena masalah seperti lenyapnya gradien (dibahas nanti).
Untuk memahami peran sigmoid, mari kita selidiki matematikanya. Turunan fungsi, yang sangat penting selama propagasi balik, adalah:$$ S'(x) = S(x)(1 – S(x)) $$This bentuk kompak membuatnya efisien secara komputasi untuk menghitung gradien selama pelatihan.
Berikut adalah perbandingan perilaku sigmoid pada nilai input yang berbeda:
| Masukan (x) | Keluaran Sigmoid (S(x)) | Turunan (S'(x)) |
| -5 | 0.0067 | 0.0066 |
| 0 | 0.5 | 0.25 |
| 5 | 0.9933 | 0.0066 |
Catatan: Ketika $ x $ jauh dari 0, turunannya menjadi sangat kecil, mengisyaratkan masalah di masa depan.
Fungsi aktivasi memperkenalkan non-linearitas, memungkinkan ANN mempelajari pola yang kompleks. Tanpa fungsi non-linier, lapisan penumpukan hanya akan menghasilkan model linier lain, membatasi kapasitas jaringan untuk memecahkan masalah hierarkis.
Mengapa Sigmoid?
Namun, saturasi sigmoid (keluaran mendekati 0 atau 1) menjadi kewajiban dalam jaringan dalam, seperti yang akan kita jelajahi selanjutnya.
Meskipun dibayangi oleh ReLU, sigmoid masih menemukan aplikasi khusus:
Seperti yang pernah dicatat oleh Yann LeCun:
“Fungsi sigmoidal masih berguna dalam konteks tertentu, tetapi seharusnya tidak menjadi pilihan utama untuk aktivasi tujuan umum.”
Mari kita bandingkan sigmoid dengan fungsi aktivasi lainnya menggunakan tabel:
| Fitur | Sigmoid | tanh | ReLU |
| Rentang keluaran | (0, 1) | (-1, 1) | [0, ∞) |
| Dapat dibedakan | ✅ | ✅ | ❌ Pada 0; ✅ di tempat lain |
| Nol-Terpusat | ❌ (Selalu positif) | ✅ | ❌ (Bias) |
| Gradien Menghilang | ✅ (Parah) | ✅ (Kurang parah) | ❌ (Ringan, jika “sekarat”) |
| Biaya Komputasi | Tinggi (exp) | Sedang (exp) | Rendah (maks sederhana) |
| Kasus Penggunaan Umum | Keluaran klasifikasi biner | Lapisan tersembunyi dalam model awal | Default dalam pembelajaran mendalam modern |
Catatan: Meskipun sigmoid kurang digunakan dalam lapisan tersembunyi saat ini, sigmoid tetap sangat diperlukan di lapisan akhir untuk tugas biner.
Kelemahan sigmoid yang paling terkenal adalah gradien yang menghilang. Selama propagasi balik, gradien menyusut secara eksponensial untuk aktivasi jenuh, seperti yang ditunjukkan di bawah ini:
$$ \text{Gradien pada Lapisan } L = \prod_{i=1}^{L} S'(z_i) $$
Jika $ S'(z_i) \approx 0.0066 $ pada setiap langkah, gradien setelah 10 lapisan menjadi $ 0.0066^{10} \approx 1.7 \times 10^{-32} $, secara efektif menghentikan pembelajaran. Masalah ini memaksa para peneliti untuk meninggalkan sigmoid dalam jaringan dalam pada tahun 2010-an.
Untuk mengkontekstualisasikan warisan sigmoid, berikut adalah wawasan dari tokoh-tokoh berpengaruh:
Fungsi sigmoid adalah landasan dalam sejarah jaringan saraf. Sementara keterbatasannya—seperti lenyapnya gradien dan output yang tidak berpusat pada nol—telah mengurangi penggunaannya dalam arsitektur modern, perannya dalam memungkinkan algoritme pembelajaran awal tidak dapat dilebih-lebihkan. Saat ini, ia bertahan dalam peran tertentu seperti klasifikasi biner dan pemodelan probabilitas, berfungsi sebagai pengingat tentang bagaimana ide-ide dasar berkembang dalam pembelajaran mendalam.