μμ½
1. μ κ²½λ§μ΄λ?
μ κ²½λ§μ΄λ μ¬λ¬μΈ΅λ€μ΄ μ΄μ΄μ Έ μ νΈλ₯Ό μ λ¬νλ κ΅¬μ‘°λ‘ κ°μ€μΉ λ§€κ°λ³μμ μ μ ν κ°μ λ°μ΄ν°λ‘λΆν° μλμΌλ‘ νμ΅
λ€μμ μ κ²½λ§ μμμ μ¬κΈ°μ μ μνλ λ΄μ©μ΄λ€.
- Python λ°°μ΄μ μΈλ±μ€λ₯Ό κ³ λ €νμ¬ μ λ ₯μΈ΅μ΄ 0μΈ΅μ΄λ€.
- κ°μ€μΉλ₯Ό κ°λ μΈ΅μ κΈ°μ€μΌλ‘
nμΈ΅ μ κ²½λ§μΌλ‘ νκΈ°νλ€. - μ¦, μλ μ
λ ₯μΈ΅-μλμΈ΅-μΆλ ₯μΈ΅μ μ€μ 3κ°μ μΈ΅μ΄μ§λ§, κ°μ€μΉλ₯Ό κ°λ μΈ΅μ μ
λ ₯μΈ΅κ³Ό μλμΈ΅ 2κ°μ΄λ―λ‘
2μΈ΅ μ κ²½λ§μ΄λ€.
2. νμ±ν ν¨μ
2.1 κ°μ
νμ±ν ν¨μ λ μ λ ₯ μ νΈμ μ΄ν©μ μΆλ ₯ μ νΈλ‘ λ³ννλ ν¨μμ΄λ€.
μ κ²½λ§μ μμ λ€λ£¬ νΌμ νΈλ‘ κ³Ό νΉλ³ν λ€λ₯Έ κ²μ΄ μλ€. μ κ²½λ§μ μ νΈ μ λ¬ λ°©λ²μ μ΄ν΄νκΈ° μν΄μ μ΄μ μ μ κΉ λ€λ£¬ νμ±ν ν¨μλ₯Ό λ€μ κΈ°μ΅ν΄μΌ νλ€ (μ°Έκ³ : νμ±ν ν¨μ)
νμ±ν ν¨μλ μ λ ₯ μ νΈ()μ νΈν₯()μ μ΄ν©μ λΌκ³ νκ³ , μ΄ κ°μ νμ±ν ν¨μ μ μ λ ₯κ°μΌλ‘ λ£μ΄ μ΅μ’ μ μΌλ‘ λ₯Ό μΆλ ₯νλ νλ¦μ΄λ€.
μ¬κΈ°μ μ΄μ μ νΌμ νΈλ‘ μ λ€λ£¨μμ λλ μ λ ₯ μ νΈλ€()λ§ λ³΄μλλ° νΈν₯()μ΄ μΆκ°λμλ€.
νΈν₯μ΄ μΆκ° κ³ λ €λ μ΄μ
- μ λ ₯ μ νΈμ κ°μ€μΉλ€μ ν©μμ κΈ°μ‘΄ νΈν₯μ λνμ λ, νΈν₯μ λ νλμ κ°μ€μΉλ‘ μΈμνκ³ νΈν₯μ λν μ λ ₯ μ νΈλ₯Ό 1λ‘ ν΄μνλ©΄ λλ€.
- μ΄λ₯Ό ν΅ν΄ νλμ μμμΌλ‘ μ 리ν μ μλ€.
λ°λΌμ, μ€μ νλμ μ λ ₯ λ Έλλ€μ κ°μ λ°λ μΆλ ₯ λ Έλμ λ΄λΆλ κ·Έλ¦Όκ³Ό κ°μ΄ νμ±ν μ²λ¦¬ κ³Όμ μ΄ ν¬ν¨λμ΄ μλ€.
2.2 μ’ λ₯
κ³λ¨ ν¨μ
κ³λ¨ ν¨μ(step function)λ μκ³κ°μ κ²½κ³λ‘€ μΆλ ₯μ΄ λ°λλ ν¨μ
μ΄μ μ λ€λ£¬ νΌμ νΈλ‘ μ νμ±ν ν¨μλ‘ κ³λ¨ ν¨μλ₯Ό μ΄μ©νλ€. κ³λ¨ ν¨μλ μλμ κ°μ μμμΌλ‘ μ 리ν μ μλ€.
μκ·Έλͺ¨μ΄λ ν¨μ
μκ·Έλͺ¨μ΄λ ν¨μ(sigmoid function)μ μ λ ₯μ λ°λΌ μΆλ ₯μ΄ μ°μμ μΌλ‘ λ³ννλ ν¨μ
μ κ²½λ§μμλ κ³λ¨ ν¨μ λμ μμ£Ό μ΄μ©νλ νμ±ν ν¨μλ μκ·Έλͺ¨μ΄λ ν¨μμ΄λ€. νΌμ νΈλ‘ κ³Όμ μ°¨μ΄μ μ νμ±ν ν¨μ μ’ λ₯λΏμ΄λ€. μ¦, λ΄λ°μ΄ μ¬λ¬ μΈ΅μΌλ‘ μ΄μ΄μ Έ μ νΈλ₯Ό μ λ¬νλ ꡬ쑰λ νΌμ νΈλ‘ κ³Ό λμΌνλ€.
κ³λ¨ν¨μμ μκ·Έλͺ¨μ΄λ ν¨μ λΉκ΅
- λ νμ±ν ν¨μμ μ°¨μ΄μ μ βλ§€λλ¬μβμΌλ‘ μκ·Έλͺ¨μ΄λ ν¨μλ μ λ ₯μ λ°λΌ μΆλ ₯μ΄ μ°μμ μΌλ‘ λ³ννλ λ°λ©΄μ κ³λ¨ν¨μλ 0μ κ²½κ³λ‘ μΆλ ₯κ°μ΄ λ°λλ€.
- μ¦, νΌμ νΈλ‘ μμλ λ΄λ° μ¬μ΄μ κ°μ΄ 0 λλ 1μ μΆλ ₯νλ λ°λ©΄μ, μ κ²½λ§μμλ 0~1 μ¬μ΄μ μ°μλ κ°μ μΆλ ₯νλ€.
- κ·Έλ¬λ ν° κ΄μ μμ λ ν¨μλ λμΌν λͺ¨νμΌλ‘ μ λ ₯κ°μ΄ μμΌλ©΄ μΆλ ₯μ΄ 0μ κ°κΉκ³ μ λ ₯κ°μ΄ ν¬λ©΄ μΆλ ₯μ΄ 1μ κ°κΉλ€.
ReLU ν¨μ
μ΅κ·Ό ReLU(Rectified Linear Unit) ν¨μκ° μ£Όλ‘ μ΄μ©
2.3 λΉμ ν ν¨μ
μ κ²½λ§μμλ νμ±ν ν¨μλ‘ λΉμ ν ν¨μλ₯Ό μ¬μ©ν΄μΌ νλ©°, κ·Έ μ΄μ λ μ κ²½λ§μμ νμ±ν ν¨μλ‘ μ ν ν¨μλ‘ μ¬μ©νλ©΄ μΈ΅μ κΉκ² νλ μλ―Έκ° μμ΄μ§λ€.
μλ₯Ό λ€μ΄ νμ±ν ν¨μκ° λΌκ³ νμ. μ΄ ν¨μλ₯Ό μ΄μ©νμ¬ 3μΈ΅μ λ€νΈμν¬ κ΅¬μ‘°λ₯Ό μ€κ³νμ¬ μμΌλ‘ λνλ΄λ©΄, λ€μκ³Ό κ°μμ§λ€. μ΄λ λ‘ μΉννλ©΄ μ κ°μ μμ΄λ€.
μ¦, μ νν¨μλ‘ μ¬μ©νλ κ²½μ° μΈ΅μ μ무리 κΉκ² ν΄λ μλμΈ΅μ΄ μλ λ€νΈμν¬μ λμΌν΄μ§λ€. μ΄λ‘ μΈν΄ μ κ²½λ§μ μ£Όμ νΉμ§μΈ μ¬λ¬ μΈ΅μ μ΄μ©νλ μ΄μ μ΄ μ¬λΌμ§κΈ° λλ¬Έμ λ°λμ νμ±ν ν¨μλ‘ λΉμ ν ν¨μλ₯Ό μ΄μ©ν΄μΌ νλ€(κ³λ¨ν¨μμ μκ·Έλͺ¨μ΄λ ν¨μλ λͺ¨λ λΉμ ν ν¨μ).
3. μμ - 3μΈ΅ μ κ²½λ§
μμ μ μν λλ‘ 3μΈ΅ μ κ²½λ§μ κ°μ€μΉλ₯Ό κ°λ μΈ΅μ΄ 3κ°λ‘ μ λ ₯μΈ΅(0μΈ΅) 1κ°μ μλμΈ΅(1,2μΈ΅) 2κ°, λμΌλ‘ μΆλ ₯μΈ΅ (3μΈ΅) 1κ°μ΄λ€.
3.1 νκΈ°λ²
μμμμ λμΌν λ³μκ° μ¬λ¬λ² λμ€λ©΄μ μμ΄λ κ·Έλ¦Όμ λ³΄κ³ μ΄ν΄νκΈ° μ΄λ €μΈ μ μλ€. λ°λΌμ, μμ μ€λͺ μ μν΄ λ€μκ³Ό κ°μ νκΈ° λ°©λ²μ μ μνλ€.
- : λ€μ μΈ΅μ λ²μ§Έ λ΄λ°
- : μ΄μ μΈ΅μ λ²μ¨° λ΄λ ¨
- : μΈ΅μ κ°μ€μΉ
μλ₯Ό λ€μ΄ λ μ λ ₯μΈ΅ 2λ²μ§Έ λ΄λ°μΈ κ° λ€μ μΆλ ₯μΈ΅(1μΈ΅)μ 1λ²μ§Έ λ΄λ°μΈ λ₯Ό κ³μ°νλλ° μ¬μ©λλ κ°μ€μΉλ₯Ό μλ―Ένλ€.
μ°Έκ³ : μ¬κΈ°μλ κ°μ€μΉμ μΈλ±μ€ μμκ° βλ€μ μΈ΅ λ²νΈ, μ μΈ΅ λ²νΈβ μμΌλ‘ μμ±νλ€
3.2 μμ
μ λ ₯μΈ΅ β 1μΈ΅
μμμ νΈν₯ λ Έλλ₯Ό μ€λͺ νλ―ν κΈ°μ‘΄ λ΄λ°μμ νΈν₯μ μλ―Ένλ λ΄λ°μ μΆκ°νλ€. μλλ 1μΈ΅μ 1λ²μ§Έ λ΄λ°μ κ°μ€μΉ ν©μΈ μ λν μμμ΄λ€.
μλλ νλ ¬μ κ³±μ μ΄μ©νμ¬ 1μΈ΅μ κ°μ€μΉ λΆλΆμ κ°μν μν¬ μ μλ€.
νμ±ν ν¨μμμ λ€λ€λ―μ΄ 1μΈ΅μ λ΄λ°μ μ΅μ’ κ²°κ³Όλ κ°μ€μΉ ν©()μ΄ μλλ€. κ°μ€μΉ ν©μ νμ±ν ν¨μ() μ λ£μ΄μ μ΅μ’ μΆλ ₯κ°μΈ μ΄ λ€μ 2μΈ΅μ μ λ ₯κ°μ΄ λλ€.
1μΈ΅ β 2μΈ΅
λ‘μ§μ μ΄μ κ³Ό λμΌνλ©°, μ£Όμν μ μ μ λ ₯κ°μ΄ Xκ° μλ 1μΈ΅ νμ±ν ν¨μμ μΆλ ₯κ°μΈ λ€.
λ§μ°¬κ°μ§λ‘ 2μΈ΅μμμ κ°μ€μΉ ν©μΈ λ₯Ό νμ±ν ν¨μ()μ λ£μ΄ μ΅μ’ μΆλ ₯κ°μΈ κ° λ€μ μΆλ ₯μΈ΅μ μ λ ₯κ°μ΄ λλ€.
2μΈ΅ β μΆλ ₯μΈ΅
λ‘μ§μ μ΄μ κ³Ό λμΌνμ§λ§, μΆκ°λ‘ λ€λ₯Έ μ μ΄ νμ±ν ν¨μκ° μλμΈ΅ νμ±ν ν¨μ κ° μλ λ‘ λ€λ₯΄λ€.
λμΌνκ² 3μΈ΅μμμ κ°μ€μΉ ν©μΈ λ₯Ό μΆλ ₯μΈ΅ νμ±ν ν¨μ μ λ£μ΄ μΆλ ₯μΈ΅μΈ λ₯Ό μ°μΆνλ€.
μΆλ ₯μΈ΅μ νμ±ν ν¨μ
- μΆλ ₯μΈ΅μ νμ±ν ν¨μλ λ¬Έμ μ μμ λ°λΌ λ€λ₯΄λ©°, μΌλ°μ μΌλ‘ μλμ κ°μ΄ νμ©λλ€.
- νκ·μμλ νλ± ν¨μ, 2 ν΄λμ€ λΆλ₯λ μκ·Έλͺ¨μ΄λ ν¨μ, λ€μ€ ν΄λμ€ λΆλ₯λ μννΈλ§₯μ€ ν¨μ
4. μΆλ ₯μΈ΅ μ€κ³
μ κ²½λ§μ λΆλ₯μ νκ· λͺ¨λμ μ΄μ©ν μ μκ³ , μ΄λ€ λ¬Έμ λμ λ°λΌμ λ§μ§λ§ μΆλ ₯μΈ΅μ νμ±ν ν¨μκ° λ¬λΌμ§λ€.
4.1 νλ± ν¨μμ μννΈλ§₯μ€ ν¨μ
νλ± ν¨μ(identity function)
μΌλ°μ μΌλ‘ νκ· λͺ¨λΈμμ μ¬μ©λλ©°, μ λ ₯ μ νΈκ° κ·Έλλ‘ μΆλ ₯ μ νΈκ° λλ ν¨μ
μννΈλ§₯μ€ ν¨μ(softmax function)
μΌλ°μ μΌλ‘ λΆλ₯ λͺ¨λΈμμ μ¬μ©λλ©°, μ§μν¨μ κΈ°λ°μΌλ‘ νλμ μΆλ ₯ μ νΈλ λͺ¨λ μ λ ₯ μ νΈλ₯Ό λ°λλ€.
- : μΆλ ₯μΈ΅μ λ΄λ° μ
- : λ²μ§Έ λ΄λ°μ μννΈλ§₯μ€ ν¨μ μΆλ ₯κ°
4.2 μννΈλ§₯μ€ ν¨μ νΉμ§
μ£Όμμ
μ§μ ν¨μλ μ
λ ₯ κ°μ΄ ν¬λ©΄ κ²°κ³Όκ°μ΄ λ§€μ° μ»€μ§λ€. μ΄μ²λΌ κ²°κ³Όκ°μ΄ 무μν 컀μ§κ² λλ©΄ μ»΄ν¨ν°κ° μλ₯Ό λνλ΄λ Byteλ μ ννκΈ° λλ¬Έμ 무νλλ₯Ό μλ―Ένλ infλ₯Ό λ±λ overflow λ¬Έμ κ° λ°μνλ€.
μ΄λ₯Ό λ°©μ§νκ³ μ μνμ μ΅λκ°μ μ΄μ©νλ€. μλ μμ²λΌ μ§μν¨μμ μ±μ§λ‘ μ΄λ€ μλ₯Ό λν΄λ κ²°κ³Όλ λ°λμ§ μλλ€. λ°λΌμ, μΌλ°μ μΌλ‘ μ΅λκ°μ λΉΌμ μ€λ²νλ‘μ° λ¬Έμ λ₯Ό λ°©μ§νλ€.
νλ₯ κ³μ°
μννΈλ§₯μ ν¨μμ μΆλ ₯μ 0μμ 1.0 μ¬μ΄μ μ€μμ΄κ³ , μ΄ν©μ 1
μΆλ ₯μ ν©μ΄ 1μ΄λΌλ μ±μ§μ μ΄μ©ν΄μ νλ₯ λ‘ ν΄μν μ μλ€. μ¦, μννΈλ§₯μ€ ν¨μλ₯Ό μ΄μ©νμ¬ λ¬Έμ λ₯Ό νλ₯ μ (ν΅κ³μ )μΌλ‘ λμν μ μλ€.
μ°Έκ³ λ‘, μννΈλ§₯μ€λ μ§μ ν¨μλ‘ λ¨μ‘° μ¦κ° ν¨μμ μ±μ§μ λ°λΌ λ΄λ°μ λμ κ΄κ³λ λ³νμ§ μλλ€. λ°λΌμ μ κ²½λ§μ μ΄μ©ν λΆλ₯ λͺ¨λΈμμλ λ¨μν κ°μ₯ ν° μΆλ ₯μ λ΄λ λ΄λ°μ ν΄λΉνλ ν΄λμ€λΌλ μλ―Έμ΄κΈ° λλ¬Έμ μννΈλ§₯μ€ ν¨μ μ μ©μ μλ΅νλ κ²μ΄ μΌλ°μ μ΄λ€.
νμ΅κ³Ό μΆλ‘
- λ¨Έμ λ¬λμ΄λ λ₯λ¬λμ νμ΅κ³Ό μΆλ‘ μΌλ‘ ꡬλΆ
- νμ΅μ μ λ΅ λ μ΄λΈμ μκ³ μλ μνμμ λͺ¨λΈμ νμ΅νλ κ²μ΄κ³ , μΆλ‘ μ μ λ΅μ λͺ¨λ₯΄λ μν©μμ νμ΅μν¨ λͺ¨λΈμ λ°μ΄ν°μ μ μ©
- λΆλ₯ λͺ¨λΈμ κ²½μ° νμ΅ λ¨κ³μμ μΆλ ₯μΈ΅μ μννΈλ§₯μ€ ν¨μλ₯Ό μ μ©νλ λ°λ©΄μ μΆλ‘ λ¨κ³μμλ μ λ΄μ©λλ‘ μννΈλ§₯μ€ ν¨μλ₯Ό μλ΅
μ°Έκ³ μ¬μ΄νΈ
- λ°λ°λ₯λΆν° μμνλ λ₯λ¬λ1