Hướng dẫn deep learning cheat sheet pdf - pdf cheat sheet học sâu

Bởi Afshine Amidi và Shervine Amidi

Mạng lưới thần kinh

Mạng lưới thần kinh là một lớp các mô hình được xây dựng với các lớp. Các loại mạng lưới thần kinh thường được sử dụng bao gồm các mạng thần kinh tích chập và tái phát.

Kiến trúc từ vựng xung quanh kiến ​​trúc mạng lưới thần kinh được mô tả trong hình dưới đây: The vocabulary around neural networks architectures is described in the figure below:

Hướng dẫn deep learning cheat sheet pdf - pdf cheat sheet học sâu

Bằng cách lưu ý $ i $ Lớp $ i^{th} $ của mạng và $ j $ the $ j^{th} $ đơn vị ẩn của lớp, chúng ta có:

\ [\ Boxed {z_j^{[i]} = {w_j^{[i]}}^tx+b_j^{[i]}} \]

Trong đó chúng tôi lưu ý $ W $, $ B $, $ Z $ trọng lượng, độ lệch và đầu ra tương ứng.

Các chức năng kích hoạt chức năng được sử dụng ở cuối một đơn vị ẩn để giới thiệu các phức tạp phi tuyến tính cho mô hình. Đây là những cái phổ biến nhất: Activation functions are used at the end of a hidden unit to introduce non-linear complexities to the model. Here are the most common ones:

Mất chéo trong bối cảnh mạng lưới thần kinh, mất chéo $ l (z, y) $ thường được sử dụng và được định nghĩa như sau: In the context of neural networks, the cross-entropy loss $L(z,y)$ is commonly used and is defined as follows:

\ [\ Boxed {l (z, y) =-\ lớn [y \ log (z)+(1-y) \ log (1-z) \ lớn]} \]

Tỷ lệ học tập Tỷ lệ học tập, thường được ghi nhận $ \ alpha $ hoặc đôi khi $ \ eta $, cho biết tốc độ mà trọng lượng được cập nhật. Điều này có thể được sửa chữa hoặc thay đổi thích ứng. Phương pháp phổ biến nhất hiện tại được gọi là Adam, là phương pháp điều chỉnh tỷ lệ học tập. The learning rate, often noted $\alpha$ or sometimes $\eta$, indicates at which pace the weights get updated. This can be fixed or adaptively changed. The current most popular method is called Adam, which is a method that adapts the learning rate.

BackPropagation BackPropagation là một phương pháp để cập nhật các trọng số trong mạng thần kinh bằng cách tính đến đầu ra thực tế và đầu ra mong muốn. Đạo hàm liên quan đến trọng lượng $ w $ được tính toán bằng cách sử dụng quy tắc chuỗi và có dạng sau: Backpropagation is a method to update the weights in the neural network by taking into account the actual output and the desired output. The derivative with respect to weight $w$ is computed using chain rule and is of the following form:

\ [\ Boxed {\ frac {\ Partial l (z, y)} {\ partial w} = \ frac {\ partial l (z, y)} \ Partial Z} \ Times \ frac {\ Partial Z} {\ Partial W}} \]

Do đó, trọng lượng được cập nhật như sau:

\ [\ Boxed {W \ Longleftarrow W- \ Alpha \ frac {\ Partial L (Z, Y)}

Cập nhật trọng số trong mạng lưới thần kinh, trọng số được cập nhật như sau: In a neural network, weights are updated as follows:

  • Bước 1: Lấy một loạt dữ liệu đào tạo.
  • Bước 2: Thực hiện lan truyền chuyển tiếp để có được tổn thất tương ứng.
  • Bước 3: Backpropagate mất mát để có được độ dốc.
  • Bước 4: Sử dụng độ dốc để cập nhật trọng số của mạng.

Hủy bỏ là một kỹ thuật nhằm ngăn chặn quá mức dữ liệu đào tạo bằng cách bỏ các đơn vị trong mạng lưới thần kinh. Trong thực tế, các tế bào thần kinh hoặc được giảm với xác suất $ p $ hoặc được giữ với xác suất $ 1-p. $. Dropout is a technique meant to prevent overfitting the training data by dropping out units in a neural network. In practice, neurons are either dropped with probability $p$ or kept with probability $1-p.$


Mạng lưới thần kinh tích chập

Yêu cầu của lớp tích chập bằng cách lưu ý $ w $ kích thước khối lượng đầu vào, $ f $ kích thước của các tế bào thần kinh lớp chập, $ p $ lượng đệm 0, sau đó số lượng tế bào thần kinh $ n $ phù hợp với một khối : By noting $W$ the input volume size, $F$ the size of the convolutional layer neurons, $P$ the amount of zero padding, then the number of neurons $N$ that fit in a given volume is such that:

\ [\ Boxed {n = \ frac {w-f+2p} {s} +1} \]

Chuẩn hóa hàng loạt, đó là một bước của siêu nhân $ \ gamma, \ beta $ để bình thường hóa lô $ \ {x_i \} $. Bằng cách lưu ý $ \ mu_b, \ sigma_b^2 $ trung bình và phương sai của chúng tôi muốn sửa theo lô, nó được thực hiện như sau: It is a step of hyperparameter $\gamma, \beta$ that normalizes the batch $\{x_i\}$. By noting $\mu_B, \sigma_B^2$ the mean and variance of that we want to correct to the batch, it is done as follows:

\]

Nó thường được thực hiện sau một lớp kết nối/chập đầy đủ và trước một lớp phi tuyến tính và nhằm mục đích cho phép tỷ lệ học tập cao hơn và giảm sự phụ thuộc mạnh mẽ vào khởi tạo. Mạng lưới thần kinh tái phát

Recurrent Neural Networks

Các loại cổng ở đây là các loại cổng khác nhau mà chúng ta gặp trong một mạng lưới thần kinh tái phát điển hình: Here are the different types of gates that we encounter in a typical recurrent neural network:

Cổng đầu vào Quên cổng Cổng Cổng đầu ra
Viết vào di động hay không?Xóa một tế bào hay không?Bao nhiêu để viết cho di động?Bao nhiêu để tiết lộ tế bào?

LSTM Mạng bộ nhớ ngắn hạn (LSTM) dài hạn là một loại mô hình RNN để tránh vấn đề độ dốc biến mất bằng cách thêm cổng 'quên'. A long short-term memory (LSTM) network is a type of RNN model that avoids the vanishing gradient problem by adding 'forget' gates.



Học tập tăng cường và kiểm soát

Mục tiêu của học tập củng cố là để một tác nhân học cách phát triển trong môi trường.

Định nghĩa

Quy trình quyết định của Markov Một quy trình quyết định Markov (MDP) là 5-5-tuple $ (\ mathcal {s}, \ mathcal {a}, \ {p_ {sa} \}, \ gamma, r) ​​$ where: A Markov decision process (MDP) is a 5-tuple $(\mathcal{S},\mathcal{A},\{P_{sa}\},\gamma,R)$ where:

  • $ \ mathcal {s} $ là tập hợp các trạng thái
  • $ \ mathcal {a} $ là tập hợp các hành động
  • $ \ {P_ {sa} \} $ là xác suất chuyển đổi trạng thái cho $ s \ in \ mathcal {s} $ và $ a \ in \ mathcal {a} $ $
  • $ \ gamma \ in [0,1 [$ là yếu tố giảm giá
  • $ R: \ mathcal {s} \ Times \ mathcal {a} \ longrightarrow \ mathbb {r} $ hoặc $ r: \ mathcal {s} \ longrightarrow

Chính sách Một chính sách $ \ pi $ là một hàm $ \ pi: \ mathcal {s} \ longrightarrow \ mathcal {a} $ mà ánh xạ các trạng thái thành hành động. A policy $\pi$ is a function $\pi:\mathcal{S}\longrightarrow\mathcal{A}$ that maps states to actions.

Hàm giá trị cho một chính sách đã cho $ \ pi $ và trạng thái đã cho $ s $, chúng tôi xác định hàm giá trị $ v^{\ pi} $ như sau: For a given policy $\pi$ and a given state $s$, we define the value function $V^{\pi}$ as follows:

\ [\ Boxed {v^\ pi (s) = e \ lớn [r (s_0)+\ gamma r (s_1)+\ gamma^2 r (s_2)+... ]} \]

Phương trình Bellman Phương trình Bellman tối ưu đặc trưng cho hàm giá trị $ v^{\ pi^*} $ của chính sách tối ưu $ \ pi^*$: The optimal Bellman equations characterizes the value function $V^{\pi^*}$ of the optimal policy $\pi^*$:

\ [\ Boxed {v^{\ pi^*} (s) = r (s)+\ max_ {a \ in \ mathcal {a}} S ') v^{\ pi^*} (s')} \]

gọis ') v^*(s')} \]

Thuật toán lặp giá trị Thuật toán lặp lại giá trị trong hai bước: The value iteration algorithm is in two steps:

1) Chúng tôi khởi tạo giá trị:

\ [\ Boxed {v_0 (s) = 0} \]

2) Chúng tôi lặp lại giá trị dựa trên các giá trị trước:

\ [\ Boxed {v_ {i+1} (s) = r (s)+\ max_ {a \ in \ mathcal {a}} \ left [\ sum_ {s '\ in \ mathcal {s}}P_ {sa} (s ') v_i (s') \ right]} \]

Khả năng tối đa ước tính ước tính khả năng tối đa cho xác suất chuyển đổi trạng thái như sau: The maximum likelihood estimates for the state transition probabilities are as follows:

\ [\ Boxed {p_ {sa} (s ') = \ frac {\#\ textrm {lần thực hiện hành động} a \ textrm {in state} s \ textrmThời gian đã thực hiện hành động} a \ textrm {in state} s}} \]

Q-LEARNING $ Q $ -LEARNING là ước tính không có mô hình là $ q $, được thực hiện như sau: $Q$-learning is a model-free estimation of $Q$, which is done as follows:

\ [\ Boxed {q (s, a) \ leftarrow q (s, a)+\ alpha \ lớn [r (s, a, s ')) -Q (s, a) \ lớn]} \]