學(xué)習(xí)速率，機器學(xué)習(xí)中學(xué)習(xí)速率是什么意思？

高中
2023-04-14

目錄
卷積神經(jīng)網(wǎng)絡(luò)參數(shù)解析
神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)步長與學(xué)習(xí)速率一樣嗎
xgboost參數(shù)調(diào)優(yōu)
神經(jīng)網(wǎng)絡(luò)BP算法中,如何選擇網(wǎng)絡(luò)學(xué)習(xí)效率及閾值調(diào)整效率
Deep Learning 概念概覽

卷積神經(jīng)網(wǎng)絡(luò)參數(shù)解析

樓上說的很好，我補充一下也可以扒碼結(jié)合優(yōu)化算法遺傳橡握算法蟻群算法優(yōu)化出來初始值和隨機數(shù)以及春如哪學(xué)習(xí)速率可以加快收斂速度

神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)步長與學(xué)習(xí)速率一樣嗎

學(xué)習(xí)要講究效率，提高效轎簡率，途徑大致有以下幾點：一、每天保證 8 小時睡眠。晚上不要熬夜，定時就寢。中午堅持午睡。充足的睡眠、飽滿的精神是提高效率的基本要求。二、學(xué)習(xí)時要全閉彎褲神貫注。玩的時候痛快玩，學(xué)的時候認真學(xué)。一天到晚伏案苦讀，不是良策。學(xué)習(xí)到一定程度就得休息、補充能量。學(xué)習(xí)之余，一定要注意休息。但學(xué)習(xí)時，一定要全身心地投入，手腦并用。三、堅持體育鍛煉。身體是 " 學(xué)習(xí) " 的本錢。沒有一個好的身體，再大的能耐也無法發(fā)揮。因而，再繁忙的學(xué)習(xí)，也不可忽視放松鍛煉。有的同學(xué)為了學(xué)習(xí)而忽視鍛煉，身體越來越弱，學(xué)習(xí)越來越感到力不從心。這樣怎么能提高學(xué)習(xí)效率呢？四、學(xué)習(xí)要主動。只有積極主動地學(xué)習(xí)，才能感受到其中的樂趣，才能對學(xué)習(xí)越發(fā)有興趣。有了興趣，效率就會在不知不覺中得到提高。有的同學(xué)基礎(chǔ)不好，學(xué)習(xí)過程中老是有不懂的問題，又羞于向人請教，結(jié)果是郁郁寡歡，心不在焉，從何談起提高學(xué)習(xí)效率。這時，唯一的方法是，向人請教，不懂的地方一定要弄懂，一點一滴地積累，才能進步。如此，才能逐步地提高效率。五、保持愉快的心情，和同學(xué)融洽相處鬧歷。每天有個好心情，做事干凈利落，學(xué)習(xí)積極投入，效率自然高。另一方面，把個人和集體結(jié)合起來，和同學(xué)保持互助關(guān)系，團結(jié)進取，也能提高學(xué)習(xí)效率。六、注意整理。學(xué)習(xí)過程中，把各科課本、作業(yè)和資料有規(guī)律地放在一起。待用時，一看便知在哪。而有的學(xué)生查閱某本書時，東找西翻，不見蹤影。時間就在忙碌而焦急的尋找中逝去。我認為，沒有條理的學(xué)生不會學(xué)得很好。

xgboost參數(shù)調(diào)優(yōu)

一. 確定最佳決策樹數(shù)量

選擇較高的學(xué)習(xí)速率(learning rate)。一般情況下，學(xué)習(xí)速率的值為0.1。但是，對于不同的問題，理想的學(xué)習(xí)速率有時候會在0.05到0.3之間波動。選擇對應(yīng)于此學(xué)習(xí)速率的理想決策樹數(shù)量。XGBoost有一個很枝此有用的函數(shù)“cv”，這個函數(shù)可以在每一次迭代中使用交叉驗證，并返回理想的決策樹數(shù)量。

先給定boosting主要參數(shù)一個初始值，后續(xù)再進行調(diào)優(yōu)。

1、max_depth = 5 :這個參數(shù)的取值最好在3-10之間。我選的起始值為5，但是你也可以選擇其它的值。起始值在4-6之間都是不錯的選擇。

2、min_child_weight = 1:在這里選了一個比較小的值猛櫻迅，因為這是一個極不平衡的分類問題。因此，某些葉子節(jié)點下的值會比較小。

3、gamma = 0: 起始值也可以選其它比較小的值，在0.1到0.2之間就可以。這個參數(shù)后繼也是要調(diào)整的。

4、subsample,colsample_bytree = 0.8: 這個是最常見的初始值了。典型值的范圍在0.5-0.9之間。

5、scale_pos_weight = 1: 這個值是因為類別十分不平衡。

二. 主要參數(shù)調(diào)優(yōu)

對于給定的學(xué)習(xí)速率和決策樹數(shù)量，進行決策樹特定參數(shù)調(diào)優(yōu)(max_depth, min_child_weight, gamma, subsample, colsample_bytree)。

這里通常使用GridSearch。可先尋找max_depth、min_child_weight，確定后，再對gamma、subsample等調(diào)優(yōu)頌指。

三. xgboost的正則化參數(shù)的調(diào)優(yōu)。(lambda, alpha)。這些參數(shù)可以降低模型的復(fù)雜度，從而提高模型的表現(xiàn)。

四. 降低學(xué)習(xí)速率，確定理想?yún)?shù)。

xgboost 中，objective 是模型學(xué)習(xí)任務(wù)參數(shù)（learning task parameters）中的目標(biāo)參數(shù)，它指定訓(xùn)練任務(wù)的目標(biāo)。

objective參數(shù)默認值為reg:squarederror 。

https://zhuanlan.zhihu.com/p/29649128

神經(jīng)網(wǎng)絡(luò)BP算法中,如何選擇網(wǎng)絡(luò)學(xué)習(xí)效率及閾值調(diào)整效率

[更新中...]

---------------------------------Reference---------------------------------

參考：

https://zhuanlan.zhihu.com/p/27186569

https://dvl.in.tum.de/teaching/i2dl-ss19/

---------------------------------目錄---------------------------------

(1) Neuron/神經(jīng)元

(2) Machine Learning

(3) Basic classifier

(4) Cross Validation 6/2/2

(5) Linear Decision Boundaries

(6) Linear Regression

(7) Weights/權(quán)重

(8) Bias/偏移

(9) Affine function

(10) Activation Function

(10.a) Sigmoid函數(shù)

(10.b) 線性整流函數(shù)(ReLU-Rectified Linear Units)

(10.c) softmax函數(shù)

(11) Loss function

(11.a) [Regression] MSE

(11.b) [Regression] MAE

(11.c) Cross-entropy loss

(11.d) [Classification] MLE (Maximum Likelihood Estimation)

(12) 成本函數(shù)(cost function)

(13) Concept：Gradient VS Derivative

(13.a)Gradient: 導(dǎo)數(shù)

(13.b)Derivative/Nabla Operator（?）: 偏導(dǎo)

(14) Optimization

(15) NN神經(jīng)網(wǎng)絡(luò)

(16) Input/Output/Hidden Layer 輸入層/輸出層/隱藏層

(17) 多層感知器(MLP-Multi Layer Perceptron)

(18) 正向傳播(forward propagation)

(19) 學(xué)習(xí)速率(learning rate)

(20) 反向傳播(back propagation)

(21) 分批(Batches)

(22) 周期(epochs)

(23) Dropout方法

(24) 分批標(biāo)準(zhǔn)化(Batch Normalization)

(25) Regularization

(26) Precision and Recall

(27) Parametric Statistic

---------------------------------Basics---------------------------------

正如我們大腦中的基本組成單元，神經(jīng)元是組成神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu)。設(shè)想一下當(dāng)接敏禪差觸到新的信息時，我們的身體會對其進行處理，最后產(chǎn)生一些橋皮特定的反應(yīng)。

相似地，在神經(jīng)網(wǎng)絡(luò)中，在襲含收到輸入的信號之后，神經(jīng)元通過處理，然后把結(jié)果輸出給其它的神經(jīng)元或者直接作為最終的輸出。

A way to make use of data：train/valid/test

決策邊界就是能夠把樣本正確分類的一條邊界，主要有線性決策邊界(linear decision boundaries)和非線性決策邊界(non-linear decision boundaries)。

Questionwhat’s the relationship between LDB and SVM?

AnswerSVM is an algorithm/method to find the best LDB (that’s why SVM is also called Large Margin Classifier)

支持向量機（Support Vector Machine, SVM）是一類按監(jiān)督學(xué)習(xí) （supervised learning）方式對數(shù)據(jù)進行二元分類的廣義線性分類器（generalized linear classifier），其[決策邊界]( https://baike.baidu.com/item/%E5%86%B3%E7%AD%96%E8%BE%B9%E7

Suppose there are N observations and M features in training data set. A sample from training data set is taken randomly with replacement.%95%8C/22778546)是對學(xué)習(xí)樣本求解的最大邊距超平面（maximum-margin hyperplane） [1-3]。

SVM是一種優(yōu)化的分類算法，其動機是尋找一個最佳的決策邊界，使得從決策邊界與各組數(shù)據(jù)之間存在 margin ，并且需要使各側(cè)的margin最大化。比較容易理解的是，從決策邊界到各個training example的距離越大，在分類操作的差錯率就會越小。因此，SVM也叫作Large Margin Classifier。

最簡單的情況是，在二維平面中的，線性可分情況，即我們的training set可以用一條直線來分割稱為兩個子集，如下圖所示。而在圖中我們可以看到，H2和H3都可以正確的將training set進行分類，但細細想來，使用H2進行分類的話，我們對于靠近藍線的幾個訓(xùn)練樣例其實是不敢說100%的，但對于離藍線最遠的小球，我們卻很有把握。這也是H3這條SVM紅線出現(xiàn)的原因：盡量讓兩側(cè)的訓(xùn)練樣例遠離決策邊界，從而讓我們的分類有把握對每個球Say Absolutely。

---------------------------------以下開始講 Linear Regression---------------------------------

當(dāng)輸入信號進入到神經(jīng)元后，會被乘以相應(yīng)的權(quán)重因子。舉例來說，假設(shè)一個神經(jīng)元有兩個輸入信號，那么每個輸入將會存在著一個與之相應(yīng)的權(quán)重因子。在初始化網(wǎng)絡(luò)的時候，這些權(quán)重會被隨機設(shè)置，然后在訓(xùn)練模型的過程中再不斷地發(fā)生更改。

在經(jīng)過訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)中，一個輸入具有的權(quán)重因子越高，往往意味著它的重要性更高，對輸出的影響越大。另一方面，當(dāng)權(quán)重因子為0時意味著這個輸入是無價值的。

如下圖所示，假設(shè)輸入為a，相應(yīng)的權(quán)重為W1。那么通過賦權(quán)節(jié)點后相應(yīng)的輸入應(yīng)變?yōu)閍*W1。

除了權(quán)重之外，輸入還需要經(jīng)過另外一種線性處理，叫做偏置。通過把偏置b與加權(quán)后的輸入信號a*W1直接相加，以此作為激活函數(shù)的輸入信號。

~ is a function between different affine space/仿射空間 .

Goal : after the transformation the data still has it's original characters!

Content : is a functioncomposed of a linear function+ a constant.

Graph : a straight line.

General equation : y = Ax + c.

對數(shù)據(jù)使用affine function后都滿足以下條件：

下文的u=∑w*x+b就是affine function

~ of a nodedefines the output of that node, given an/more input.

之前線性處理之后的輸入信號通過激活函數(shù)進行非線性變換，從而得到輸出信號。即最后輸出的信號具有f(a*W1+b)的形式，其中f()為激活函數(shù)。

在下面的示意圖中，設(shè)X1…Xn等n個輸入分別對應(yīng)著權(quán)重因子Wk1…Wkn以及相應(yīng)的偏置b1…bn。我們把輸入Xi乘以對應(yīng)的權(quán)重因子Wki再加上bi的結(jié)果稱為u。

u=∑w*x+b 這個激活函數(shù)f是作用在u上的，也就是說這個神經(jīng)元最終的輸出結(jié)果為yk = f(u)

接下來我們講一講常用的一些激活函數(shù)：Sigmoid函數(shù)，線性整流函數(shù)(ReLU) 和 softmax函數(shù)

作為最常用的激活函數(shù)之一，它的定義如下：

sigmoid函數(shù)為值域在0到1之間的光滑函數(shù)，當(dāng)需要觀察輸入信號數(shù)值上微小的變化時，與階梯函數(shù)相比，平滑函數(shù)(比如Sigmoid函數(shù))的表現(xiàn)更好。

近來的神經(jīng)網(wǎng)絡(luò)傾向于使用ReLU替代掉sigmoid函數(shù)作為隱層的激活函數(shù)，它的定義如下：f(x) = max(x,0).

The rectified linear activation function is a piecewise linear function that will output the input directly if is positive, otherwise, it will output zero.

使用ReLU函數(shù)的好處是，對于所有大于0的輸入，導(dǎo)數(shù)是恒定的，這能夠加快訓(xùn)練網(wǎng)絡(luò)的速度。

softmax激活函數(shù)通常應(yīng)用在分類問題的輸出層上。

It′s a Multinomial Logistic Regression

它與Sigmoid函數(shù)相似，唯一的不同是softmax函數(shù)輸出結(jié)果是 歸一化 的。sigmoid函數(shù)能夠在雙輸出的時候奏效，但當(dāng)面對多種類分類問題的時候，softmax函數(shù)可以方便地直接將各個分類出現(xiàn)的概率算出。

sigmoid()僅僅是二元，softmax可以多元

例子:

輸入向量[1,2,3,4,1,2,3]對應(yīng)的Softmax函數(shù)的值為[0.024,0.064,0.175,0.475,0.024,0.064,0.175]。輸出向量中擁有最大權(quán)重的項對應(yīng)著輸入向量中的最大值“4”。這也顯示了這個函數(shù)通常的意義：對向量進行歸一化，凸顯其中最大的值并抑制遠低于最大值的其他分量。

Normalization!

We use the following Loss Function to evaluate the loss , measures how good my model is.

or L2 loss, or mean squared deviation (MSD), or Linear Least Square.

Attention: From Normal-Expression to Matrix-notation it emit the (1/n), we are just looking for the minimal value so it doesn't matter!

or L1 loss

or log loss, measures the performance of a classification model whose output is a probability value between 0 and 1.

You can see from the graph, that cross-entropy penalizes both types of errors, but especially those predictions that are confident and wrong!(when predicted probability drops around 0.15)

是用來估計一個概率模型的 參數(shù)的一種方法。

Reference： https://www.youtube.com/watch?v=XepXtl9YKwc

--> The goal is to find the optimal way to fit the distributionof data.

For example, if it's normal distribution, then the parametersmean ,deviationcan be modify in order to fit the data better!

猜測分布函數(shù)的參數(shù)，以盡量多的涵蓋observation中的數(shù)據(jù)點（舉例：如果滿足normal distribution，那么這里的參數(shù)就指mean和standard deviation）。

為了找到使p最好的參數(shù)Theta.

例子:

Step 1: Maximum Likelihood for the Mean

The name of "likelihood" basically means, how like you are going to find data-points according to theestimated distribution>> And it stops when it finally find the highest likelihood >> where we should put our meanon it:

Cost function即loss的綜合，loss由loss function求的

在神經(jīng)網(wǎng)絡(luò)的建造過程中，建造者們希望輸出的結(jié)果能夠盡可能地接近實際值，因此使用成本函數(shù)來描述網(wǎng)絡(luò)的這種準(zhǔn)確性。

神經(jīng)網(wǎng)絡(luò)的目標(biāo)是增加預(yù)測的準(zhǔn)確性從而減少誤差，即最小化成本函數(shù)。通常情況下，最優(yōu)化的輸出結(jié)果往往對應(yīng)著成本函數(shù)的最小值。

如果采用均方誤差作為成本誤差，即表示為C= 1/m ∑(y – a)2，其中m是訓(xùn)練過程中輸入數(shù)據(jù)的個數(shù)，a是相應(yīng)的預(yù)測值，y代表實際值。

模型學(xué)習(xí)的過程就是圍繞著最小化成本而進行的。

https://stats.stackexchange.com/questions/179026/objective-function-cost-function-loss-function-are-they-the-same-thing

Useful concepts: Component& Variable

Suppose there are N observations and M features in training data set. A sample from training data set is taken randomly with replacement.

Component：該matrix有幾行

Variable：x1，x2，，，共有幾個變量

舉例：

** 梯度下降(gradient descent)**

梯度下降是一種最小化成本函數(shù)的優(yōu)化算法。

在梯度下降中，從起始點x開始，一次移動一點，比如說移動delta h，然后將位置信息更換為x-delta h，如此重復(fù)下去，直到達到局部的極小值，此時認為極小值就是成本最小的地方。

In order to find the minimal value of the Loss function , we need to use derivative .

Here are the common formulas:

Now through the review from loss function , I want to improve the Model, this process we call it Optimization

And the gradientis our tool to optimze the model

---------------------------------以下開始講 Neural Network---------------------------------

神經(jīng)網(wǎng)絡(luò)是構(gòu)成深度學(xué)習(xí)的框架。神經(jīng)網(wǎng)絡(luò)的任務(wù)是找到一個未知函數(shù)的近似表達方式，它是由彼此相連的神經(jīng)元所組成，這些神經(jīng)元會在訓(xùn)練網(wǎng)絡(luò)的過程中根據(jù)誤差來更改它們的權(quán)重和偏置。激活函數(shù)將非線性變化用線性變化的組合來表示，最終產(chǎn)生輸出。

關(guān)于神經(jīng)網(wǎng)絡(luò)最好的定義是由Matthew Mayo給出的：

神經(jīng)網(wǎng)絡(luò)是由大量彼此相連、概念化的人造神經(jīng)元組成的，這些神經(jīng)元彼此之間傳遞著數(shù)據(jù)，相應(yīng)的權(quán)重也會隨著神經(jīng)網(wǎng)絡(luò)的經(jīng)歷而進行調(diào)整。神經(jīng)元們有著激活的閾值，當(dāng)它們遇到相應(yīng)的數(shù)據(jù)以及權(quán)重時會被激活，這些被激活的神經(jīng)元組合起來導(dǎo)致了“學(xué)習(xí)”行為的產(chǎn)生。

從名字中就能看出，輸入層代表接受輸入數(shù)據(jù)的一層，基本上是網(wǎng)絡(luò)的第一層；輸出層是產(chǎn)生輸出的一層，或者是網(wǎng)絡(luò)的最后一層，而網(wǎng)絡(luò)中間的處理層叫做隱藏層。

這些隱藏層對輸入的數(shù)據(jù)進行特定的處理，再將其輸入到下一層。輸入層和輸出層是可見的，而中間層通常是被隱藏起來的。

一個單一的神經(jīng)元不能夠完成復(fù)雜的任務(wù)，因此需要將它們堆疊起來工作進而產(chǎn)生有用的輸出。

最簡單的神經(jīng)網(wǎng)絡(luò)包括一個輸入層、一個隱藏層和一個輸出層。每一層都由多個神經(jīng)元組成，每一層的每個神經(jīng)元都與下一層中的所有神經(jīng)元相連。這樣的網(wǎng)絡(luò)可以被稱為是全連接網(wǎng)絡(luò)。

正向傳播是指信號從輸入層經(jīng)過隱藏層到輸出層的傳輸過程。在正向傳播中，信號是沿著單一方向進行傳播，即輸入層給隱藏層提供輸入，進而最終產(chǎn)生相應(yīng)的輸出。

學(xué)習(xí)速率定義為在每次迭代過程中對 成本函數(shù)最小化的次數(shù) 。簡單來說，學(xué)習(xí)速率就是指朝著成本函數(shù)最小值的 下降速率 。選擇學(xué)習(xí)速率需要很謹(jǐn)慎，過大會導(dǎo)致可能越過最優(yōu)解，過小會導(dǎo)致收斂花費太多的時間。

在定義一個神經(jīng)網(wǎng)絡(luò)的過程中，每個節(jié)點會被隨機地分配權(quán)重和偏置。一次迭代后，我們可以根據(jù)產(chǎn)生的結(jié)果計算出整個網(wǎng)絡(luò)的偏差，然后用偏差結(jié)合成本函數(shù)的梯度，對權(quán)重因子進行相應(yīng)的調(diào)整，使得下次迭代的過程中偏差變小。這樣一個結(jié)合成本函數(shù)的梯度來調(diào)整權(quán)重因子的過程就叫做反向傳播。

在反向傳播中，信號的傳遞方向是朝后的，誤差連同成本函數(shù)的梯度從輸出層沿著隱藏層傳播，同時伴隨著對權(quán)重因子的調(diào)整。

比如一共有10000條數(shù)據(jù)，分成10個batch，每個batch就是100條數(shù)據(jù)。

當(dāng)在訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)的時候，相對于一次性將所有的數(shù)據(jù)全輸入進去，有一個更好的方法：先將數(shù)據(jù)隨機地分為幾個大小一致的數(shù)據(jù)塊，再分批次輸入。跟一次性訓(xùn)練出來的模型相比，分批訓(xùn)練能夠使模型的適用性更好。

比如一共有10000條數(shù)據(jù)，分成10個batch，每個batch就是100條數(shù)據(jù)。正向，反向跑完所有10000條數(shù)據(jù)，即一個epoch。

一個周期表示對所有的數(shù)據(jù)批次都進行了一次迭代，包括一次正向傳播和一次反向傳播，所以一個周期/紀(jì)元就意味著對所有的輸入數(shù)據(jù)分別進行一次正向傳播和反向傳播。

訓(xùn)練網(wǎng)絡(luò)周期的次數(shù)是可以選擇的，往往周期數(shù)越高，模型的準(zhǔn)確性就越高，但是，耗時往往就越長。同樣你還需要考慮如果周期/紀(jì)元的次數(shù)過高，那么可能會出現(xiàn)過擬合的情況。

Dropout是一個可以阻止網(wǎng)絡(luò)過擬合(overfitting)的規(guī)則化方法(regularization)。就像它的名字那樣，在訓(xùn)練過程中隱藏的某些特定神經(jīng)元會被忽略掉(drop)。這意味著網(wǎng)絡(luò)的訓(xùn)練是在幾個不同的結(jié)構(gòu)上完成的。

這種dropout的方式就像是一場合奏，多個不同結(jié)構(gòu)網(wǎng)絡(luò)的輸出組合產(chǎn)生最終的輸出結(jié)果。

分批標(biāo)準(zhǔn)化就像是人們在河流中用以監(jiān)測水位的監(jiān)察站一樣。這是為了保證下一層網(wǎng)絡(luò)得到的數(shù)據(jù)擁有合適的分布。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程中，每一次梯度下降后權(quán)重因子都會得到改變，從而會改變相應(yīng)的數(shù)據(jù)結(jié)構(gòu)。

但是下一層網(wǎng)絡(luò)希望能夠得到與之前分布相似的數(shù)據(jù)，因此在每一次數(shù)據(jù)傳遞前都需要對數(shù)據(jù)進行一次正則化處理。

Goal: Penalize the complexity of the model, avoid explicitly fitting the training-data.

Different regularization methods:

They are different ways to define the "complexity" of a model

參數(shù)統(tǒng)計 是統(tǒng)計學(xué) 的一個分支，它假設(shè)樣本數(shù)據(jù)來自總體，而總體可以通過具有固定參數(shù)集的概率分布進行充分建模。 [1]相反， 非參數(shù)模型 的確切區(qū)別在于其參數(shù)集（或機器學(xué)習(xí) 中的特征集）不是固定的，如果收集到新的相關(guān)信息，則該參數(shù)集可能會增加甚至減少。 [2]

Example:

正態(tài)分布族都具有相同的一般形態(tài)，并可以通過均值和標(biāo)準(zhǔn)差進行參數(shù)化。這意味著，如果均值和標(biāo)準(zhǔn)差已知，并且分布是正態(tài)的，則任何將來觀察到的給定范圍內(nèi)的概率都是已知的。

假設(shè)有一個存在99個測試分?jǐn)?shù)的樣本，平均值為100，標(biāo)準(zhǔn)差為1。如果假設(shè)所有99個測試分?jǐn)?shù)都是從正態(tài)分布中隨機觀察到的，那么我們預(yù)測第100個測試分?jǐn)?shù)有1％的概率將高于102.33（即平均值加2.33標(biāo)準(zhǔn)偏差）。給定99個來自相同正態(tài)分布的獨立觀測值，可使用參數(shù)統(tǒng)計方法計算上述標(biāo)準(zhǔn)偏差值。

對同一事物的非參數(shù) 估計是前99個分?jǐn)?shù)中的最大值。不需要假設(shè)考試分?jǐn)?shù)的分布情況就可以推斷出，在我們進行考試之前，最高分?jǐn)?shù)會出現(xiàn)在前100個分?jǐn)?shù)中。因此，第100個分?jǐn)?shù)有1％的可能性高于之前的99個分?jǐn)?shù)。

Deep Learning 概念概覽

學(xué)習(xí)速率是一個超參數(shù)，它控制了我們在多大程度上調(diào)整了我們的網(wǎng)絡(luò)的權(quán)重，并對損失梯度進行了調(diào)整。值越低，沿著向下的斜率就越慢。雖然這可喚豎能是個好的辦法(使用低學(xué)習(xí)率)，以確冊饑保我和姿大們不會錯過任何局部極小值，但這也可能意味著我們要花很長時間才會收斂——尤其是如果我們陷入了停滯不前的區(qū)域。