Las unidades recurrentes cerradas (GRU, por sus siglas en inglés) son un mecanismo de compuerta en redes neuronales recurrentes, introducido en 2014 por Kyunghyun Cho et al.[1] La GRU es como una memoria a largo plazo (LSTM, por sus siglas en inglés) con un mecanismo de compuerta para introducir u olvidar ciertas características,[2] pero carece de vector de contexto o compuerta de salida, lo que resulta en menos parámetros que la LSTM.[3] El rendimiento de la GRU en determinadas tareas de modelado de música polifónica, modelado de señales de voz y procesamiento de lenguaje natural fue similar al de la LSTM.[4][5] Las GRU demostraron que la compuerta es útil en general, y el equipo de Bengio no llegó a ninguna conclusión concreta sobre cuál de las dos unidades de compuerta era mejor.[6][7]
Arquitectura
Existen diversas variaciones de la unidad de compuerta completa, en la que la compuerta se realiza utilizando el estado oculto anterior y el sesgo en diversas combinaciones, y una forma simplificada denominada unidad de compuerta mínima.[8]
El operador denota el producto Hadamard en lo siguiente:
Unidad totalmente cerrada
Inicialmente, para , el vector de salida es .
Variables ( denota el número de características de entrada y el número de características de salida):
: vector de entrada
: vector de salida
: vector de activación candidato
: actualizar el vector de puerta
: resetear vector puerta
, and : matrices de parámetros y vectores que deben aprenderse durante el entrenamiento.
Son posibles funciones de activación alternativas, siempre que: .
Se pueden crear formas alternativas cambiando y .[9]
Tipo 1, cada puerta depende sólo del estado oculto anterior y del sesgo.
Tipo 2, cada puerta depende sólo del estado oculto anterior.
Tipo 3, cada puerta se calcula utilizando sólo el sesgo.
Unidad mínima cerrada
La unidad mínima cerrada (MGU) es similar a la unidad de compuerta completa, salvo que el vector de compuerta de actualización y reinicio se fusiona en una compuerta de olvido. Esto también implica que la ecuación para el vector de salida debe cambiarse:[10]
Variables
: vector de entrada
: vector de salida
: vector de activación candidato
: vector de olvido
, y : matrices de parámetros y vector
Unidad recurrente ligera
La unidad recurrente activada por luz (LiGRU)[4] elimina la puerta de reinicio, sustituye tanh por la activación ReLU y aplica la normalización por lotes (BN):
La LiGRU se ha estudiado desde una perspectiva bayesiana.[11] Este análisis dio lugar a una variante denominada unidad recurrente bayesiana ligera (LiBRU), que mostró ligeras mejoras sobre la LiGRU en tareas de reconocimiento del habla.
Referencias
↑Cho, Kyunghyun; van Merrienboer, Bart; Bahdanau, DZmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). «"Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation".». Association for Computational Linguistics.
↑Felix Gers; Jürgen Schmidhuber; Fred Cummins (1999). «Learning to forget: Continual prediction with LSTM".». 9th International Conference on Artificial Neural Networks: ICANN '99. ISBN0-85296-721-7. doi:10.1049/cp:19991218.