DeepDream

 Nota: Não confundir com Daydream (Google) (o dispositivo de realidade virtual descontinuado da Google).
Imagem da Mona Lisa com efeito DeepDream, criado usando uma rede VGG16 treinada com o ImageNet

DeepDream é um programa de visão computacional criado pelo engenheiro do Google, Alexander Mordvintsev, que usa uma rede neural convolucional para encontrar e enfatizar padrões em imagens por meio de uma "pareidolia" algorítimica, criando uma aparência de sonho que lembra os efeitos visuais de uma experiência psicodélica nas imagens resultantes.[1][2][3]

O programa popularizou o termo deep dreaming(sonhar profundamente, em inglês) para se referir a geração de imagens que produz a "ativação neuronal" desejada em uma rede neural profunda, e o termo agora se refere a um conjunto de abordagens semelhantes.

História

O programa DeepDream, originado em uma rede neural convolucional apelidada de "Inception" em homenagem ao filme de mesmo nome(lançado no Brasil como A Origem),[1][2][3] foi desenvolvido para um desafio de visão computacional do projeto ImageNet ImageNet Large Scale Visual Recognition Challenge(ILSVRC) em 2014[3] e lançado oficialmente em julho de 2015.

A ideia de "sonhos" em uma rede neural se tornou popular em 2015 graças ao projeto DeepDream. A ideia já era discutida nos primórdios das redes neurais artificiais,[4] e métodos semelhantes haviam sido usados para renderizar texturas visuais.[5] Ideias semelhantes de visualização já vinham sendo estudadas por pesquisadores antes da criação do programa do Google.[6][7]

Quando o Google publicou seus métodos e tornou o código do projeto open-source,[8] surgiram no mercado várias ferramentas na forma de páginas web, aplicações mobile e programas de desktop que permitem os usuários aplicarem o processo em suas próprias imagens.[9]

Processo

An image of jellyfish on a blue background
An image of jellyfish processed with DeepDream after ten iterations
An image of jellyfish processed with DeepDream after fifty iterations
A imagem original (topo) após 10 (centro) e 50 (embaixo) iterações do DeepDream, com uma rede treinada para perceber cachorros e executa em "reverso"

O software foi desenvolvido para detectar rostos e outros padrões em imagens, com o objetivo de classificar imagens de forma automática.[10] No entanto, foi observado que a rede também consegui rodar em reverso, sendo instruída para ajustar uma imagem original para que o "neurônio" de "saída" (por exemplo, o que foi programado para faces ou animais) tenha um score de confiança maior. Isso geralmente é feito para entender melhor a estrutura da rede neural, e é o conceito base do DeepDream. No entanto, esse procedimento "reverso" nunca consegue ser totalmente claro e perfeito, porque utiliza um mapeamento 1 para N (1 para muitos).[11] Após um número suficiente de iterações, até mesmo imagens que inicialmente não apresentam nenhum dos padrões buscados estarão tão ajustadas que resultam em uma pareidolia, gerando imagens psicodélicas e surreais de forma algorítimica.

Uma imagem sem cachorros, por exemplo, pode ser alterada para ficar levemente mais "parecida com cachorros", e a imagem resultante pode novamente ser inserida como input no processo.[2] Isso ocorre de forma semelhante ao que o cérebro humano faz quando uma pessoa procura formas nas nuvens.

A aplicação do método do gradiente de forma independente para cada pixel da imagem produz imagens nas quais pixels adjacentes(vizinhos) tem pouca relação entre si, fazendo com que a imagem tenha muita informação de alta frequência. As imagens geradas podem ainda ser melhoradas com regularizadores matemáticos que dão preferência a imagens com características naturais (sem preferência por imagens específicas).[7][12][13]

A alta semelhança dos resultados com os efeitos visuais produzidos por LSD e psilocibina sugere que há um semelhança funcional entre redes neurais artificiais e algumas camadas córtex visual do cérebro humano.[14]

As analogias e semelhanças de redes neurais como o DeepDream com processos neurológicos oferece uma fonte de estudos sobre processos cerebrais e a formação da consciência. Certas substâncias alucinógenas como DMT e mescalina alteram a funcionalidade do sistma serotonérgico que está presente entre as camadas do córtex visual. As redes neurais são treinadas com vetores de de input e alteradas por variações internas durante o processo de treinamento. As modificações internas e nos inputs são análogas ao processamento de sinais exógenos e endógenos, respectivamente, no cérebro humano. Quando os fluxos internos são alterados em redes neurais, a interpretação das imagens formadas reflete essas mudanças. Essa manipulação específica mostra como mecanismos cerebrais internos são análogos às camadas internas de redes neurais computacionais. As alterações no nível de "ruído interno" representa como os alucinógenos omitem informação sensorial externa, fazendo com que conceitos preexistentes na memória visual influenciem muito mais a percepção visual.[15]

Aplicações

Uma imagem de três homens em uma piscina, após ser repetidamente processada repetidamente pelo DeepDream

O conceito pode ser aplicado em "neurônios" artificiais internos, ao invés dos externos, permitindo análises estruturais de várias partesda rede.[13] Também permite a otimização de inputs para um único neurônio (maximização de atividade)[16] ou para uma camada inteira de neurônios.

Embora o conceito seja majoritariamente usado para estudar o funcionamento de redes neurais ou produzir arte digital, pesquisas sugerem que adicionar inputs "sonhados" aos dados de treinamento pode melhorar os tempos de treinamento para abstrações em computação.[17]

O modelo DeepDream também tem se mostrado útil para o campo de história da arte.[18]

DeepDream foi usado pela banda Foster the People para o vídeo da música "Doing It for the Money".[19]

Relação com estados psicodélicos

Em 2017, um grupo de pesquisa da Universidade de Sussex criou uma Máquina de Alucinação, aplicando o algoritmo do DeepDream em vídeos panorâmicos pré-gravados, permitindo ao usuário explorar ambientes de realidade virtual que simulavam a esperiência de substâncias psicodélicas e/ou condições psicopatológicas.[20] Esse experimento conseguiu demonstrar que as experiências induzidas pelos vídeos gerados por DeepDream eram significativamente diferentes daquelas dos vídeos de controle("não-alucinógenos"), com semelhanças fenomenológicas (e não apenas visuais) aos estados farmacologicamente induzidos (com a adimnistração de psilocibina).

Em 2021, um estudo publicado no jornal científico Entropy mostrou mais uma vez a similaridade do DeepDream e experiências psicodélicas biológicas com evidências neuroscientíficas.[21] Os pesquisadores gravaram (eletroencefalogramas) de participantes humanos enquanto estes assistiam um vídeo na versão normal e na versão gerada por DeepDream. Foi observado que o vídeo de DeepDream engatilhou uma altíssima entropia informacional no sinal do eletroencefalograma e um nível altíssimo de conectividade funcional entre diferentes regiões do cérebro,[21] ambos biomarcadores clássicos do efeito de drogas psicodélicas.[22]

Em 2022, cientistas da the Universidade de Trento "mediram a flexibilidade congnitiva e a criatividade dos participantes após a exposição a vídeos panorâmicos de realidade virtual e suas versões de "simulação alucinógena" geradas pelo DeepDream (...) após a exposição à simulação psicodélica, indivíduos exibiram (...) uma contribuição acentuada dos processos cerebrais automáticos e dinâmicas caóticas que baseiam a tomada de decisão, possivelmente devido a uma reorganização da dinâmica congnitiva que facilita a exploração de estratégias de decisão incomuns e inibe processos de escolha automáticos."[23]

Ver também

Referências

  1. a b Mordvintsev, Alexander; Olah, Christopher; Tyka, Mike (2015). «DeepDream - a code example for visualizing Neural Networks». Google Research. Cópia arquivada em 8 de julho de 2015 
  2. a b c Mordvintsev, Alexander; Olah, Christopher; Tyka, Mike (2015). «Inceptionism: Going Deeper into Neural Networks». Google Research. Cópia arquivada em 3 de julho de 2015 
  3. a b c Szegedy, Christian; Liu, Wei; Jia, Yangqing; Sermanet, Pierre; Reed, Scott E.; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2015). «Going deeper with convolutions». IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2015, Boston, MA, USA, June 7–12, 2015. IEEE Computer Society. pp. 1–9. arXiv:1409.4842Acessível livremente. doi:10.1109/CVPR.2015.7298594 
  4. Lewis, J.P. (1988). «Creation by refinement: a creativity paradigm for gradient descent learning networks». IEEE International Conference on Neural Networks. IEEE International Conference on Neural Networks. pp. 229–233 vol.2. ISBN 0-7803-0999-5. doi:10.1109/ICNN.1988.23933 
  5. Portilla, J; Simoncelli, Eero (2000). «A parametric texture model based on joint statistics of complex wavelet coefficients». International Journal of Computer Vision. 40: 49–70. doi:10.1023/A:1026553619983 
  6. Erhan, Dumitru. (2009). Visualizing Higher-Layer Features of a Deep Network. International Conference on Machine Learning Workshop on Learning Feature Hierarchies 
  7. a b Simonyan, Karen; Vedaldi, Andrea; Zisserman, Andrew (2014). Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps. arXiv:1312.6034Acessível livremente 
  8. deepdream no GitHub
  9. Daniel Culpan. «These Google "Deep Dream" Images Are Weirdly Mesmerising». Wired 
  10. Rich McCormick. «Fear and Loathing in Las Vegas is terrifying through the eyes of a computer». The Verge 
  11. Hayes, Brian (2015). «Computer Vision and Computer Hallucinations». American Scientist. 103 (6). 380 páginas. ISSN 0003-0996. doi:10.1511/2015.117.380Acessível livremente 
  12. Mahendran, Aravindh; Vedaldi, Andrea (2015). «Understanding Deep Image Representations by Inverting Them». 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE Conference on Computer Vision and Pattern Recognition. pp. 5188–5196. ISBN 978-1-4673-6964-0. arXiv:1412.0035Acessível livremente. doi:10.1109/CVPR.2015.7299155 
  13. a b Yosinski, Jason; Clune, Jeff; Nguyen, Anh; Fuchs, Thomas. Understanding Neural Networks Through Deep Visualization. Deep Learning Workshop, International Conference on Machine Learning (ICML) Deep Learning Workshop. arXiv:1506.06579Acessível livremente 
  14. LaFrance, Adrienne. «When Robots Hallucinate». The Atlantic. Consultado em 24 de setembro de 2015 
  15. Timmermann, Christopher (12 de dezembro de 2020). «Neural Network Models for DMT-induced Visual Hallucinations». NIH. Neuroscience of Consciousness. 2020 (1): niaa024. PMC 7734438Acessível livremente. PMID 33343929. doi:10.1093/nc/niaa024 
  16. Nguyen, Anh; Dosovitskiy, Alexey; Yosinski, Jason; Brox, Thomas. Synthesizing the preferred inputs for neurons in neural networks via deep generator networks. arxiv. Bibcode:2016arXiv160509304N. arXiv:1605.09304Acessível livremente 
  17. Arora, Sanjeev; Liang, Yingyu; Tengyu, Ma. Why are deep nets reversible: A simple theory, with implications for training. arxiv. Bibcode:2015arXiv151105653A. arXiv:1511.05653Acessível livremente 
  18. Spratt, Emily L. «Dream Formulations and Deep Neural Networks: Humanistic Themes in the Iconology of the Machine-Learned Image» (PDF). Humboldt-Universität zu Berlin. Kunsttexte. 4. Bibcode:2018arXiv180201274S. arXiv:1802.01274Acessível livremente 
  19. fosterthepeopleVEVO, Foster The People - Doing It for the Money 
  20. Suzuki, Keisuke. «A Deep-Dream Virtual Reality Platform for Studying Altered Perceptual Phenomenology». Sci Rep. 7 (1). 15982 páginas. Bibcode:2017NatSR...715982S. PMC 5700081Acessível livremente. PMID 29167538. doi:10.1038/s41598-017-16316-2 
  21. a b Greco, Antonino; Gallitto, Giuseppe; D’Alessandro, Marco; Rastelli, Clara. «Increased Entropic Brain Dynamics during DeepDream-Induced Altered Perceptual Phenomenology». Entropy (em inglês). 23 (7). 839 páginas. Bibcode:2021Entrp..23..839G. ISSN 1099-4300. PMC 8306862Acessível livremente. PMID 34208923. doi:10.3390/e23070839Acessível livremente 
  22. Carhart-Harris, Robin; Leech, Robert; Hellyer, Peter; Shanahan, Murray; Feilding, Amanda; Tagliazucchi, Enzo; Chialvo, Dante; Nutt, David. «The entropic brain: a theory of conscious states informed by neuroimaging research with psychedelic drugs». Frontiers in Human Neuroscience. 8: 20. ISSN 1662-5161. PMC 3909994Acessível livremente. PMID 24550805. doi:10.3389/fnhum.2014.00020Acessível livremente 
  23. Rastelli, Clara; Greco, Antonino; Kennett, Yoed; Finocchiaro, Chiara; De Pisapia, Nicola. «Simulated visual hallucinations in virtual reality enhance cognitive flexibility». Sci Rep. 12 (1): 4027. Bibcode:2022NatSR..12.4027R. PMC 8901713Acessível livremente. PMID 35256740. doi:10.1038/s41598-022-08047-w