Efficient image annotation and caption system using deep convolutional neural networks

Yükleniyor...
Küçük Resim

Tarih

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Hasan Kalyoncu Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

son yıllarda, yapay zeka alanındaki gelişmelerle birlikte, görüntü açıklaması (IAC) olarak da bilinen görüntü açıklama, araştırmacıların ilgisini giderek daha fazla çekmiştir. IAC, görüntü içeriğine göre otomatik olarak doğal metin açıklamaları oluşturur. IAC, bilgisayarla görme ve doğal dil işleme bilgilerini birleştirir. Bu araştırmada, yeni bir görüntü açıklama ve açıklama sistemi geliştirilmiştir. Geliştirilen sistemin ana parçaları Evrişim Sinir Ağı (CNN) ve Uzun Kısa Süreli Bellek (LSTM)'dir. Ayrıca geliştirilen sistem, evrişim katmanlarına düzleştirme ekleme, tamamen bağlı katmanlara bırakma katmanları ekleme, en uygun parti boyutunu bulmak için genetik algoritmaları kullanma ve uyarlamalı moment gibi çoklu optimize edicilerin performansını inceleme gibi birçok adımla geliştirilmiştir. Tahmin (Adam), Stochastic Gradient Descent (SGD) ve Nesterov hızlandırılmış gradyan, geliştirilen en uygun olan yaklaşımı bulmak için. Geliştirilen sistem, zorlu veri kümelerinden biri, yani Flicker veri kümesi kullanılarak birden fazla deneyle doğrulandı. Genel olarak, geliştirilmiş modelimiz BLEU metriğini kullanarak mevcut son teknolojiden daha iyi performans gösterdi. Ayrıca sonuçlar, tasarlanan sistemin görüntüleri etkili bir şekilde tanımlayabildiğini kanıtlamaktadır. Son olarak, bu araştırma, görüntü açıklamaları alanındaki bazı açık zorlukları vurgulayarak araştırmacılara yardımcı olur.

In recent years, with the advances in the artificial intelligence field, image annotation also known as image description (IAC) has progressively attracted researchers' attention. IAC automatically creates natural text descriptions according to the image contents. IAC combines the knowledge of computer vision and natural language processing. In this research, a novel image annotation and description system was developed. The main parts of the developed system are Convolution Neural Network (CNN) and Long Short Time Memory (LSTM). Also, the developed system was enhanced by multiple steps such as adding regularizing to convolution layers, adding dropout layers to the fully connected layers, using genetic algorithms to find the most suitable batch size, and investigating the performance of multiple optimizers such as Adaptive Moment Estimation (Adam), Stochastic Gradient Descent(SGD), and Nesterov accelerated gradient to find the most suitable one for the developed approach. The developed system was validated by multiple experiments using one of the challenging datasets, i.e., the Flicker dataset. Overall, our improved model outperformed the existing state of arts using the BLEU metric. Also, results prove that the designed system can effectively describe images. Last but not least, this research help researchers by highlighting some open challenges in the field of image annotation.

Açıklama

Anahtar Kelimeler

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Koleksiyon

Onay

İnceleme

Ekleyen

Referans Veren