Generalization of cross-entropy loss function for image classification

Loading...
Thumbnail Image
Date
2020
Authors
Andreieva, Valeria
Shvai, Nadiya
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Classification task is one of the most common tasks in machine learning. This supervised learning problem consists in assigning each input to one of a finite number of discrete categories. Classification task appears naturally in numerous applications, such as medical image processing, speech recognition, maintenance systems, accident detection, autonomous driving etc. In the last decade methods of deep learning have proven to be extremely efficient in multiple machine learning problems, including classification. Whereas the neural network architecture might depend a lot on data type and restrictions posed by the nature of the problem (for example, real-time applications), the process of its training (i.e. finding model’s parameters) is almost always presented as loss function optimization problem. Cross-entropy is a loss function often used for multiclass classification problems, as it allows to achieve high accuracy results. Here we propose to use a generalized version of this loss based on Renyi divergence and entropy. We remark that in case of binary labels proposed generalization is reduced to cross-entropy, thus we work in the context of soft labels. Specifically, we consider a problem of image classification being solved by application of convolution neural networks with mixup regularizer. The latter expands the training set by taking convex combination of pairs of data samples and corresponding labels. Consequently, labels are no longer binary (corresponding to single class), but have a form of vector of probabilities. In such settings cross-entropy and proposed generalization with Renyi divergence and entropy are distinct, and their comparison makes sense. To measure effectiveness of the proposed loss function we consider image classification problem on benchmark CIFAR-10 dataset. This dataset consists of 60000 images belonging to 10 classes, where images are color and have the size of 32 x 32. Training set consists of 50000 images, and the test set contains 10000 images. For the convolution neural network, we follow [1] where the same classification task was studied with respect to different loss functions and consider the same neural network architecture in order to obtain comparable results. Experiments demonstrate superiority of the proposed method over cross-entropy for loss function parameter value a < 1. For parameter value a > 1 proposed method shows worse results than crossentropy loss function. Finally, parameter value a = 1 corresponds to cross-entropy.
Задача класифiкацiї є однiєю з найпоширенiших задач машинного навчання. Ця задача навчання з вчителем полягає у зiставленнi кожному вхiдному елементу однiєї з скiнченної кiлькостi дискретних категорiй. Задача класифiкацiї виникає природним чином у численних застосуваннях, таких як обробка медичних зображень, розпiзнавання мовлення, системи технiчного обслуговування, виявлення аварiйних ситуацiй, автономне водiння тощо. За останнє десятилiття методи глибокого навчання виявились надзвичайно ефективними для багатьох задач машинного навчання, зокрема класифiкацiї. У той час як архiтектура нейронної мережi може багато в чому залежати вiд типу даних та обмежень, що породжуються природою задачi (наприклад, застосування моделi у реальному часi), процес її навчання (тобто пошук параметрiв моделi) майже завжди представляється як оптимiзацiя функцiї втрат. У задачах класифiкацiї з багатьма класами у ролi функцiї втрат часто виступає перехресна ентропiя, оскiльки вона дає змогу досягти високої точностi. У цiй роботi ми пропонуємо використовувати узагальнену версiю цiєї функцiї втрат, а саме розходження та ентропiю Реньї. Зазначимо, що у випадку бiнарних мiток таке узагальнення зводиться до перехресної ентропiї, тому нас буде цiкавити саме контекст м’яких мiток. Бiльш конкретно, ми розглядаємо проблему класифiкацiї зображень, що розв’язується iз застосуванням згорткових нейронних мереж та mixup регуляризацiї. Остання полягає у розширеннi тренувального набору даних шляхом опуклих комбiнацiй пар елементiв та вiдповiдних мiток. Вiдповiдно, отриманi мiтки не є бiнарними (що вiдповiдає строгiй належностi до одного класу), а мають вигляд вектора ймовiрностей. За таких умов перехресна ентропiя та дивергенцiя i ентропiя Реньї вiдрiзняються, i їх можна порiвняти мiж собою. Для вимiрювання ефективностi запропонованої функцiї втрат ми розглядаємо проблему класифiкацiї зображень на наборi даних CIFAR-10. Цей набiр складається з 60 000 зображень, що належать до 10 класiв, де зображення є кольоровими та мають розмiр 32 х 32. Навчальний набiр складається з 50 000 зображень, а тестовий набiр мiстить 10 000 зображень. Архiтектуру згорткової нейронної мережi було обрано вiдповiдно до [1], де була розглянута та сама задача класифiкацiї з метою порiвняння функцiй втрат, з метою отримання порiвнянних результатiв. Експерименти демонструють перевагу запропонованого методу над перехресною ентропiєю для значення параметра функцiї втрат а < 1. Для значення параметра а > 1 запропонований метод показує гiршi результати, нiж функцiя перехресної ентропiї. Нарештi, значення параметра а = 1 вiдповiдає перехреснiй ентропiї.
Description
Keywords
loss function, image classification, Renyi entropy, Renyi divergence, article, функцiя втрат, задача класифiкацiї зображень, ентропiя Реньї, розходження Реньї
Citation
Andreieva V. Generalization of cross-entropy loss function for image classification / V. Andreieva, N. Shvai // Могилянський математичний журнал. - 2020. - Т. 3. - С. 3-10.
Collections