Застосування аугментації текстових даних для побудови синтетичних навчальних датасетів

Автор(и)

  • Я. О. Ісаєнков Донецький національний університет імені Василя Стуса
  • А. І. Парамонов Донецький національний університет імені Василя Стуса

Анотація

Серед головних проблем машинного навчання [1] можна виділити брак даних та/або їх погану якість. Здавалось б що зараз кількість даних не повинно бути проблемою, але вони є неструктурованими, дуже зашумленими, або знаходяться в недосяжних локаціях. Через те постійно не вистачає наборів даних для якісної підготовки моделей. Якщо ж різні моделі показають поганий результат для задачі і при цьому збір більшого набору даних не є можливим, то один зі шляхів вирішення цієї проблеми – використання техніки аугментації. Тобто збільшення набору даних завдяки різноманітним перетворенням існуючих елементів.

Біографії авторів

Я. О. Ісаєнков , Донецький національний університет імені Василя Стуса

магістр 2 курсу спеціальності 122 «Комп’ютерні науки»

А. І. Парамонов , Донецький національний університет імені Василя Стуса

к.т.н., доцент доцент кафедри комп’ютерних наук та інформаційних технологій

Посилання

Haykin S., Neural Networks: A Comprehensive Foundation, Second Edition. Pearson Education, 1999. 842 p.

Albumentations. Do more with less data. URL: https://albumentations.ai/ (дата звернення: 15.11.2020).

Hochreiter S., Schmidhuber J., "Long Short-Term Memory," Neural Computation, vol. 9, pp. 1735-1780, November 1997.

Liu Y., Ott M., Goyal N., Du J., Joshi M., Chen D., Levy O., Lewis M., Zettlemoyer L., Stoyanov V., “RoBERTa: A Robustly Optimized BERT Pretraining Approach,” arXiv: 1907.11692 [cs.CL], Jul. 2019.

##submission.downloads##

Опубліковано

2021-06-18

Номер

Розділ

СЕКЦІЯ «МЕТОДИ ОБРОБКИ І АНАЛІЗУ ДАНИХ»