Застосування аугментації текстових даних для побудови синтетичних навчальних датасетів
Abstract
Серед головних проблем машинного навчання [1] можна виділити брак даних та/або їх погану якість. Здавалось б що зараз кількість даних не повинно бути проблемою, але вони є неструктурованими, дуже зашумленими, або знаходяться в недосяжних локаціях. Через те постійно не вистачає наборів даних для якісної підготовки моделей. Якщо ж різні моделі показають поганий результат для задачі і при цьому збір більшого набору даних не є можливим, то один зі шляхів вирішення цієї проблеми – використання техніки аугментації. Тобто збільшення набору даних завдяки різноманітним перетворенням існуючих елементів.
References
Haykin S., Neural Networks: A Comprehensive Foundation, Second Edition. Pearson Education, 1999. 842 p.
Albumentations. Do more with less data. URL: https://albumentations.ai/ (дата звернення: 15.11.2020).
Hochreiter S., Schmidhuber J., "Long Short-Term Memory," Neural Computation, vol. 9, pp. 1735-1780, November 1997.
Liu Y., Ott M., Goyal N., Du J., Joshi M., Chen D., Levy O., Lewis M., Zettlemoyer L., Stoyanov V., “RoBERTa: A Robustly Optimized BERT Pretraining Approach,” arXiv: 1907.11692 [cs.CL], Jul. 2019.