Порівняльний аналіз технік few-shot learning для доменної адаптації великих мовних моделей

Автор(и)

  • П. А. Чайковський Донецький національний університет імені Василя Стуса
  • С. Д. Штовба Донецький національний університет імені Василя Стуса

Анотація

У статті проведено порівняльний аналіз сучасних технік few-shot learning для доменної адаптації великих мовних моделей (LLM). Розглянуто методи in-context learning, fine-tuning та meta-learning, їх переваги та обмеження в контексті адаптації до нових доменів з обмеженою кількістю даних.

Біографії авторів

П. А. Чайковський , Донецький національний університет імені Василя Стуса

здобувач вищої освіти

С. Д. Штовба , Донецький національний університет імені Василя Стуса

д-р техн. наук, професор, професор кафедри інформаційних технологій

Посилання

Language Models are Few-Shot Learners / T. B. Brown, B. Mann, N. Ryder Subbiah et al. URL: https://arxiv.org/abs/2005.14165 (дата звернення: 07.11.2024).

Evaluating Large Language Models Trained on Code / M. Chen, J. Tworek, H. Jun, Q. Yuan, P. de Oliveira et al. URL: https://arxiv.org/abs/2107.03374 (дата звернення: 07.11.2024).

Finn C., Abbeel P., Levine S. Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks. Proceedings of the 34th International Conference on Machine Learning. URL: https://arxiv.org/abs/1703.03400 (дата звернення: 07.11.2024).

Language Models are Unsupervised Multitask Learners / A. Radford., J. Wu., R. Child, D. Luan, D. Amodei, I. Sutskever. OpenAI Blog. URL: https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf (дата звернення: 07.11.2024).

An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale / A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszkoreit, N. Houlsby. URL: https://arxiv.org/abs/2010. 11929 (дата звернення: 07.11.2024).

Pre-trained Models for Natural Language Processing: A Survey / X. Qiu, T. Sun, Y. Xu, Y. Shao, N. Dai, X. Huang. Science China Technological Sciences. 2021. № 63. P. 1872–1897. URL: https://arxiv.org/abs/2003.08271 (дата звернення: 07.11.2024).

##submission.downloads##

Опубліковано

2025-11-03

Номер

Розділ

СЕКЦІЯ 5 ПРИКЛАДНІ АСПЕКТИ ОБРОБКИ ДАНИХ В ІНФОРМАЦІЙНИХ СИСТЕМАХ