Порівняльний аналіз технік few-shot learning для доменної адаптації великих мовних моделей
Анотація
У статті проведено порівняльний аналіз сучасних технік few-shot learning для доменної адаптації великих мовних моделей (LLM). Розглянуто методи in-context learning, fine-tuning та meta-learning, їх переваги та обмеження в контексті адаптації до нових доменів з обмеженою кількістю даних.
Посилання
Language Models are Few-Shot Learners / T. B. Brown, B. Mann, N. Ryder Subbiah et al. URL: https://arxiv.org/abs/2005.14165 (дата звернення: 07.11.2024).
Evaluating Large Language Models Trained on Code / M. Chen, J. Tworek, H. Jun, Q. Yuan, P. de Oliveira et al. URL: https://arxiv.org/abs/2107.03374 (дата звернення: 07.11.2024).
Finn C., Abbeel P., Levine S. Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks. Proceedings of the 34th International Conference on Machine Learning. URL: https://arxiv.org/abs/1703.03400 (дата звернення: 07.11.2024).
Language Models are Unsupervised Multitask Learners / A. Radford., J. Wu., R. Child, D. Luan, D. Amodei, I. Sutskever. OpenAI Blog. URL: https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf (дата звернення: 07.11.2024).
An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale / A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszkoreit, N. Houlsby. URL: https://arxiv.org/abs/2010. 11929 (дата звернення: 07.11.2024).
Pre-trained Models for Natural Language Processing: A Survey / X. Qiu, T. Sun, Y. Xu, Y. Shao, N. Dai, X. Huang. Science China Technological Sciences. 2021. № 63. P. 1872–1897. URL: https://arxiv.org/abs/2003.08271 (дата звернення: 07.11.2024).