Qwen (також звана Tongyi Qianwen, кит.трад.通义千问) — сімейство великих мовних моделей, розроблених Alibaba. У липні 2024 року модель була визнана найкращою китайськомовною моделлю за деякими тестами[1].
Історія моделі
Alibaba вперше представила бета-версію Qwen у квітні 2023 року під назвою Tongyi Qianwen[2]. Модель була заснована на LLM LLaMA, розробленій Meta AI, з різними модифікаціями. Вона була публічно випущена у вересні 2023 року після схвалення з боку китайського уряду. У грудні 2023 року компанія випустила у відкритий доступ моделі 72B та 1.8B, а Qwen 7B була відкрита у серпні[3].
У червні 2024 Alibaba запустила Qwen 2, а у вересні випустила деякі її моделі у відкритий код, зберігши при цьому найпередовіші версії закритими[4]. Qwen 2 використовує модель обробки — Змішення експертів[5].
У листопаді 2024 року була випущена QwQ-32B-Preview — модель, орієнтована на логічні міркування, аналогічна o1 від OpenAI. Вона була випущена під ліцензією Apache 2.0, але при цьому були оприлюднені лише ваги, без датасету та методу навчання.[6][7] QwQ має контекстну довжину в 32 000 токенів і перевищує o1 за деякими тестами[8].
Серія Qwen-VL є лінійкою візуально-мовних моделей, які поєднують трансформер візуального сприйняття з LLM[9]. Alibaba випустила Qwen-VL2 з варіантами на 2 та 7 мільярдів параметрів. Флагманською моделлю компанії в галузі комп'ютерного зору є Qwen-vl-max, яка продається через Alibaba Cloud за ціною 0,00041 долара США за тисячу вхідних токенів[10].
Alibaba також випустила кілька інших типів моделей, таких як Qwen-Audio та Qwen2-Math[11]. Загалом компанія відкрила вихідний код понад 100 моделей, а їх моделі було завантажено понад 40 мільйонів разів[12]. Ентузіастами були розроблені донавчені версії Qwen, такі як «Liberated Qwen», створена компанією Abacus AI із Сан-Франциско. Ця версія дозволяє відповідати на будь-які запити без обмежень на зміст[13].
У січні 2025 року Alibaba запустила Qwen 2.5-Max, свою найновішу і найпотужнішу модель на сьогоднішній день[14]. Згідно з блог-постом Alibaba, Qwen 2.5-Max перевершує інші базові моделі, такі як GPT-4o, DeepSeek-V3 та Llama-3.1-405B, за ключовими показниками[14]. Незвичний момент для випуску Qwen 2.5-Max, що припав на перший день Китайського Нового року, коли більшість китайців святкують, свідчить про тиск, який створило швидке зростання стартапу DeepSeek за останні три тижні перед вимушеним запуском Qwen[15].
Можливості
Величезна база знань — модель навчена на 18 трильйонах токенів, що забезпечує глибоке розуміння контексту і дозволяє інтерпретувати складні запити[16].
Розширені вікна контексту — Обробка даних до 128 000 токенів дозволяє працювати з великими документами та складними завданнями[17].
Просунута генерація коду — варіант моделі Qwen2.5-Coder призначений для написання, аналізу та оптимізації програмного коду[18].
Багатомовна підтримка — понад 29 мов, включаючи англійську, китайську, французьку, іспанську та інші[19].
Покращені математичні здібності — спеціалізована версія Qwen2.5-Math справляється з багатокроковими обчисленнями та аналітичними завданнями[20].
Застосування
Розробка програмного забезпечення — автоматична генерація коду, налагодження, документація.
Аналіз даних — обробка великих наборів даних, математичні обчислення, звіти.
Освіта — створення навчальних матеріалів, допомога у дослідницьких роботах.
Бізнес — оптимізація процесів, взаємодія з клієнтами, бізнес-аналітика[21].