Qwen

Qwen 2.5
Типчат-бот і велика мовна модель Редагувати інформацію у Вікіданих
РозробникAlibaba Cloud
Перший випуск2024
Стабільний випуск2.5
Доступні мовиБагатомовна (29+ мов)
Ліцензія(Apache 2.0)
Вебсайтqwen-ai.com

Qwen (також звана Tongyi Qianwen, кит. трад. 通义千问) — сімейство великих мовних моделей, розроблених Alibaba. У липні 2024 року модель була визнана найкращою китайськомовною моделлю за деякими тестами[1].

Історія моделі

Alibaba вперше представила бета-версію Qwen у квітні 2023 року під назвою Tongyi Qianwen[2]. Модель була заснована на LLM LLaMA, розробленій Meta AI, з різними модифікаціями. Вона була публічно випущена у вересні 2023 року після схвалення з боку китайського уряду. У грудні 2023 року компанія випустила у відкритий доступ моделі 72B та 1.8B, а Qwen 7B була відкрита у серпні[3].

У червні 2024 Alibaba запустила Qwen 2, а у вересні випустила деякі її моделі у відкритий код, зберігши при цьому найпередовіші версії закритими[4]. Qwen 2 використовує модель обробки — Змішення експертів[5].

У листопаді 2024 року була випущена QwQ-32B-Preview — модель, орієнтована на логічні міркування, аналогічна o1 від OpenAI. Вона була випущена під ліцензією Apache 2.0, але при цьому були оприлюднені лише ваги, без датасету та методу навчання.[6][7] QwQ має контекстну довжину в 32 000 токенів і перевищує o1 за деякими тестами[8].

Серія Qwen-VL є лінійкою візуально-мовних моделей, які поєднують трансформер візуального сприйняття з LLM[9]. Alibaba випустила Qwen-VL2 з варіантами на 2 та 7 мільярдів параметрів. Флагманською моделлю компанії в галузі комп'ютерного зору є Qwen-vl-max, яка продається через Alibaba Cloud за ціною 0,00041 долара США за тисячу вхідних токенів[10].

Alibaba також випустила кілька інших типів моделей, таких як Qwen-Audio та Qwen2-Math[11]. Загалом компанія відкрила вихідний код понад 100 моделей, а їх моделі було завантажено понад 40 мільйонів разів[12]. Ентузіастами були розроблені донавчені версії Qwen, такі як «Liberated Qwen», створена компанією Abacus AI із Сан-Франциско. Ця версія дозволяє відповідати на будь-які запити без обмежень на зміст[13].

У січні 2025 року Alibaba запустила Qwen 2.5-Max, свою найновішу і найпотужнішу модель на сьогоднішній день[14]. Згідно з блог-постом Alibaba, Qwen 2.5-Max перевершує інші базові моделі, такі як GPT-4o, DeepSeek-V3 та Llama-3.1-405B, за ключовими показниками[14]. Незвичний момент для випуску Qwen 2.5-Max, що припав на перший день Китайського Нового року, коли більшість китайців святкують, свідчить про тиск, який створило швидке зростання стартапу DeepSeek за останні три тижні перед вимушеним запуском Qwen[15].

Можливості

  • Величезна база знань — модель навчена на 18 трильйонах токенів, що забезпечує глибоке розуміння контексту і дозволяє інтерпретувати складні запити[16].
  • Розширені вікна контексту — Обробка даних до 128 000 токенів дозволяє працювати з великими документами та складними завданнями[17].
  • Просунута генерація коду — варіант моделі Qwen2.5-Coder призначений для написання, аналізу та оптимізації програмного коду[18].
  • Багатомовна підтримка — понад 29 мов, включаючи англійську, китайську, французьку, іспанську та інші[19].
  • Покращені математичні здібності — спеціалізована версія Qwen2.5-Math справляється з багатокроковими обчисленнями та аналітичними завданнями[20].

Застосування

  • Розробка програмного забезпечення — автоматична генерація коду, налагодження, документація.
  • Аналіз даних — обробка великих наборів даних, математичні обчислення, звіти.
  • Освіта — створення навчальних матеріалів, допомога у дослідницьких роботах.
  • Бізнес — оптимізація процесів, взаємодія з клієнтами, бізнес-аналітика[21].

Див. також

Посилання

Примітки

  1. Qwen 2.5 Overview. Alibaba Cloud. Процитовано 29 січня 2025.
  2. Chiang, Sheila (11 квітня 2023). Alibaba to roll out its rival to ChatGPT across all its products. CNBC (англ.).
  3. Jiang, Ben (13 вересня 2023). Alibaba opens Tongyi Qianwen model to public as new CEO embraces AI. South China Morning Post (англ.).
  4. Jiang, Ben (7 червня 2024). Alibaba says new AI model Qwen2 bests Meta's Llama 3 in tasks like maths and coding. South China Morning Post (англ.).
  5. Yang, An; Yang, Baosong (10 вересня 2024). Qwen2 Technical Report. arXiv:2407.10671 [cs.CL].
  6. Franzen, Carl (8 серпня 2024). Alibaba claims no. 1 spot in AI math models with Qwen2-Math. VentureBeat.
  7. 故渊 (28 листопада 2024). 阿里通义千问 QwQ 登场:开源 AI 推理新王,MATH 测试超 OpenAI o1 模型 - IT之家. www.ithome.com.
  8. Wiggers, Kyle (27 листопада 2024). Alibaba releases an 'open' challenger to OpenAI's o1 reasoning model. TechCrunch.
  9. Bai, Jinze; Bai, Shuai (28 вересня 2023). Qwen Technical Report. arXiv:2309.16609 [cs.CL].
  10. Jiang, Ben (11 липня 2024). Alibaba's open-source AI model tops Chinese rivals, ranks 3rd globally. South China Morning Post (англ.).
  11. Dickson, Ben (29 листопада 2024). Alibaba releases Qwen with Questions, an open reasoning model that beats o1-preview. VentureBeat.
  12. Kharpal, Arjun (19 вересня 2024). China's Alibaba launches over 100 new open-source AI models, releases text-to-video generation tool. CNBC (англ.).
  13. Mims, Christopher (19 квітня 2024). Here Come the Anti-Woke AIs. WSJ.
  14. а б Alibaba презентувала ШІ-модель Qwen 2.5-Max. Кажуть, що краще за DeepSeek та OpenAI. LIGA (укр.). 29 січня 2025. Процитовано 30 січня 2025.
  15. Alibaba представила нову модель ШІ Qwen 2.5-Max. mezha.media (укр.). 29 січня 2025. Процитовано 30 січня 2025.
  16. Qwen 2.5 Training Data. Alibaba Cloud. Процитовано 29 січня 2025.
  17. Qwen 2.5 Context Length. Alibaba Cloud. Процитовано 29 січня 2025.
  18. Qwen 2.5 Coding Capabilities. Alibaba Cloud. Процитовано 29 січня 2025.
  19. Qwen 2.5 Multilingual Support. Alibaba Cloud. Процитовано 29 січня 2025.
  20. Qwen 2.5 Math Capabilities. Alibaba Cloud. Процитовано 29 січня 2025.
  21. Qwen 2.5 Use Cases. Alibaba Cloud. Процитовано 29 січня 2025.

 

Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9

Portal di Ensiklopedia Dunia