DeepSeek – mycode

The Allen Institute for AI (Ai2) представила нову генерацію своїх флагманських великих мовних моделей, розроблені для більш прямої конкуренції з галузевими та академічними лідерами. Seattle-based некомерційна організація представила Olmo 3, колекцію відкритих мовних моделей, яка, за заявами, перевершує повністю відкриті моделі, такі як Stanford’s Marin та комерційні відкриті моделі, як Meta’s Llama 3. Раніше версії Olmo були в основному призначені для наукових цілей, для розуміння того, як будуються AI моделі. З Olmo 3, Ai2 розширює свій фокус, позиціонуючи моделі як потужні, ефективні та прозорі системи, придатні для використання у реальному світі, включаючи комерційні застосування.

«Olmo 3 доводить, що відкритість та продуктивність можуть розвиватися разом», – сказав Ali Farhadi, CEO Ai2, у прес-релізі, опублікованому в четвер, що оголошував про нові моделі.

Це частина ширшої еволюції в AI світі. Протягом останнього року все більш потужні відкриті моделі з компаній та університетів — включаючи Meta, DeepSeek, Qwen, та Stanford — почали конкурувати з продуктивністю власних систем великих технологічних компаній.

Багато з останніх відкритих моделей розроблені для демонстрації їхнього міркування крок за кроком — часто звані «моделі, що «думлять»», що стало ключовим критерієм у цій галузі.

Ai2 випускає Olmo 3 у кількох версіях: Olmo 3 Base (основний базовий фундамент); Olmo 3 Instruct (настроєний для дотримання інструкцій користувача); Olmo 3 Think (розроблений для демонстрації більш явного міркування); та Olmo 3 RL Zero (експериментальна модель, навчена за допомогою навчання з підкріпленням).

Відкриті моделі набирають обертів завдяки стартапам та бізнесу, які хочуть більше контролю над витратами та даними, а також чіткішу видимість того, як працює технологія. Ai2 йде далі, випускаючи повний «потік моделі» позаду Olmo 3 — серію знімків, що показує, як модель прогресувала на кожному етапі навчання. Крім того, оновлений OlmoTrace інструмент дозволить дослідникам пов’язувати міркування моделі назад до конкретних даних та рішень щодо навчання, які вплинули на них.

Що стосується енергії та ефективності витрат, Ai2 заявляє, що новий базовий Olmo 3 в 2,5 рази більш ефективний для навчання, ніж Meta’s Llama 3.1 (на основі GPU-годин на токен, порівнюючи Olmo 3 Base з Meta’s 8B post-trained modelem), та навчався на значно менше токенів, в деяких випадках в шість разів менше, ніж у аналогічних моделях.

Крім того, Olmo 3 може читати або аналізувати набагато довші документи одночасно, з підтримкою вхідних даних до 65 000 токенів, що приблизно дорівнює довжині розділу короткої книги.

Заснована в 2014 році пізнім засновник Microsoft Paul Allen, Ai2 протягом тривалого часу функціонувала як дослідницька некомерційна організація, розробляючи відкриті інструменти та моделі, тоді як більші комерційні лабораторії домінували в центрі уваги. Інститут зробив серію кроків цього року, щоб підняти свій профіль, зберігаючи при цьому свою місію розвитку AI для вирішення найбільших проблем світу. В серпні Ai2 було обрано Національним Науковим Фондом та Nvidia для ініціативи вартістю 152 мільйони доларів для створення повністю відкритих багатомодальних AI моделей для наукових досліджень, позиціонуючи інститут для того, щоб бути ключовим учасником національного AI-скелету. Він також є ключовим технічним партнером для Cancer AI Alliance, допомагаючи Fred Hutch та іншим провідним центрам раку в США навчати AI-моделі на клінічних даних, не розкриваючи пацієнтських записів.

Olmo 3 доступний зараз на Hugging Face та Ai2’s model playground.

Позначка: DeepSeek

Ai2 представила Olmo 3: Відкриті моделі, що конкурують з Meta, DeepSeek та іншими