NEO стартира като първата нативна мултимодална AI архитектура

На 5 декември 2025 г. SenseTime, заедно с Технологичния университет Нанянг и други изследователски екипи, пуснаха NEOна първата в света мащабируема собствена мултимодална архитектура с отворен код (Native VLM)освобождавайки се от ограниченията на традиционните модулни модели в стил „сглобяване“ и отбелязвайки пристигането на нова ера на истински мултимодален синтез.

За разлика от основните модулни модели като GPT-4V или Claude 3.5, NEO отхвърля конвенционалния тръбопровод „визионен енкодер + проекционен слой + езиков модел“ и вместо това изгражда обединен мултимодален „мозък“. Неговите пробиви произтичат от три родни технологии:

  • Вграждане на родни корекциикойто конструира визуални изображения с висока точност директно от пиксели;

IMG_3422.jpeg

  • Родно кодиране на 3D ротационна позициякойто разпределя специални честоти за пространствено-времева информация;

IMG_3423.jpeg

  • Естествено многоглаво вниманиепозволявайки съвместни модели на внимание в текст и визия – преодоляване на семантичната празнина между двата модалности от архитектурно ниво.

IMG_3424.jpeg

Оценките в реалния свят показват това NEO съвпада с топ модели като Qwen2-VL и InternVL3 при визуални задачи(включително AI2D и DocVQA), използвайки само 390 милиона двойки изображение-текст – само една десета от данните, използвани от сравними модели. На бенчмаркове като MMMU и MMBench, NEO превъзхожда други родни VLMs по обща способност. Неговите модели на параметри 2B–8B осигуряват изключителна рентабилност на изводите, което ги прави подходящи за мобилни устройства, роботи и други крайни сценарии.

SenseTime вече е отворил кода на 2B и 9B версиина NEO и планира да разшири архитектурата до разбиране на видео, 3D взаимодействие и др. Тази нова рамка не само въвежда нова парадигма за мултимодален AI, но също така ускорява преминаването на усъвършенствания AI от облака към крайните устройства, представлявайки значителен принос на китайски изследователи към глобалните иновации в архитектурата на ИИ.

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта

Scroll to Top