Първият по рода си пробив: GLM-Image, обучен изцяло на чипове, произведени в Китай, на върха на тенденцията за прегръщащи лица

На 14 януари Zhipu AI обяви изданието с отворен код на GLM-Image, модел за генериране на изображения от следващо поколение, разработен в сътрудничество с Huawei. Моделът беше обучен от край до край – от обработката на данни до окончателното обучение – на хардуера Ascend Atlas 800T A2, използвайки рамката MindSpore AI на Huawei, което го прави първият най-съвременен (SOTA) мултимодален модел, изцяло обучен на произведени в Китай чипове.

По-малко от 24 часа след пускането си с отворен код, GLM-Image се изкачи до номер 1 в класацията Hugging Face Trending, най-голямата в света AI общност с отворен код. Това също бележи първия път, когато китайски модел, обучен в страната, разчитащ изцяло на местен компютърен хардуер, достигна челна позиция на голяма международна платформа за изкуствен интелект.

Според Zhipu AI, крайната цел на проекта GLM-Image е пълна иновация. Моделът представлява изследването на екипа на GLM на ново поколение „когнитивни генеративни“ AI парадигми, илюстрирани от технологии като Nano Banana Pro.

От архитектурна гледна точка, GLM-Image се отклонява от често използвания подход на Latent Diffusion Model (LDM) при генериране на изображения с отворен код. Вместо това, той приема хибридна архитектура, комбинираща авторегресивно моделиране с дифузионен декодер. Въпреки че остава в общи линии в съответствие с основните решения, този дизайн демонстрира превъзходна производителност при задачи за генериране на знания.

От гледна точка на обучение и инфраструктура, GLM-Image постига пълно обучение и съвместимост с изводи на хардуера Ascend Atlas 800T A2 и рамката MindSpore. Изпълнението на обучението в реалния свят достига теоретичния таван на производителността на основния изчислителен хардуер, потвърждавайки осъществимостта на обучение на модели на ниво SOTA изцяло на местни AI изчислителни платформи.

По отношение на производителността на бенчмарка, GLM-Image се нарежда на първо място сред моделите с отворен код както на CVTG-2K (генериране на сложен визуален текст), така и на LongText-Bench (изобразяване на дълъг текст). Моделът демонстрира силни способности за следване на инструкции, прецизно генериране на текст и особена сила при изобразяване на китайски йероглифи, което го прави много подходящ за постери, презентации, образователни илюстрации и други визуални приложения, изискващи много знания.

Връзки с отворен код:

Източник: IT Home

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта

Like this:

Related Posts