Хотите создавать собственные генеративные приложения искусственного интеллекта? Вот список моделей ИИ, которые помогут вам начать работу.
Модели ИИ представляют собой архитектуры нейронных сетей, которые очень хорошо справляются с конкретными задачами. К ним относятся архитектуры сверточных нейронных сетей для классификации и сегментации изображений, генеративные предварительно обученные модели большого языка, диффузионные модели для задач генерации изображений и
В последнее время модели ИИ для генеративных приложений ИИ — изображений, речи, текста и многого другого — стали очень популярными. Это связано как с достижениями в исследованиях, так и с доступом к высокопроизводительным вычислениям.
От искусства искусственного интеллекта до создания персонализированного помощника по программированию — вы можете создавать целый ряд генеративных приложений искусственного интеллекта в соответствии с вашими интересами. Здесь мы перечисляем некоторые интересные модели ИИ, которые вы можете изучить, а также их ключевые возможности.
Давайте начнем!
ChatGPT
ChatGPT стал частью наших повседневных задач: от составления маршрута ваших предстоящих поездок до составления сопроводительных писем, соответствующих описанию должности. GPT-4 , его преемник, является еще более мощной моделью большого языка.
Это самая мощная система искусственного интеллекта OpenAI с лучшими возможностями рассуждения и производительностью, чем ChatGPT.
Вот технический разговор о том, как работает GPT-4 и как с его помощью можно создавать приложения.
Вы можете получить доступ к интерфейсу ChatGPT с помощью бесплатной учетной записи OpenAI . Однако для доступа к GPT-4 у вас должна быть подписка ChatGPT Plus.
Вот несколько приложений, которые можно создать с помощью этих больших языковых моделей:
- Пользовательские чат-боты
- Улучшение CRM-платформы
- Вопрос-ответ по индивидуальному корпусу
- Другие задачи, такие как обобщение и генерация текста.
Далее мы рассмотрим некоторые модели больших языков с открытым исходным кодом.
LLaMA
В феврале 2023 года Meta AI выпустила LLaMA, базовую модель большого языка с 65B параметрами. Впоследствии была выпущена LLama 2 со значительными улучшениями по сравнению с предыдущей версией. Вы можете получить доступ к следующему:
- Чат с ламами: доработанная Лама 2
- Code Llama: создан на основе Llama 2; обучен более чем 500 миллиардам токенов кода; поддерживает генерацию кода на всех самых популярных языках программирования
Вы можете загрузить и использовать модели Llama, запросив доступ . Ознакомьтесь с этим руководством, чтобы узнать, как использовать LLama 2 в ваших приложениях Python:
Falcon
Falcon — еще одна языковая модель с открытым исходным кодом, разработанная Институтом технологических инноваций (ОАЭ). Все модели в пакете Falcon LLM имеют открытый исходный код и доступны для открытого доступа. Таким образом, вы можете использовать их для создания приложений на базе LLM.
В настоящее время существует четыре размера модели: 1,3B, 7,5B, 40B и 180B. Чтобы работать лучше, чем в нескольких тестах, модель 180B была обучена на наборе данных из токенов 3,5T. Falcon LLM работает на одном уровне с другими ведущими LLM с открытым исходным кодом.
LLM с открытым исходным кодом Falcon 180B достигает производительности, близкой к GPT-4. Ознакомьтесь с этим руководством, в котором рассказывается о Falcon 180B, о том, как его использовать, о требованиях к оборудованию и о сравнении с GPT-4:
Stable Diffusion
Stable Diffusion — модель преобразования текста в изображение для создания изображений и других творческих приложений искусственного интеллекта. Его также можно использовать для масштабирования изображений и рисования.
Stable Diffusion XL , выпущенный в июле 2023 года, предлагает несколько улучшений, в том числе:
- создание описательных изображений из гораздо более коротких подсказок
- возможность генерировать вспомогательный текст внутри изображений
- Задачи по закрашиванию и перерисовке изображения
- взаимодействие с исходным изображением для создания вариантов
Если вы хотите узнать, как работают диффузионные модели — метод, лежащий в основе волшебства, — посетите бесплатный курс « Как работают диффузионные модели» от DeepLearning.AI.
DALL-E 2
DALL-E 2 от Open AI — еще одна популярная модель преобразования текста в изображение. Вы можете использовать его для создания реалистичных изображений и рисунков из текстового описания на естественном языке.
Его можно использовать для следующих задач:
- создание изображений из текстовых подсказок
- закрашивание и закрашивание изображения
- создание вариантов изображения
Доступ к DALL-E 2 можно получить через API OpenAI или веб-интерфейс лабораторий OpenAI .
Whisper
Whisper от Open AI — это модель распознавания речи, которую можно использовать для множества приложений, в том числе:
- языковая идентификация
- задачи распознавания речи , такие как транскрипция аудиофайлов
- перевод речи
Вот руководство о том, как преобразовать речь в текст с помощью OpenAI Whisper API:
Чтобы опробовать эту модель, вы можете установить шепот ( openai-whisper) с помощью pip и получить доступ к API из сценария Python для расшифровки аудиофайлов. Кроме того, вы можете использовать другие большие языковые модели для обобщения расшифровки и построения аудиофайла → конвейера сводки.
StableLM
StableLM — это пакет LLM с открытым исходным кодом от Stability AI. В настоящее время доступны параметры 3B и 7B. В последующие выпуски войдут более крупные модели с параметрами 15В – 65В.
Итак, если вы хотите поэкспериментировать с легкими LLM с открытым исходным кодом в своих приложениях, вы можете попробовать StableLM.
CLIP
CLIP означает « Предварительное обучение контрастному языку и изображению» . Это нейронная сеть, мультимодальная модель, обученная на большом наборе данных пар (текст, изображение). Модель использует данные естественного языка и пытается изучить — на основе описаний естественного языка — семантику изображений. Модель CLIP способна предсказать наиболее релевантный текст на основе изображения.
С помощью CLIP вы можете выполнять классификацию изображений с нуля — без дорогостоящего предварительного обучения и тонкой настройки. Кроме того, вы можете использовать возможности CLIP и векторных баз данных для создания интересных приложений в:
- поиск текста в изображении и изображения в изображении
- обратный поиск изображений
Segment Anything Model (SAM)
Сегментация изображения — это задача идентификации пикселей, принадлежащих определенному объекту внутри изображения. Компания Meta AI выпустила модель Segment Anything Model (SAM) , которую можно использовать для сегментации любого изображения и вырезания из него объектов.
Вы можете использовать подсказки, чтобы указать, что сегментировать в изображении. В настоящее время SAM поддерживает следующие подсказки: ограничивающие рамки, маски, а также точки переднего и заднего плана. Модель также обладает превосходными характеристиками генерализации при нулевом снимке на ранее невиданных изображениях. Поэтому никакого явного обучения не требуется.
Попробуйте модель SAM в своем браузере !
InternLM
InternLM — это языковая модель с открытым исходным кодом. Вы можете опробовать базовую модель 7B и модель чата с открытым исходным кодом. Модель поддерживает контекстное окно 8К. Кроме того, InternLM поддерживает интерпретатор кода и возможности вызова функций.
InternLM также доступен в transformers библиотеке HuggingFace. Вы можете использовать облегченную систему предварительной подготовки. Он также поддерживает создание и развертывание приложений с помощью LMDeploy . Таким образом, с помощью InternLM вы можете создавать комплексные генеративные приложения НЛП.
WaveGAN
WaveGAN — это модель генерации звука. Он помогает синтезировать необработанный звук из образцов реальных аудиоданных.
Вы можете обучать WaveGAN на наборе данных произвольных аудиофайлов и синтезировать звук без обширной предварительной обработки.
CycleGAN и Pix2Pix
До сих пор мы рассматривали модели преобразования речи в текст, текста в изображение и другие модели для различных задач обработки естественного языка. Но что, если вы хотите выполнить перевод изображения в изображение? Здесь вы можете использовать CycleGAN для изучения сопоставления исходного домена с целевым доменом для выполнения перевода изображения в изображение.
Например, если у вас есть изображение берега озера зимой, вы можете перевести то же изображение в летнее время. В изображении лошади вы можете заменить лошадь зеброй, сохранив тот же фон. CycleGAN хорошо подходит для таких задач.
Модель pix2pix можно использовать для перевода изображений в изображения; К ключевым возможностям модели относятся:
- реконструкция объектов по картам ребер и
- раскрашивание изображений
Реализации PyTorch CycleGAN и pix2pix можно найти на GitHub .
BioGPT
BioGPT от Microsoft — это модель-трансформер, которую можно использовать для приложений интеллектуального анализа биомедицинских данных и генерации текста. Он использует реализации модели «последовательность-последовательность», предоставляемые fairseq .
Fairseq от исследования Facebook (теперь Meta AI) — это набор инструментов, который обеспечивает реализацию моделей последовательностей для таких задач, как:
- языковое моделирование
- перевод
- обобщение
Доступны как предварительно обученные модели , так и точно настроенные контрольные точки модели. Вы можете загрузить модель либо по URL-адресу, либо из хаба HuggingFace.
Модели BioGPT также являются частью transformers библиотеки HuggingFace. Итак, если вы работаете в биомедицинской сфере, вы можете использовать BioGPT для создания специализированных приложений.
Подведение итогов
Надеюсь, вы нашли несколько полезных моделей, с помощью которых можно создавать генеративные приложения ИИ. Хотя этот список не является исчерпывающим, мы рассмотрели некоторые из наиболее популярных моделей, которые вы можете использовать для создания приложений для создания текста и аудио, транскрипции речи в текст, поиска изображений и многого другого.
Когда вы создаете приложения с использованием больших языковых моделей, вы должны знать о распространенных ошибках, таких как фактически неверная информация и галлюцинации. И вы можете столкнуться с ограничениями при точной настройке моделей, поскольку процесс тонкой настройки часто является ресурсоемким.
Итак, если вы разработчик, пришло время присоединиться к революции искусственного интеллекта и начать создавать интересные приложения искусственного интеллекта! Вы можете опробовать эти модели в Google Colab или других блокнотах для совместной работы с данными .