Как создать REST API для глубокого обучения с Word2Vec и Flask

Традиционные подходы к разработке сложно поддерживать при использовании сложных моделей машинного обучения в производстве. Разработка на ноутбуке или локальной машине может быть медленной, чтобы обучить модель машинного обучения для инженеров глубокого обучения. В результате мы обычно используем облачные машины с более мощным оборудованием для обучения и запуска моделей машинного обучения. Это хорошая практика, поскольку мы абстрагируем сложные вычисления и вместо этого выполняем запросы AJAX. В этом руководстве мы сделаем предварительно обученную модель глубокого обучения под названием Word2Vec доступной для других сервисов, создав REST API с нуля.

Предпосылки

  • Экземпляр сервера Ubuntu 16.04 с ОЗУ не менее 4 ГБ. Для тестирования и разработки вы можете выбрать экземпляр с 4 ГБ ОЗУ
  • Понимание того, как использовать операционную систему Linux для создания / навигации / редактирования папок и файлов
  • sudoпользователь

Что такое вложение слов?

Вложения слов - это недавняя разработка в области обработки естественного языка и глубокого обучения, которая произвела революцию в обеих областях благодаря быстрому прогрессу. Вложения слов - это, по сути, векторы, каждый из которых соответствует одному слову, так что векторы означают слова. Это может быть продемонстрировано некоторыми явлениями, такими как вектор для king - queen = boy - girl. Векторы слов используются для построения всего: от движков рекомендаций до чат-ботов, которые действительно понимают английский язык.

Вложения слов не случайны; они генерируются путем обучения нейронной сети. Недавняя мощная реализация вложения слов пришла от Google по имени Word2Vec, который обучается прогнозированию слов, которые появляются рядом с другими словами в языке. Например, для слова "cat"нейронная сеть будет предсказывать слова "kitten"и "feline". Эта интуиция слов, появляющихся рядом друг с другом, позволяет нам разместить их в векторном пространстве.

Однако на практике мы склонны использовать предварительно обученные модели других крупных корпораций, таких как Google, для быстрого прототипирования и упрощения процессов развертывания. В этом уроке мы будем загружать и использовать предварительно обученные вложения Word в Google Word2Vec. Мы можем сделать это, выполнив следующую команду в нашем рабочем каталоге.

wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude

Установка пакетов Flask и Magnitude

Загруженная нами модель встраивания слов имеет .magnitudeформат. Этот формат позволяет нам эффективно запрашивать модель с использованием SQL и поэтому является оптимальным форматом внедрения для производственных серверов. Поскольку мы должны иметь возможность прочитать .magnitudeформат, мы установим pymagnitudeпакет. Мы также установим, flaskчтобы позже служить предсказаниям глубокого обучения, сделанным моделью.

pip3 install pymagnitude flask

Мы также добавим его в наш трекер зависимостей следующей командой. Это создаст файл с именем requirements.txtи сохранит наши библиотеки Python, чтобы мы могли переустановить их позже.

pip3 freeze > requirements.txt

Запрос модели Word2Vec

Для начала мы создадим файл для обработки открытия и запроса встраивания слов.

touch model.py

Далее мы добавим следующие строки model.pyдля импорта Magnitude.

from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')

Мы можем поиграть с pymagnitudeпакетом и моделью глубокого обучения, используя queryметод, предоставляющий аргумент для слова.

cat_vector = vectors.query('cat')
print(cat_vector)

Для ядра нашего API мы определим функцию, которая возвращает разницу в значении между двумя словами. Это основа для наиболее глубоких обучающих решений для таких вещей, как механизмы рекомендаций (т.е. показ контента с похожими словами).

Мы можем играть с этой функцией, используя similarityи most_similar функции.

print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))

Мы реализуем калькулятор подобия следующим образом. Этот метод будет вызван API Flask в следующем разделе. Обратите внимание, что эта функция возвращает реальное значение от 0 до 1.

def similarity(word1, word2):
    return vectors.similarity(word1, word2)

Создание REST API

Мы создадим наш сервер в файле service.pyсо следующим содержимым. Мы импортируем flaskи requestобрабатываем возможности нашего сервера и импортируем similarityдвижок из модуля, который мы написали ранее.

from flask import Flask, request
from model import similarity

app = Flask(__name__)

@app.route("/", methods=['GET'])
def welcome():
    return "Welcome to our Machine Learning REST API!"

@app.route("/similarity", methods=['GET'])
def similarity_route():
    word1 = request.args.get("word1")
    word2 = request.args.get("word2")
    return str(similarity(word1, word2))

if __name__ == "__main__":
    app.run(port=8000, debug=True)

Наш сервер довольно прост, но его можно легко расширить, создав дополнительные маршруты с помощью @app.routeдекоратора.

Выполнение вызовов API

Мы можем запустить наш сервер Flask, выполнив следующие команды, чтобы активировать нашу виртуальную среду, установить наши пакеты и запустить связанный с ним файл Python.

source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py

Наш сервер будет доступен по адресу localhost:8000. Мы можем запросить нашу базу данных localhost:8000/similarity?word1=cat&word2=dogи просмотреть ответ либо в нашем браузере, либо через другой клиент AJAX.



Leave a Comment

Как установить платформу интернет-магазина LiteCart в Ubuntu 16.04

Как установить платформу интернет-магазина LiteCart в Ubuntu 16.04

LiteCart является бесплатной платформой для покупок с открытым исходным кодом, написанной на PHP, jQuery и HTML 5. Это простой, легкий и простой в использовании софтвар для электронной коммерции.

Как установить Anchor CMS на CentOS 7 LAMP VPS

Как установить Anchor CMS на CentOS 7 LAMP VPS

Используете другую систему? Anchor CMS - это сверхпростая и чрезвычайно легкая бесплатная система управления контентом (CMS) с открытым исходным кодом.

Настройка NFS Share на Debian

Настройка NFS Share на Debian

NFS - это сетевая файловая система, которая позволяет компьютерам получать доступ к файлам через компьютерную сеть. Это руководство объясняет, как вы можете выставлять папки через NF

Как установить Matomo Analytics на Fedora 28

Как установить Matomo Analytics на Fedora 28

Используете другую систему? Matomo (ранее Piwik) - это аналитическая платформа с открытым исходным кодом, открытая альтернатива Google Analytics. Источник Matomo размещен o

Как установить PHP 7.3 на веб-сервере Arch Linux

Как установить PHP 7.3 на веб-сервере Arch Linux

Предварительные условия Сервер Vultr, работающий до последней версии Arch Linux (см. Эту статью). Работающий веб-сервер с доступом Apache или Nginx Sudo. Команды требуют

Настройте сервер TeamTalk в Linux

Настройте сервер TeamTalk в Linux

TeamTalk - это система конференц-связи, которая позволяет пользователям вести высококачественные аудио / видео-беседы, текстовый чат, передавать файлы и обмениваться экранами. Это я

Как установить Backdrop CMS 1.8.0 на CentOS 7 LAMP VPS

Как установить Backdrop CMS 1.8.0 на CentOS 7 LAMP VPS

Используете другую систему? Backdrop CMS 1.8.0 - это простая и гибкая, удобная для мобильных устройств, бесплатная система с открытым исходным кодом (CMS), которая позволяет нам

Как получить доступ к Vultr VPS

Как получить доступ к Vultr VPS

Vultr предоставляет несколько различных способов доступа к вашему VPS для настройки, установки и использования. Учетные данные для доступа Учетные данные для доступа к вашему VPS по умолчанию

Как установить Ranger Terminal File Manager в Linux

Как установить Ranger Terminal File Manager в Linux

Ranger - это файловый менеджер на основе командной строки с привязками клавиш VI. Он предоставляет минималистичный и приятный интерфейс curses с видом на иерархию каталогов.

Как использовать HTTPS на веб-сервере Arch Linux

Как использовать HTTPS на веб-сервере Arch Linux

Предварительные условия Сервер Vultr, работающий до последней версии Arch Linux (см. Эту статью). Работающий веб-сервер, доступ к Apache или Nginx Sudo Требуются команды t

Настройте Magento на CentOS 6

Настройте Magento на CentOS 6

Если вы хотите разместить свой инвентарь в Интернете или просто магазин технических аксессуаров, Magento - отличное решение для электронной коммерции в Интернете. Это статья

Как собрать Brotli из исходного кода на Ubuntu 18.04 LTS

Как собрать Brotli из исходного кода на Ubuntu 18.04 LTS

Используете другую систему? Brotli - это новый метод сжатия с лучшей степенью сжатия, чем GZIP. Его исходный код размещен на этом Githu

Использование MySQL Views в Debian 7

Использование MySQL Views в Debian 7

Введение В MySQL есть замечательная функция, известная как views. Представления хранятся запросы. Думайте о них как о псевдониме для длинного запроса. В этом руководстве

Как установить AirSonic на CentOS 7

Как установить AirSonic на CentOS 7

Используете другую систему? AirSonic - это бесплатный и потоковый сервер с открытым исходным кодом. В этом уроке я проведу вас через процесс развертывания

Как установить OrangeScrum на CentOS 7

Как установить OrangeScrum на CentOS 7

OrangeScrum - это бесплатный инструмент управления проектами с открытым исходным кодом, который широко используется в малом и среднем бизнесе. В этой статье я проведу вас через

Отключить или ограничить root-вход через SSH в Linux

Отключить или ограничить root-вход через SSH в Linux

Разрешение входа в систему через SSH обычно считается плохой практикой безопасности во всей индустрии технологий. Вместо этого вы можете выполнять чувствительные административные

Как установить Subrion 4.1 CMS на Ubuntu 16.04 LAMP VPS

Как установить Subrion 4.1 CMS на Ubuntu 16.04 LAMP VPS

Используете другую систему? Subrion 4.1 CMS - это мощная и гибкая система управления контентом с открытым исходным кодом (CMS), которая обеспечивает интуитивно понятный и понятный контент.

Как установить Vtiger CRM с открытым исходным кодом на CentOS 7

Как установить Vtiger CRM с открытым исходным кодом на CentOS 7

Vtiger CRM - это популярное приложение для управления взаимоотношениями с клиентами, которое может помочь предприятиям увеличить продажи, обеспечить обслуживание клиентов и увеличить прибыль. я

Как установить DokuWiki на Ubuntu 16.04 LTS

Как установить DokuWiki на Ubuntu 16.04 LTS

Используете другую систему? DokuWiki - это вики-программа с открытым исходным кодом, написанная на PHP, для которой не требуется база данных. Хранит данные в текстовых файлах. DokuWik

Создание внешнего интерфейса HTML 5 RDP / SSH с использованием гуакамоле в Ubuntu 16.04 LTS

Создание внешнего интерфейса HTML 5 RDP / SSH с использованием гуакамоле в Ubuntu 16.04 LTS

Введение Цель этого руководства - избавиться от общедоступных соединений SSH и общедоступных RDP. Поместив все это за очень удобный клиент HTML5

Изучение 26 методов анализа больших данных: часть 1

Изучение 26 методов анализа больших данных: часть 1

Изучение 26 методов анализа больших данных: часть 1

6 невероятных фактов о Nintendo Switch

6 невероятных фактов о Nintendo Switch

Многие из вас знают Switch, который выйдет в марте 2017 года, и его новые функции. Для тех, кто не знает, мы подготовили список функций, которые делают «Switch» обязательным гаджетом.

Технические обещания, которые все еще не выполнены

Технические обещания, которые все еще не выполнены

Вы ждете, когда технологические гиганты выполнят свои обещания? проверить, что осталось недоставленным.

Функциональные возможности уровней эталонной архитектуры больших данных

Функциональные возможности уровней эталонной архитектуры больших данных

Прочтите блог, чтобы узнать о различных уровнях архитектуры больших данных и их функциях самым простым способом.

Как ИИ может вывести автоматизацию процессов на новый уровень?

Как ИИ может вывести автоматизацию процессов на новый уровень?

Прочтите это, чтобы узнать, как искусственный интеллект становится популярным среди небольших компаний и как он увеличивает вероятность их роста и дает преимущество перед конкурентами.

CAPTCHA: как долго она может оставаться жизнеспособным методом различения между человеком и ИИ?

CAPTCHA: как долго она может оставаться жизнеспособным методом различения между человеком и ИИ?

CAPTCHA стало довольно сложно решать пользователям за последние несколько лет. Сможет ли он оставаться эффективным в обнаружении спама и ботов в ближайшем будущем?

Технологическая сингулярность: далекое будущее человеческой цивилизации?

Технологическая сингулярность: далекое будущее человеческой цивилизации?

По мере того, как наука развивается быстрыми темпами, принимая на себя большую часть наших усилий, также возрастает риск подвергнуться необъяснимой сингулярности. Прочтите, что может значить для нас необычность.

Телемедицина и удаленное здравоохранение: будущее уже здесь

Телемедицина и удаленное здравоохранение: будущее уже здесь

Что такое телемедицина, дистанционное здравоохранение и их влияние на будущее поколение? Это хорошее место или нет в ситуации пандемии? Прочтите блог, чтобы узнать мнение!

Вы когда-нибудь задумывались, как хакеры зарабатывают деньги?

Вы когда-нибудь задумывались, как хакеры зарабатывают деньги?

Возможно, вы слышали, что хакеры зарабатывают много денег, но задумывались ли вы когда-нибудь о том, как они зарабатывают такие деньги? Давайте обсудим.

Обновление дополнения к macOS Catalina 10.15.4 вызывает больше проблем, чем решает

Обновление дополнения к macOS Catalina 10.15.4 вызывает больше проблем, чем решает

Недавно Apple выпустила macOS Catalina 10.15.4, дополнительное обновление для исправления проблем, но похоже, что это обновление вызывает больше проблем, приводящих к поломке компьютеров Mac. Прочтите эту статью, чтобы узнать больше