Как создать REST API для глубокого обучения с Word2Vec и Flask

Предпосылки
Что такое вложение слов?
Установка пакетов Flask и Magnitude
Запрос модели Word2Vec
Создание REST API
Выполнение вызовов API

Традиционные подходы к разработке сложно поддерживать при использовании сложных моделей машинного обучения в производстве. Разработка на ноутбуке или локальной машине может быть медленной, чтобы обучить модель машинного обучения для инженеров глубокого обучения. В результате мы обычно используем облачные машины с более мощным оборудованием для обучения и запуска моделей машинного обучения. Это хорошая практика, поскольку мы абстрагируем сложные вычисления и вместо этого выполняем запросы AJAX. В этом руководстве мы сделаем предварительно обученную модель глубокого обучения под названием Word2Vec доступной для других сервисов, создав REST API с нуля.

Предпосылки

Экземпляр сервера Ubuntu 16.04 с ОЗУ не менее 4 ГБ. Для тестирования и разработки вы можете выбрать экземпляр с 4 ГБ ОЗУ
Понимание того, как использовать операционную систему Linux для создания / навигации / редактирования папок и файлов
sudoпользователь

Что такое вложение слов?

Вложения слов - это недавняя разработка в области обработки естественного языка и глубокого обучения, которая произвела революцию в обеих областях благодаря быстрому прогрессу. Вложения слов - это, по сути, векторы, каждый из которых соответствует одному слову, так что векторы означают слова. Это может быть продемонстрировано некоторыми явлениями, такими как вектор для king - queen = boy - girl. Векторы слов используются для построения всего: от движков рекомендаций до чат-ботов, которые действительно понимают английский язык.

Вложения слов не случайны; они генерируются путем обучения нейронной сети. Недавняя мощная реализация вложения слов пришла от Google по имени Word2Vec, который обучается прогнозированию слов, которые появляются рядом с другими словами в языке. Например, для слова "cat"нейронная сеть будет предсказывать слова "kitten"и "feline". Эта интуиция слов, появляющихся рядом друг с другом, позволяет нам разместить их в векторном пространстве.

Однако на практике мы склонны использовать предварительно обученные модели других крупных корпораций, таких как Google, для быстрого прототипирования и упрощения процессов развертывания. В этом уроке мы будем загружать и использовать предварительно обученные вложения Word в Google Word2Vec. Мы можем сделать это, выполнив следующую команду в нашем рабочем каталоге.

wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude

Установка пакетов Flask и Magnitude

Загруженная нами модель встраивания слов имеет .magnitudeформат. Этот формат позволяет нам эффективно запрашивать модель с использованием SQL и поэтому является оптимальным форматом внедрения для производственных серверов. Поскольку мы должны иметь возможность прочитать .magnitudeформат, мы установим pymagnitudeпакет. Мы также установим, flaskчтобы позже служить предсказаниям глубокого обучения, сделанным моделью.

pip3 install pymagnitude flask

Мы также добавим его в наш трекер зависимостей следующей командой. Это создаст файл с именем requirements.txtи сохранит наши библиотеки Python, чтобы мы могли переустановить их позже.

pip3 freeze > requirements.txt

Запрос модели Word2Vec

Для начала мы создадим файл для обработки открытия и запроса встраивания слов.

touch model.py

Далее мы добавим следующие строки model.pyдля импорта Magnitude.

from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')

Мы можем поиграть с pymagnitudeпакетом и моделью глубокого обучения, используя queryметод, предоставляющий аргумент для слова.

cat_vector = vectors.query('cat')
print(cat_vector)

Для ядра нашего API мы определим функцию, которая возвращает разницу в значении между двумя словами. Это основа для наиболее глубоких обучающих решений для таких вещей, как механизмы рекомендаций (т.е. показ контента с похожими словами).

Мы можем играть с этой функцией, используя similarityи most_similar функции.

print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))

Мы реализуем калькулятор подобия следующим образом. Этот метод будет вызван API Flask в следующем разделе. Обратите внимание, что эта функция возвращает реальное значение от 0 до 1.

def similarity(word1, word2):
    return vectors.similarity(word1, word2)

Создание REST API

Мы создадим наш сервер в файле service.pyсо следующим содержимым. Мы импортируем flaskи requestобрабатываем возможности нашего сервера и импортируем similarityдвижок из модуля, который мы написали ранее.

from flask import Flask, request
from model import similarity

app = Flask(__name__)

@app.route("/", methods=['GET'])
def welcome():
    return "Welcome to our Machine Learning REST API!"

@app.route("/similarity", methods=['GET'])
def similarity_route():
    word1 = request.args.get("word1")
    word2 = request.args.get("word2")
    return str(similarity(word1, word2))

if __name__ == "__main__":
    app.run(port=8000, debug=True)

Наш сервер довольно прост, но его можно легко расширить, создав дополнительные маршруты с помощью @app.routeдекоратора.

Выполнение вызовов API

Мы можем запустить наш сервер Flask, выполнив следующие команды, чтобы активировать нашу виртуальную среду, установить наши пакеты и запустить связанный с ним файл Python.

source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py

Наш сервер будет доступен по адресу localhost:8000. Мы можем запросить нашу базу данных localhost:8000/similarity?word1=cat&word2=dogи просмотреть ответ либо в нашем браузере, либо через другой клиент AJAX.

Оставить комментарий

Комментарий *

Имя *

Сайт

Изучение 26 методов анализа больших данных: часть 1

Функциональные возможности уровней эталонной архитектуры больших данных

Прочтите блог, чтобы узнать о различных уровнях архитектуры больших данных и их функциях самым простым способом.

6 невероятных фактов о Nintendo Switch

Многие из вас знают Switch, который выйдет в марте 2017 года, и его новые функции. Для тех, кто не знает, мы подготовили список функций, которые делают «Switch» обязательным гаджетом.

Технические обещания, которые все еще не выполнены

Вы ждете, когда технологические гиганты выполнят свои обещания? проверить, что осталось недоставленным.

Как ИИ может вывести автоматизацию процессов на новый уровень?

Прочтите это, чтобы узнать, как искусственный интеллект становится популярным среди небольших компаний и как он увеличивает вероятность их роста и дает преимущество перед конкурентами.

Технологическая сингулярность: далекое будущее человеческой цивилизации?

По мере того, как наука развивается быстрыми темпами, принимая на себя большую часть наших усилий, также возрастает риск подвергнуться необъяснимой сингулярности. Прочтите, что может значить для нас необычность.

CAPTCHA: как долго она может оставаться жизнеспособным методом различения между человеком и ИИ?

CAPTCHA стало довольно сложно решать пользователям за последние несколько лет. Сможет ли он оставаться эффективным в обнаружении спама и ботов в ближайшем будущем?

Телемедицина и удаленное здравоохранение: будущее уже здесь

Что такое телемедицина, дистанционное здравоохранение и их влияние на будущее поколение? Это хорошее место или нет в ситуации пандемии? Прочтите блог, чтобы узнать мнение!

Вы когда-нибудь задумывались, как хакеры зарабатывают деньги?

Возможно, вы слышали, что хакеры зарабатывают много денег, но задумывались ли вы когда-нибудь о том, как они зарабатывают такие деньги? Давайте обсудим.

Обновление дополнения к macOS Catalina 10.15.4 вызывает больше проблем, чем решает

Недавно Apple выпустила macOS Catalina 10.15.4, дополнительное обновление для исправления проблем, но похоже, что это обновление вызывает больше проблем, приводящих к поломке компьютеров Mac. Прочтите эту статью, чтобы узнать больше