Традиционные подходы к разработке сложно поддерживать при использовании сложных моделей машинного обучения в производстве. Разработка на ноутбуке или локальной машине может быть медленной, чтобы обучить модель машинного обучения для инженеров глубокого обучения. В результате мы обычно используем облачные машины с более мощным оборудованием для обучения и запуска моделей машинного обучения. Это хорошая практика, поскольку мы абстрагируем сложные вычисления и вместо этого выполняем запросы AJAX. В этом руководстве мы сделаем предварительно обученную модель глубокого обучения под названием Word2Vec доступной для других сервисов, создав REST API с нуля.
Предпосылки
- Экземпляр сервера Ubuntu 16.04 с ОЗУ не менее 4 ГБ. Для тестирования и разработки вы можете выбрать экземпляр с 4 ГБ ОЗУ
- Понимание того, как использовать операционную систему Linux для создания / навигации / редактирования папок и файлов
sudo
пользователь
Что такое вложение слов?
Вложения слов - это недавняя разработка в области обработки естественного языка и глубокого обучения, которая произвела революцию в обеих областях благодаря быстрому прогрессу. Вложения слов - это, по сути, векторы, каждый из которых соответствует одному слову, так что векторы означают слова. Это может быть продемонстрировано некоторыми явлениями, такими как вектор для king - queen = boy - girl
. Векторы слов используются для построения всего: от движков рекомендаций до чат-ботов, которые действительно понимают английский язык.
Вложения слов не случайны; они генерируются путем обучения нейронной сети. Недавняя мощная реализация вложения слов пришла от Google по имени Word2Vec, который обучается прогнозированию слов, которые появляются рядом с другими словами в языке. Например, для слова "cat"
нейронная сеть будет предсказывать слова "kitten"
и "feline"
. Эта интуиция слов, появляющихся рядом друг с другом, позволяет нам разместить их в векторном пространстве.
Однако на практике мы склонны использовать предварительно обученные модели других крупных корпораций, таких как Google, для быстрого прототипирования и упрощения процессов развертывания. В этом уроке мы будем загружать и использовать предварительно обученные вложения Word в Google Word2Vec. Мы можем сделать это, выполнив следующую команду в нашем рабочем каталоге.
wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude
Установка пакетов Flask и Magnitude
Загруженная нами модель встраивания слов имеет .magnitude
формат. Этот формат позволяет нам эффективно запрашивать модель с использованием SQL и поэтому является оптимальным форматом внедрения для производственных серверов. Поскольку мы должны иметь возможность прочитать .magnitude
формат, мы установим pymagnitude
пакет. Мы также установим, flask
чтобы позже служить предсказаниям глубокого обучения, сделанным моделью.
pip3 install pymagnitude flask
Мы также добавим его в наш трекер зависимостей следующей командой. Это создаст файл с именем requirements.txt
и сохранит наши библиотеки Python, чтобы мы могли переустановить их позже.
pip3 freeze > requirements.txt
Запрос модели Word2Vec
Для начала мы создадим файл для обработки открытия и запроса встраивания слов.
touch model.py
Далее мы добавим следующие строки model.py
для импорта Magnitude.
from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')
Мы можем поиграть с pymagnitude
пакетом и моделью глубокого обучения, используя query
метод, предоставляющий аргумент для слова.
cat_vector = vectors.query('cat')
print(cat_vector)
Для ядра нашего API мы определим функцию, которая возвращает разницу в значении между двумя словами. Это основа для наиболее глубоких обучающих решений для таких вещей, как механизмы рекомендаций (т.е. показ контента с похожими словами).
Мы можем играть с этой функцией, используя similarity
и most_similar
функции.
print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))
Мы реализуем калькулятор подобия следующим образом. Этот метод будет вызван API Flask в следующем разделе. Обратите внимание, что эта функция возвращает реальное значение от 0 до 1.
def similarity(word1, word2):
return vectors.similarity(word1, word2)
Создание REST API
Мы создадим наш сервер в файле service.py
со следующим содержимым. Мы импортируем flask
и request
обрабатываем возможности нашего сервера и импортируем similarity
движок из модуля, который мы написали ранее.
from flask import Flask, request
from model import similarity
app = Flask(__name__)
@app.route("/", methods=['GET'])
def welcome():
return "Welcome to our Machine Learning REST API!"
@app.route("/similarity", methods=['GET'])
def similarity_route():
word1 = request.args.get("word1")
word2 = request.args.get("word2")
return str(similarity(word1, word2))
if __name__ == "__main__":
app.run(port=8000, debug=True)
Наш сервер довольно прост, но его можно легко расширить, создав дополнительные маршруты с помощью @app.route
декоратора.
Выполнение вызовов API
Мы можем запустить наш сервер Flask, выполнив следующие команды, чтобы активировать нашу виртуальную среду, установить наши пакеты и запустить связанный с ним файл Python.
source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py
Наш сервер будет доступен по адресу localhost:8000
. Мы можем запросить нашу базу данных localhost:8000/similarity?word1=cat&word2=dog
и просмотреть ответ либо в нашем браузере, либо через другой клиент AJAX.