Изучение 26 методов анализа больших данных: часть 1
Изучение 26 методов анализа больших данных: часть 1
Традиционные подходы к разработке сложно поддерживать при использовании сложных моделей машинного обучения в производстве. Разработка на ноутбуке или локальной машине может быть медленной, чтобы обучить модель машинного обучения для инженеров глубокого обучения. В результате мы обычно используем облачные машины с более мощным оборудованием для обучения и запуска моделей машинного обучения. Это хорошая практика, поскольку мы абстрагируем сложные вычисления и вместо этого выполняем запросы AJAX. В этом руководстве мы сделаем предварительно обученную модель глубокого обучения под названием Word2Vec доступной для других сервисов, создав REST API с нуля.
sudo
пользовательВложения слов - это недавняя разработка в области обработки естественного языка и глубокого обучения, которая произвела революцию в обеих областях благодаря быстрому прогрессу. Вложения слов - это, по сути, векторы, каждый из которых соответствует одному слову, так что векторы означают слова. Это может быть продемонстрировано некоторыми явлениями, такими как вектор для king - queen = boy - girl
. Векторы слов используются для построения всего: от движков рекомендаций до чат-ботов, которые действительно понимают английский язык.
Вложения слов не случайны; они генерируются путем обучения нейронной сети. Недавняя мощная реализация вложения слов пришла от Google по имени Word2Vec, который обучается прогнозированию слов, которые появляются рядом с другими словами в языке. Например, для слова "cat"
нейронная сеть будет предсказывать слова "kitten"
и "feline"
. Эта интуиция слов, появляющихся рядом друг с другом, позволяет нам разместить их в векторном пространстве.
Однако на практике мы склонны использовать предварительно обученные модели других крупных корпораций, таких как Google, для быстрого прототипирования и упрощения процессов развертывания. В этом уроке мы будем загружать и использовать предварительно обученные вложения Word в Google Word2Vec. Мы можем сделать это, выполнив следующую команду в нашем рабочем каталоге.
wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude
Загруженная нами модель встраивания слов имеет .magnitude
формат. Этот формат позволяет нам эффективно запрашивать модель с использованием SQL и поэтому является оптимальным форматом внедрения для производственных серверов. Поскольку мы должны иметь возможность прочитать .magnitude
формат, мы установим pymagnitude
пакет. Мы также установим, flask
чтобы позже служить предсказаниям глубокого обучения, сделанным моделью.
pip3 install pymagnitude flask
Мы также добавим его в наш трекер зависимостей следующей командой. Это создаст файл с именем requirements.txt
и сохранит наши библиотеки Python, чтобы мы могли переустановить их позже.
pip3 freeze > requirements.txt
Для начала мы создадим файл для обработки открытия и запроса встраивания слов.
touch model.py
Далее мы добавим следующие строки model.py
для импорта Magnitude.
from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')
Мы можем поиграть с pymagnitude
пакетом и моделью глубокого обучения, используя query
метод, предоставляющий аргумент для слова.
cat_vector = vectors.query('cat')
print(cat_vector)
Для ядра нашего API мы определим функцию, которая возвращает разницу в значении между двумя словами. Это основа для наиболее глубоких обучающих решений для таких вещей, как механизмы рекомендаций (т.е. показ контента с похожими словами).
Мы можем играть с этой функцией, используя similarity
и most_similar
функции.
print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))
Мы реализуем калькулятор подобия следующим образом. Этот метод будет вызван API Flask в следующем разделе. Обратите внимание, что эта функция возвращает реальное значение от 0 до 1.
def similarity(word1, word2):
return vectors.similarity(word1, word2)
Мы создадим наш сервер в файле service.py
со следующим содержимым. Мы импортируем flask
и request
обрабатываем возможности нашего сервера и импортируем similarity
движок из модуля, который мы написали ранее.
from flask import Flask, request
from model import similarity
app = Flask(__name__)
@app.route("/", methods=['GET'])
def welcome():
return "Welcome to our Machine Learning REST API!"
@app.route("/similarity", methods=['GET'])
def similarity_route():
word1 = request.args.get("word1")
word2 = request.args.get("word2")
return str(similarity(word1, word2))
if __name__ == "__main__":
app.run(port=8000, debug=True)
Наш сервер довольно прост, но его можно легко расширить, создав дополнительные маршруты с помощью @app.route
декоратора.
Мы можем запустить наш сервер Flask, выполнив следующие команды, чтобы активировать нашу виртуальную среду, установить наши пакеты и запустить связанный с ним файл Python.
source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py
Наш сервер будет доступен по адресу localhost:8000
. Мы можем запросить нашу базу данных localhost:8000/similarity?word1=cat&word2=dog
и просмотреть ответ либо в нашем браузере, либо через другой клиент AJAX.
Изучение 26 методов анализа больших данных: часть 1
Многие из вас знают Switch, который выйдет в марте 2017 года, и его новые функции. Для тех, кто не знает, мы подготовили список функций, которые делают «Switch» обязательным гаджетом.
Вы ждете, когда технологические гиганты выполнят свои обещания? проверить, что осталось недоставленным.
Прочтите блог, чтобы узнать о различных уровнях архитектуры больших данных и их функциях самым простым способом.
Прочтите это, чтобы узнать, как искусственный интеллект становится популярным среди небольших компаний и как он увеличивает вероятность их роста и дает преимущество перед конкурентами.
CAPTCHA стало довольно сложно решать пользователям за последние несколько лет. Сможет ли он оставаться эффективным в обнаружении спама и ботов в ближайшем будущем?
По мере того, как наука развивается быстрыми темпами, принимая на себя большую часть наших усилий, также возрастает риск подвергнуться необъяснимой сингулярности. Прочтите, что может значить для нас необычность.
Что такое телемедицина, дистанционное здравоохранение и их влияние на будущее поколение? Это хорошее место или нет в ситуации пандемии? Прочтите блог, чтобы узнать мнение!
Возможно, вы слышали, что хакеры зарабатывают много денег, но задумывались ли вы когда-нибудь о том, как они зарабатывают такие деньги? Давайте обсудим.
Недавно Apple выпустила macOS Catalina 10.15.4, дополнительное обновление для исправления проблем, но похоже, что это обновление вызывает больше проблем, приводящих к поломке компьютеров Mac. Прочтите эту статью, чтобы узнать больше