As abordagens tradicionais de desenvolvimento são difíceis de manter ao usar modelos complexos de aprendizado de máquina na produção. O desenvolvimento em um laptop ou máquina local pode ser lento para treinar o modelo de aprendizado de máquina para engenheiros de aprendizado profundo. Como resultado, normalmente usamos máquinas em nuvem com hardware mais poderoso para treinar e executar nossos modelos de aprendizado de máquina. Essa é uma boa prática, pois abstraímos a computação complexa e, em vez disso, fazemos solicitações AJAX conforme necessário. Neste tutorial, disponibilizaremos um modelo de aprendizado profundo pré-treinado chamado Word2Vec para outros serviços, criando uma API REST desde o início.
Pré-requisitos
	- Uma instância do servidor Ubuntu 16.04 com pelo menos 4 GB de RAM. Para fins de teste e desenvolvimento, você pode escolher uma instância com 4 GB de RAM
- Compreensão de como usar o sistema operacional Linux para criar / navegar / editar pastas e arquivos
- Um sudousuário
O que são casamentos com palavras?
A incorporação de palavras é um desenvolvimento recente no processamento de linguagem natural e aprendizado profundo que revolucionou os dois campos devido ao rápido progresso. Incorporações de palavras são essencialmente vetores que correspondem a uma única palavra, de modo que os vetores significam as palavras. Isso pode ser demonstrado por certos fenômenos, como o vetor para king - queen = boy - girl. Os vetores de palavras são usados para criar tudo, de mecanismos de recomendação a bots de bate-papo que realmente entendem o idioma inglês.
Os casamentos de palavras não são aleatórios; eles são gerados treinando uma rede neural. Uma implementação recente e poderosa de incorporação de palavras vem do Google, chamada Word2Vec, que é treinada prevendo palavras que aparecem ao lado de outras palavras em um idioma. Por exemplo, para a palavra "cat", a rede neural irá prever as palavras "kitten"e "feline". Essa intuição de palavras que aparecem próximas umas das outras nos permite colocá-las no espaço vetorial.
No entanto, na prática, tendemos a usar os modelos pré-treinados de outras grandes empresas, como o Google, para prototipar rapidamente e simplificar os processos de implantação. Neste tutorial, faremos o download e usaremos as combinações pré-treinadas de palavras do Word2Vec do Google. Podemos fazer isso executando o seguinte comando em nosso diretório de trabalho.
wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude
Instalando os pacotes Flask e Magnitude
O modelo de incorporação de palavras que baixamos está em um .magnitudeformato. Esse formato nos permite consultar o modelo com eficiência usando SQL e, portanto, é o formato de incorporação ideal para servidores de produção. Como precisamos ler o .magnitudeformato, instalaremos o pymagnitudepacote. Também instalaremos flaskpara servir posteriormente as previsões de aprendizado profundo feitas pelo modelo.
pip3 install pymagnitude flask
Também o adicionaremos ao nosso rastreador de dependência com o seguinte comando. Isso cria um arquivo nomeado requirements.txte salva nossas bibliotecas Python para que possamos reinstalá-las posteriormente.
pip3 freeze > requirements.txt
Consultando o modelo Word2Vec
Para começar, criaremos um arquivo para lidar com a abertura e a consulta da palavra incorporação.
touch model.py
Em seguida, adicionaremos as seguintes linhas model.pypara importar o Magnitude.
from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')
Podemos brincar com o pymagnitudepacote e o modelo de aprendizado profundo usando o querymétodo, fornecendo um argumento para uma palavra.
cat_vector = vectors.query('cat')
print(cat_vector)
Para o núcleo da nossa API, definiremos uma função para retornar a diferença de significado entre duas palavras. Essa é a espinha dorsal das soluções de aprendizado mais profundo para coisas como mecanismos de recomendação (ou seja, exibir conteúdo com palavras semelhantes).
Podemos brincar com essa função usando as funções similaritye most_similar .
print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))
Implementamos a calculadora de similaridade da seguinte maneira. Este método será chamado pela API do Flask na próxima seção. Observe que essa função retorna um valor real entre 0 e 1.
def similarity(word1, word2):
    return vectors.similarity(word1, word2)
Criando uma API REST
Criaremos nosso servidor em um arquivo nomeado service.pycom o seguinte conteúdo. Importamos flaske requestmanipulamos os recursos do servidor e importamos o similaritymecanismo do módulo que escrevemos anteriormente.
from flask import Flask, request
from model import similarity
app = Flask(__name__)
@app.route("/", methods=['GET'])
def welcome():
    return "Welcome to our Machine Learning REST API!"
@app.route("/similarity", methods=['GET'])
def similarity_route():
    word1 = request.args.get("word1")
    word2 = request.args.get("word2")
    return str(similarity(word1, word2))
if __name__ == "__main__":
    app.run(port=8000, debug=True)
Nosso servidor é bastante simples, mas pode ser facilmente estendido criando mais rotas usando o @app.routedecorador.
Fazendo chamadas de API
Podemos executar nosso servidor Flask executando os seguintes comandos para ativar nosso ambiente virtual, instalar nossos pacotes e executar seu arquivo Python associado.
source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py
Nosso servidor estará disponível em localhost:8000. Podemos consultar nosso banco de dados em localhost:8000/similarity?word1=cat&word2=doge visualizar a resposta em nosso navegador ou através de outro cliente AJAX.