Los enfoques tradicionales de desarrollo son difíciles de mantener cuando se utilizan modelos complejos de aprendizaje automático en la producción. El desarrollo en una computadora portátil o máquina local puede ser lento para capacitar el modelo de aprendizaje automático para ingenieros de aprendizaje profundo. Como resultado, generalmente utilizamos máquinas en la nube con hardware más potente para entrenar y ejecutar nuestros modelos de aprendizaje automático. Esta es una buena práctica ya que abstraemos la computación compleja y en su lugar hacemos solicitudes AJAX según sea necesario. En este tutorial, pondremos a disposición de otros servicios un modelo de aprendizaje profundo previamente entrenado llamado Word2Vec mediante la creación de una API REST desde cero.
Prerrequisitos
- Una instancia de servidor Ubuntu 16.04 con al menos 4 GB de RAM. Para fines de prueba y desarrollo, puede elegir una instancia con 4 GB de RAM
- Comprensión de cómo usar el sistema operativo Linux para crear / navegar / editar carpetas y archivos
- Un
sudo
usuario
¿Qué son las incrustaciones de palabras?
Las incrustaciones de palabras son un desarrollo reciente en el procesamiento del lenguaje natural y el aprendizaje profundo que ha revolucionado ambos campos debido al rápido progreso. Las incrustaciones de palabras son esencialmente vectores que corresponden cada uno a una sola palabra de modo que los vectores significan las palabras. Esto puede ser demostrado por ciertos fenómenos como el vector para king - queen = boy - girl
. Los vectores de palabras se utilizan para construir todo, desde motores de recomendación hasta chat-bots que realmente entienden el idioma inglés.
Las incrustaciones de palabras no son aleatorias; se generan al entrenar una red neuronal. Una implementación reciente y poderosa de incrustación de palabras proviene de Google llamada Word2Vec, que se entrena prediciendo palabras que aparecen junto a otras palabras en un idioma. Por ejemplo, para la palabra "cat"
, la red neuronal predecirá las palabras "kitten"
y "feline"
. Esta intuición de palabras que aparecen cerca una de la otra nos permite ubicarlas en el espacio vectorial.
Sin embargo, en la práctica, tendemos a usar los modelos previamente entrenados de otras grandes corporaciones como Google para crear prototipos rápidamente y simplificar los procesos de implementación. En este tutorial descargaremos y utilizaremos las incrustaciones de palabras pre-entrenadas de Word2Vec de Google. Podemos hacer esto ejecutando el siguiente comando en nuestro directorio de trabajo.
wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude
Instalación de los paquetes de frasco y magnitud
El modelo de incrustación de palabras que descargamos está en .magnitude
formato. Este formato nos permite consultar el modelo de manera eficiente utilizando SQL, y por lo tanto es el formato de incrustación óptimo para los servidores de producción. Como necesitamos poder leer el .magnitude
formato, instalaremos el pymagnitude
paquete. También lo instalaremos flask
para luego servir las predicciones de aprendizaje profundo realizadas por el modelo.
pip3 install pymagnitude flask
También lo agregaremos a nuestro rastreador de dependencias con el siguiente comando. Esto crea un archivo llamado requirements.txt
y guarda nuestras bibliotecas de Python para que podamos reinstalarlas más adelante.
pip3 freeze > requirements.txt
Consultar el modelo de Word2Vec
Para comenzar, crearemos un archivo para manejar la apertura y la consulta de las incrustaciones de palabras.
touch model.py
A continuación, agregaremos las siguientes líneas model.py
para importar Magnitud.
from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')
Podemos jugar con el pymagnitude
paquete y el modelo de aprendizaje profundo utilizando el query
método, proporcionando un argumento para una palabra.
cat_vector = vectors.query('cat')
print(cat_vector)
Para el núcleo de nuestra API, definiremos una función para devolver la diferencia de significado entre dos palabras. Esta es la columna vertebral de la mayoría de las soluciones de aprendizaje profundo para cosas como motores de recomendación (es decir, mostrar contenido con palabras similares).
Podemos jugar con esta función usando las funciones similarity
y most_similar
.
print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))
Implementamos la calculadora de similitud de la siguiente manera. La Flask API llamará a este método en la siguiente sección. Tenga en cuenta que esta función devuelve un valor real entre 0 y 1.
def similarity(word1, word2):
return vectors.similarity(word1, word2)
Crear una API REST
Crearemos nuestro servidor en un archivo service.py
con el siguiente contenido. Importamos flask
y request
manejamos las capacidades de nuestro servidor e importamos el similarity
motor desde el módulo que escribimos anteriormente.
from flask import Flask, request
from model import similarity
app = Flask(__name__)
@app.route("/", methods=['GET'])
def welcome():
return "Welcome to our Machine Learning REST API!"
@app.route("/similarity", methods=['GET'])
def similarity_route():
word1 = request.args.get("word1")
word2 = request.args.get("word2")
return str(similarity(word1, word2))
if __name__ == "__main__":
app.run(port=8000, debug=True)
Nuestro servidor es bastante básico, pero puede ampliarse fácilmente creando más rutas con el @app.route
decorador.
Hacer llamadas a la API
Podemos ejecutar nuestro servidor Flask ejecutando los siguientes comandos para activar nuestro entorno virtual, instalar nuestros paquetes y ejecutar su archivo Python asociado.
source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py
Nuestro servidor estará disponible en localhost:8000
. Podemos consultar nuestra base de datos localhost:8000/similarity?word1=cat&word2=dog
y ver la respuesta en nuestro navegador o a través de otro cliente AJAX.