Cómo crear una API REST de aprendizaje profundo con Word2Vec y Flask

Los enfoques tradicionales de desarrollo son difíciles de mantener cuando se utilizan modelos complejos de aprendizaje automático en la producción. El desarrollo en una computadora portátil o máquina local puede ser lento para capacitar el modelo de aprendizaje automático para ingenieros de aprendizaje profundo. Como resultado, generalmente utilizamos máquinas en la nube con hardware más potente para entrenar y ejecutar nuestros modelos de aprendizaje automático. Esta es una buena práctica ya que abstraemos la computación compleja y en su lugar hacemos solicitudes AJAX según sea necesario. En este tutorial, pondremos a disposición de otros servicios un modelo de aprendizaje profundo previamente entrenado llamado Word2Vec mediante la creación de una API REST desde cero.

Prerrequisitos

  • Una instancia de servidor Ubuntu 16.04 con al menos 4 GB de RAM. Para fines de prueba y desarrollo, puede elegir una instancia con 4 GB de RAM
  • Comprensión de cómo usar el sistema operativo Linux para crear / navegar / editar carpetas y archivos
  • Un sudousuario

¿Qué son las incrustaciones de palabras?

Las incrustaciones de palabras son un desarrollo reciente en el procesamiento del lenguaje natural y el aprendizaje profundo que ha revolucionado ambos campos debido al rápido progreso. Las incrustaciones de palabras son esencialmente vectores que corresponden cada uno a una sola palabra de modo que los vectores significan las palabras. Esto puede ser demostrado por ciertos fenómenos como el vector para king - queen = boy - girl. Los vectores de palabras se utilizan para construir todo, desde motores de recomendación hasta chat-bots que realmente entienden el idioma inglés.

Las incrustaciones de palabras no son aleatorias; se generan al entrenar una red neuronal. Una implementación reciente y poderosa de incrustación de palabras proviene de Google llamada Word2Vec, que se entrena prediciendo palabras que aparecen junto a otras palabras en un idioma. Por ejemplo, para la palabra "cat", la red neuronal predecirá las palabras "kitten"y "feline". Esta intuición de palabras que aparecen cerca una de la otra nos permite ubicarlas en el espacio vectorial.

Sin embargo, en la práctica, tendemos a usar los modelos previamente entrenados de otras grandes corporaciones como Google para crear prototipos rápidamente y simplificar los procesos de implementación. En este tutorial descargaremos y utilizaremos las incrustaciones de palabras pre-entrenadas de Word2Vec de Google. Podemos hacer esto ejecutando el siguiente comando en nuestro directorio de trabajo.

wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude

Instalación de los paquetes de frasco y magnitud

El modelo de incrustación de palabras que descargamos está en .magnitudeformato. Este formato nos permite consultar el modelo de manera eficiente utilizando SQL, y por lo tanto es el formato de incrustación óptimo para los servidores de producción. Como necesitamos poder leer el .magnitudeformato, instalaremos el pymagnitudepaquete. También lo instalaremos flaskpara luego servir las predicciones de aprendizaje profundo realizadas por el modelo.

pip3 install pymagnitude flask

También lo agregaremos a nuestro rastreador de dependencias con el siguiente comando. Esto crea un archivo llamado requirements.txty guarda nuestras bibliotecas de Python para que podamos reinstalarlas más adelante.

pip3 freeze > requirements.txt

Consultar el modelo de Word2Vec

Para comenzar, crearemos un archivo para manejar la apertura y la consulta de las incrustaciones de palabras.

touch model.py

A continuación, agregaremos las siguientes líneas model.pypara importar Magnitud.

from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')

Podemos jugar con el pymagnitudepaquete y el modelo de aprendizaje profundo utilizando el querymétodo, proporcionando un argumento para una palabra.

cat_vector = vectors.query('cat')
print(cat_vector)

Para el núcleo de nuestra API, definiremos una función para devolver la diferencia de significado entre dos palabras. Esta es la columna vertebral de la mayoría de las soluciones de aprendizaje profundo para cosas como motores de recomendación (es decir, mostrar contenido con palabras similares).

Podemos jugar con esta función usando las funciones similarityy most_similar .

print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))

Implementamos la calculadora de similitud de la siguiente manera. La Flask API llamará a este método en la siguiente sección. Tenga en cuenta que esta función devuelve un valor real entre 0 y 1.

def similarity(word1, word2):
    return vectors.similarity(word1, word2)

Crear una API REST

Crearemos nuestro servidor en un archivo service.pycon el siguiente contenido. Importamos flasky requestmanejamos las capacidades de nuestro servidor e importamos el similaritymotor desde el módulo que escribimos anteriormente.

from flask import Flask, request
from model import similarity

app = Flask(__name__)

@app.route("/", methods=['GET'])
def welcome():
    return "Welcome to our Machine Learning REST API!"

@app.route("/similarity", methods=['GET'])
def similarity_route():
    word1 = request.args.get("word1")
    word2 = request.args.get("word2")
    return str(similarity(word1, word2))

if __name__ == "__main__":
    app.run(port=8000, debug=True)

Nuestro servidor es bastante básico, pero puede ampliarse fácilmente creando más rutas con el @app.routedecorador.

Hacer llamadas a la API

Podemos ejecutar nuestro servidor Flask ejecutando los siguientes comandos para activar nuestro entorno virtual, instalar nuestros paquetes y ejecutar su archivo Python asociado.

source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py

Nuestro servidor estará disponible en localhost:8000. Podemos consultar nuestra base de datos localhost:8000/similarity?word1=cat&word2=dogy ver la respuesta en nuestro navegador o a través de otro cliente AJAX.



Leave a Comment

¿Puede la IA luchar con un número cada vez mayor de ataques de ransomware?

¿Puede la IA luchar con un número cada vez mayor de ataques de ransomware?

Los ataques de ransomware van en aumento, pero ¿puede la IA ayudar a lidiar con el último virus informático? ¿Es la IA la respuesta? Lea aquí, sepa que la IA es una bendición o una perdición

ReactOS: ¿Es este el futuro de Windows?

ReactOS: ¿Es este el futuro de Windows?

ReactOS, un sistema operativo de código abierto y gratuito, está aquí con la última versión. ¿Puede satisfacer las necesidades de los usuarios de Windows de hoy en día y acabar con Microsoft? Averigüemos más sobre este estilo antiguo, pero una experiencia de sistema operativo más nueva.

Manténgase conectado a través de la aplicación de escritorio WhatsApp 24 * 7

Manténgase conectado a través de la aplicación de escritorio WhatsApp 24 * 7

Whatsapp finalmente lanzó la aplicación de escritorio para usuarios de Mac y Windows. Ahora puede acceder a Whatsapp desde Windows o Mac fácilmente. Disponible para Windows 8+ y Mac OS 10.9+

¿Cómo puede la IA llevar la automatización de procesos al siguiente nivel?

¿Cómo puede la IA llevar la automatización de procesos al siguiente nivel?

Lea esto para saber cómo la Inteligencia Artificial se está volviendo popular entre las empresas de pequeña escala y cómo está aumentando las probabilidades de hacerlas crecer y dar ventaja a sus competidores.

La actualización complementaria de macOS Catalina 10.15.4 está causando más problemas que resolver

La actualización complementaria de macOS Catalina 10.15.4 está causando más problemas que resolver

Recientemente, Apple lanzó macOS Catalina 10.15.4, una actualización complementaria para solucionar problemas, pero parece que la actualización está causando más problemas que conducen al bloqueo de las máquinas Mac. Lee este artículo para obtener más información

13 Herramientas comerciales de extracción de datos de Big Data

13 Herramientas comerciales de extracción de datos de Big Data

13 Herramientas comerciales de extracción de datos de Big Data

¿Qué es un sistema de archivos de diario y cómo funciona?

¿Qué es un sistema de archivos de diario y cómo funciona?

Nuestra computadora almacena todos los datos de una manera organizada conocida como sistema de archivos de diario. Es un método eficiente que permite a la computadora buscar y mostrar archivos tan pronto como presiona buscar.

Singularidad tecnológica: ¿un futuro lejano de la civilización humana?

Singularidad tecnológica: ¿un futuro lejano de la civilización humana?

A medida que la ciencia evoluciona a un ritmo rápido, asumiendo muchos de nuestros esfuerzos, también aumentan los riesgos de someternos a una singularidad inexplicable. Lea, lo que la singularidad podría significar para nosotros.

Una mirada a 26 técnicas analíticas de Big Data: Parte 1

Una mirada a 26 técnicas analíticas de Big Data: Parte 1

Una mirada a 26 técnicas analíticas de Big Data: Parte 1

El impacto de la inteligencia artificial en la atención médica 2021

El impacto de la inteligencia artificial en la atención médica 2021

La IA en la salud ha dado grandes pasos desde las últimas décadas. Por tanto, el futuro de la IA en el sector sanitario sigue creciendo día a día.