Cum să creați o API REST de învățare profundă cu Word2Vec și Flask

Abordările tradiționale de dezvoltare sunt dificil de întreținut atunci când se utilizează modele complexe de învățare a mașinilor în producție. Dezvoltarea pe un laptop sau o mașină locală poate fi lentă pentru a instrui modelul de învățare a mașinilor pentru ingineri de învățare profundă. Drept urmare, folosim în mod obișnuit mașini cloud cu hardware mai puternic pentru a antrena și rula modelele noastre de învățare a mașinilor. Aceasta este o practică bună deoarece extragem calcule complexe și, în schimb, facem solicitări AJAX după cum este necesar. În acest tutorial, vom pune la dispoziția altor servicii un model de învățare profundă pre-instruit, numit Word2Vec, construind o API REST de la început.

Cerințe preliminare

  • O instanță a serverului Ubuntu 16.04 cu cel puțin 4 GB RAM. Pentru testare și dezvoltare, puteți alege o instanță cu 4 GB RAM
  • Înțelegerea modului de utilizare a sistemului de operare Linux pentru a crea / naviga / edita foldere și fișiere
  • Un sudoutilizator

Ce sunt încorporarea cuvintelor?

Încorporarea de cuvinte este o dezvoltare recentă în procesarea limbajului natural și învățarea profundă, care a revoluționat ambele domenii din cauza progresului rapid. Încorporările de cuvinte sunt în esență vectori care corespund fiecărui cuvânt, astfel încât vectorii înseamnă cuvintele. Acest lucru poate fi demonstrat prin anumite fenomene, cum ar fi vectorul pentru king - queen = boy - girl. Vectorii Word sunt folosiți pentru a construi totul, de la motoarele de recomandare la chat-bots care înțeleg de fapt limba engleză.

Încorporarea cuvintelor nu este întâmplătoare; ele sunt generate prin antrenarea unei rețele neuronale. O implementare recentă recentă de încorporare a cuvintelor provine de la Google numit Word2Vec, care este instruit prin prezicerea cuvintelor care apar alături de alte cuvinte dintr-o limbă. De exemplu, pentru cuvânt "cat", rețeaua neuronală va prezice cuvintele "kitten"și "feline". Această intuiție a cuvintelor care apar aproape de celălalt ne permite să le plasăm în spațiul vectorial.

Cu toate acestea, în practică, avem tendința de a folosi modelele pre-instruite ale altor mari corporații, cum ar fi Google, pentru a prototip rapid și pentru a simplifica procesele de implementare. În acest tutorial vom descărca și vom folosi încorporarea de cuvinte pre-instruită Google Word2Vec. Putem face acest lucru rulând următoarea comandă din directorul nostru de lucru.

wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude

Instalarea pachetelor de flask și magnitudine

Modelul de încorporare a cuvântului pe care l-am descărcat este într-un .magnitudeformat. Acest format ne permite să interogăm modelul în mod eficient folosind SQL și, prin urmare, este formatul optim de încorporare pentru serverele de producție. Întrucât trebuie să putem citi .magnitudeformatul, vom instala pymagnitudepachetul. Vom instala, de asemenea, flaskpentru a servi mai târziu predicțiile de învățare profundă făcute de model.

pip3 install pymagnitude flask

O vom adăuga și la tracker-ul nostru de dependență cu următoarea comandă. Aceasta creează un fișier numit requirements.txtși salvează bibliotecile noastre Python, astfel încât să le putem reinstala ulterior.

pip3 freeze > requirements.txt

Interogarea modelului Word2Vec

Pentru început, vom crea un fișier care să se ocupe de deschiderea și interogarea încorporărilor de cuvinte.

touch model.py

În continuare, vom adăuga următoarele linii pentru model.pya importa Magnitude.

from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')

Ne putem juca cu pymagnitudepachetul și modelul de învățare profundă folosind querymetoda, oferind un argument pentru un cuvânt.

cat_vector = vectors.query('cat')
print(cat_vector)

Pentru nucleul API-ului nostru, vom defini o funcție pentru a returna diferența de sens între două cuvinte. Aceasta este coloana vertebrală pentru cele mai multe soluții de învățare profundă pentru lucruri precum motoarele de recomandare (adică afișarea de conținut cu cuvinte similare).

Ne putem juca cu această funcție folosind funcțiile similarityși most_similar .

print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))

Implementăm calculatorul de similaritate după cum urmează. Această metodă va fi apelată de API-ul Flask în secțiunea următoare. Rețineți că această funcție returnează o valoare reală între 0 și 1.

def similarity(word1, word2):
    return vectors.similarity(word1, word2)

Crearea unei API REST

Vom crea serverul nostru într-un fișier numit service.pycu următorul conținut. Importăm flaskși requestgestionăm capacitățile serverului și importăm similaritymotorul din modulul pe care l-am scris mai devreme.

from flask import Flask, request
from model import similarity

app = Flask(__name__)

@app.route("/", methods=['GET'])
def welcome():
    return "Welcome to our Machine Learning REST API!"

@app.route("/similarity", methods=['GET'])
def similarity_route():
    word1 = request.args.get("word1")
    word2 = request.args.get("word2")
    return str(similarity(word1, word2))

if __name__ == "__main__":
    app.run(port=8000, debug=True)

Serverul nostru este oase destul de goale, dar pot fi ușor extinse prin crearea mai multor rute folosind @app.routedecoratorul.

Efectuarea de apeluri API

Putem rula serverul nostru Flask rulând următoarele comenzi pentru activarea mediului nostru virtual, instalarea pachetelor noastre și rularea fișierului Python asociat.

source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py

Serverul nostru va fi disponibil la localhost:8000. Ne putem interoga baza de date localhost:8000/similarity?word1=cat&word2=dogși vizualiza răspunsul fie în browserul nostru, fie prin intermediul altui client AJAX.



Leave a Comment

O perspectivă asupra a 26 de tehnici de analiză a datelor mari: partea 1

O perspectivă asupra a 26 de tehnici de analiză a datelor mari: partea 1

O perspectivă asupra a 26 de tehnici de analiză a datelor mari: partea 1

6 lucruri extrem de nebunești despre Nintendo Switch

6 lucruri extrem de nebunești despre Nintendo Switch

Mulți dintre voi cunoașteți Switch care va fi lansat în martie 2017 și noile sale funcții. Pentru cei care nu știu, am pregătit o listă de funcții care fac din „Switch” un „gadget obligatoriu”.

Promisiuni tehnologice care sunt încă nelivrate

Promisiuni tehnologice care sunt încă nelivrate

Aștepți ca giganții tehnologiei să-și îndeplinească promisiunile? vezi ce a ramas nelivrat.

Funcționalitățile straturilor arhitecturii de referință pentru Big Data

Funcționalitățile straturilor arhitecturii de referință pentru Big Data

Citiți blogul pentru a cunoaște diferitele straturi din Arhitectura Big Data și funcționalitățile acestora în cel mai simplu mod.

Cum poate AI să ducă automatizarea proceselor la următorul nivel?

Cum poate AI să ducă automatizarea proceselor la următorul nivel?

Citiți asta pentru a afla cum devine populară inteligența artificială în rândul companiilor la scară mică și cum crește probabilitățile de a le face să crească și de a le oferi concurenților avantaje.

CAPTCHA: Cât timp poate rămâne o tehnică viabilă pentru distincția uman-AI?

CAPTCHA: Cât timp poate rămâne o tehnică viabilă pentru distincția uman-AI?

CAPTCHA a devenit destul de dificil de rezolvat pentru utilizatori în ultimii ani. Va fi capabil să rămână eficient în detectarea spam-ului și a botului în viitor?

Singularitatea tehnologică: un viitor îndepărtat al civilizației umane?

Singularitatea tehnologică: un viitor îndepărtat al civilizației umane?

Pe măsură ce Știința Evoluează într-un ritm rapid, preluând multe dintre eforturile noastre, crește și riscurile de a ne supune unei Singularități inexplicabile. Citiți, ce ar putea însemna singularitatea pentru noi.

Telemedicină și îngrijire medicală la distanță: viitorul este aici

Telemedicină și îngrijire medicală la distanță: viitorul este aici

Ce este telemedicina, îngrijirea medicală la distanță și impactul acesteia asupra generației viitoare? Este un loc bun sau nu în situația de pandemie? Citiți blogul pentru a găsi o vedere!

Te-ai întrebat vreodată cum câștigă hackerii bani?

Te-ai întrebat vreodată cum câștigă hackerii bani?

Poate ați auzit că hackerii câștigă mulți bani, dar v-ați întrebat vreodată cum câștigă acești bani? sa discutam.

Actualizarea suplimentului macOS Catalina 10.15.4 cauzează mai multe probleme decât rezolvă

Actualizarea suplimentului macOS Catalina 10.15.4 cauzează mai multe probleme decât rezolvă

Recent, Apple a lansat macOS Catalina 10.15.4 o actualizare suplimentară pentru a remedia problemele, dar se pare că actualizarea provoacă mai multe probleme care duc la blocarea mașinilor Mac. Citiți acest articol pentru a afla mai multe