Cum să creați o API REST de învățare profundă cu Word2Vec și Flask

Abordările tradiționale de dezvoltare sunt dificil de întreținut atunci când se utilizează modele complexe de învățare a mașinilor în producție. Dezvoltarea pe un laptop sau o mașină locală poate fi lentă pentru a instrui modelul de învățare a mașinilor pentru ingineri de învățare profundă. Drept urmare, folosim în mod obișnuit mașini cloud cu hardware mai puternic pentru a antrena și rula modelele noastre de învățare a mașinilor. Aceasta este o practică bună deoarece extragem calcule complexe și, în schimb, facem solicitări AJAX după cum este necesar. În acest tutorial, vom pune la dispoziția altor servicii un model de învățare profundă pre-instruit, numit Word2Vec, construind o API REST de la început.

Cerințe preliminare

  • O instanță a serverului Ubuntu 16.04 cu cel puțin 4 GB RAM. Pentru testare și dezvoltare, puteți alege o instanță cu 4 GB RAM
  • Înțelegerea modului de utilizare a sistemului de operare Linux pentru a crea / naviga / edita foldere și fișiere
  • Un sudoutilizator

Ce sunt încorporarea cuvintelor?

Încorporarea de cuvinte este o dezvoltare recentă în procesarea limbajului natural și învățarea profundă, care a revoluționat ambele domenii din cauza progresului rapid. Încorporările de cuvinte sunt în esență vectori care corespund fiecărui cuvânt, astfel încât vectorii înseamnă cuvintele. Acest lucru poate fi demonstrat prin anumite fenomene, cum ar fi vectorul pentru king - queen = boy - girl. Vectorii Word sunt folosiți pentru a construi totul, de la motoarele de recomandare la chat-bots care înțeleg de fapt limba engleză.

Încorporarea cuvintelor nu este întâmplătoare; ele sunt generate prin antrenarea unei rețele neuronale. O implementare recentă recentă de încorporare a cuvintelor provine de la Google numit Word2Vec, care este instruit prin prezicerea cuvintelor care apar alături de alte cuvinte dintr-o limbă. De exemplu, pentru cuvânt "cat", rețeaua neuronală va prezice cuvintele "kitten"și "feline". Această intuiție a cuvintelor care apar aproape de celălalt ne permite să le plasăm în spațiul vectorial.

Cu toate acestea, în practică, avem tendința de a folosi modelele pre-instruite ale altor mari corporații, cum ar fi Google, pentru a prototip rapid și pentru a simplifica procesele de implementare. În acest tutorial vom descărca și vom folosi încorporarea de cuvinte pre-instruită Google Word2Vec. Putem face acest lucru rulând următoarea comandă din directorul nostru de lucru.

wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude

Instalarea pachetelor de flask și magnitudine

Modelul de încorporare a cuvântului pe care l-am descărcat este într-un .magnitudeformat. Acest format ne permite să interogăm modelul în mod eficient folosind SQL și, prin urmare, este formatul optim de încorporare pentru serverele de producție. Întrucât trebuie să putem citi .magnitudeformatul, vom instala pymagnitudepachetul. Vom instala, de asemenea, flaskpentru a servi mai târziu predicțiile de învățare profundă făcute de model.

pip3 install pymagnitude flask

O vom adăuga și la tracker-ul nostru de dependență cu următoarea comandă. Aceasta creează un fișier numit requirements.txtși salvează bibliotecile noastre Python, astfel încât să le putem reinstala ulterior.

pip3 freeze > requirements.txt

Interogarea modelului Word2Vec

Pentru început, vom crea un fișier care să se ocupe de deschiderea și interogarea încorporărilor de cuvinte.

touch model.py

În continuare, vom adăuga următoarele linii pentru model.pya importa Magnitude.

from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')

Ne putem juca cu pymagnitudepachetul și modelul de învățare profundă folosind querymetoda, oferind un argument pentru un cuvânt.

cat_vector = vectors.query('cat')
print(cat_vector)

Pentru nucleul API-ului nostru, vom defini o funcție pentru a returna diferența de sens între două cuvinte. Aceasta este coloana vertebrală pentru cele mai multe soluții de învățare profundă pentru lucruri precum motoarele de recomandare (adică afișarea de conținut cu cuvinte similare).

Ne putem juca cu această funcție folosind funcțiile similarityși most_similar .

print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))

Implementăm calculatorul de similaritate după cum urmează. Această metodă va fi apelată de API-ul Flask în secțiunea următoare. Rețineți că această funcție returnează o valoare reală între 0 și 1.

def similarity(word1, word2):
    return vectors.similarity(word1, word2)

Crearea unei API REST

Vom crea serverul nostru într-un fișier numit service.pycu următorul conținut. Importăm flaskși requestgestionăm capacitățile serverului și importăm similaritymotorul din modulul pe care l-am scris mai devreme.

from flask import Flask, request
from model import similarity

app = Flask(__name__)

@app.route("/", methods=['GET'])
def welcome():
    return "Welcome to our Machine Learning REST API!"

@app.route("/similarity", methods=['GET'])
def similarity_route():
    word1 = request.args.get("word1")
    word2 = request.args.get("word2")
    return str(similarity(word1, word2))

if __name__ == "__main__":
    app.run(port=8000, debug=True)

Serverul nostru este oase destul de goale, dar pot fi ușor extinse prin crearea mai multor rute folosind @app.routedecoratorul.

Efectuarea de apeluri API

Putem rula serverul nostru Flask rulând următoarele comenzi pentru activarea mediului nostru virtual, instalarea pachetelor noastre și rularea fișierului Python asociat.

source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py

Serverul nostru va fi disponibil la localhost:8000. Ne putem interoga baza de date localhost:8000/similarity?word1=cat&word2=dogși vizualiza răspunsul fie în browserul nostru, fie prin intermediul altui client AJAX.



Leave a Comment

Cum se instalează Anchor CMS pe un VPS Fedora 26 LAMP

Cum se instalează Anchor CMS pe un VPS Fedora 26 LAMP

Folosind un sistem diferit? Anchor CMS este un motor de blog de sistem de gestionare a conținutului (CMS) super-simplu și extrem de ușor, gratuit și deschis

Configurare partajare NFS pe Debian

Configurare partajare NFS pe Debian

NFS este un sistem de fișiere bazat pe rețea care permite computerelor să acceseze fișiere într-o rețea de calculatoare. Acest ghid explică modul în care puteți expune folderele peste NF

Configurați un server TeamTalk pe Linux

Configurați un server TeamTalk pe Linux

TeamTalk este un sistem de conferințe care permite utilizatorilor să aibă conversații audio / video de înaltă calitate, chat de text, transfer de fișiere și partajare ecrane. Este

Folosind cheia SSH pentru a vă conecta la utilizatori non-root

Folosind cheia SSH pentru a vă conecta la utilizatori non-root

Vultr oferă o caracteristică care vă permite să preinstalați cheile SSH la crearea unei noi instanțe. Acest lucru vă permite să accesați utilizatorul root al serverelor, totuși

Cum se instalează Ranger Terminal File Manager pe Linux

Cum se instalează Ranger Terminal File Manager pe Linux

Ranger este un manager de fișiere bazat pe linia de comandă cu legături de cheie VI. Oferă o interfață de blestem minimalistă și frumoasă, cu o vedere asupra ierarhiei de directoare

Cum se instalează Redmine pe Ubuntu 16.04

Cum se instalează Redmine pe Ubuntu 16.04

Folosind un sistem diferit? Redmine este un instrument gratuit și deschis de gestionare a proiectelor bazat pe web. Este scris în Ruby on Rails și acceptă mai multe baze de date

Instalare RethinkDB Cluster pe CentOS 7

Instalare RethinkDB Cluster pe CentOS 7

Introducere RethinkDB este o bază de date NoSQL care stochează date sub formă de documente JSON. Are un limbaj de interogare super intuitiv și are funcții disponibile în mod obișnuit

Cum se construiește Brotli din sursă pe Ubuntu 18.04 LTS

Cum se construiește Brotli din sursă pe Ubuntu 18.04 LTS

Folosind un sistem diferit? Brotli este o nouă metodă de compresie cu un raport de compresie mai bun decât GZIP. Codul sursă este găzduit public pe acest Githu

Configurarea conturilor de utilizator numai SFTP pe CentOS 7

Configurarea conturilor de utilizator numai SFTP pe CentOS 7

În anumite ocazii, este posibil ca un administrator de sistem să aibă nevoie să creeze un cont de utilizator și să restricționeze accesul acestora la gestionarea propriilor fișiere prin sFTP, dar nu b

Utilizarea vizualizărilor MySQL pe Debian 7

Utilizarea vizualizărilor MySQL pe Debian 7

Introducere MySQL are o caracteristică excelentă cunoscută sub numele de vizualizări. Vizualizările sunt interogări stocate. Gândiți-vă la ele ca la un alias pentru o întrebare altfel lungă. În acest ghid,

Cum se instalează Nginx 1.14 pe Arch Linux

Cum se instalează Nginx 1.14 pe Arch Linux

Cerințe preliminare Un server Vultr care funcționează actualizat Arch Linux (vezi acest articol.) Acces Sudo. Comenzile care trebuie rulate ca root sunt prefixate de #. Th

Dezactivați sau restricționați conectarea rădăcină prin SSH pe Linux

Dezactivați sau restricționați conectarea rădăcină prin SSH pe Linux

Permiterea autentificării root pe SSH este de obicei considerată o practică slabă de securitate în întreaga industrie tehnologică. În schimb, puteți efectua administrativ sensibil

Cum se instalează Seafile Server pe Ubuntu 16.10

Cum se instalează Seafile Server pe Ubuntu 16.10

Folosind un sistem diferit? Seafile (versiunea comunității) este o soluție gratuită și deschisă de sincronizare și partajare a fișierelor, care este similară cu ownCloud. De-a lungul spiritului

Cum să compilați Nginx din sursă pe CentOS 7

Cum să compilați Nginx din sursă pe CentOS 7

Folosind un sistem diferit? NGINX poate fi utilizat ca server HTTP / HTTPS, server proxy invers, server proxy de poștă, echilibrator de sarcină, terminator TLS sau cachin

Cum se instalează Thelia 2.3 pe Debian 9

Cum se instalează Thelia 2.3 pe Debian 9

Folosind un sistem diferit? Thelia este un instrument open source pentru crearea de site-uri web pentru e-business și gestionarea conținutului online scris în PHP. Codul sursă Thelia i

Cum se instalează DokuWiki pe Ubuntu 16.04 LTS

Cum se instalează DokuWiki pe Ubuntu 16.04 LTS

Folosind un sistem diferit? DokuWiki este un program wiki open source scris în PHP care nu necesită o bază de date. Stochează date în fișiere text. DokuWik

Configurarea unui chroot pe Debian

Configurarea unui chroot pe Debian

Acest articol vă va învăța cum să configurați o închisoare chroot pe Debian. Presupun că utilizați Debian 7.x. Dacă executați Debian 6 sau 8, acest lucru poate funcționa, bine

Cum se instalează PiVPN pe Debian

Cum se instalează PiVPN pe Debian

Introducere Un mod ușor de a configura un server VPN pe Debian este cu PiVPN. PiVPN este un instalator și un pachet pentru OpenVPN. Creează comenzi simple pentru tine

Cum se instalează Chamilo 1.11.8 pe CentOS 7

Cum se instalează Chamilo 1.11.8 pe CentOS 7

Folosind un sistem diferit? Chamilo este un sistem gratuit și deschis de management al învățării (LMS), care este utilizat pe scară largă pentru educația online și colaborarea în echipă

Instalați Nginx, Wordpress și permiteți criptarea în minute cu EasyEngine pe Debian 8 sau Ubuntu 16.04

Instalați Nginx, Wordpress și permiteți criptarea în minute cu EasyEngine pe Debian 8 sau Ubuntu 16.04

EasyEngine (ee) este un instrument Python care vă permite să gestionați ușor și automat site-urile Wordpress de pe Nginx. Folosind EasyEngine, nu va trebui să dați

O perspectivă asupra a 26 de tehnici de analiză a datelor mari: partea 1

O perspectivă asupra a 26 de tehnici de analiză a datelor mari: partea 1

O perspectivă asupra a 26 de tehnici de analiză a datelor mari: partea 1

6 lucruri extrem de nebunești despre Nintendo Switch

6 lucruri extrem de nebunești despre Nintendo Switch

Mulți dintre voi cunoașteți Switch care va fi lansat în martie 2017 și noile sale funcții. Pentru cei care nu știu, am pregătit o listă de funcții care fac din „Switch” un „gadget obligatoriu”.

Promisiuni tehnologice care sunt încă nelivrate

Promisiuni tehnologice care sunt încă nelivrate

Aștepți ca giganții tehnologiei să-și îndeplinească promisiunile? vezi ce a ramas nelivrat.

Funcționalitățile straturilor arhitecturii de referință pentru Big Data

Funcționalitățile straturilor arhitecturii de referință pentru Big Data

Citiți blogul pentru a cunoaște diferitele straturi din Arhitectura Big Data și funcționalitățile acestora în cel mai simplu mod.

Cum poate AI să ducă automatizarea proceselor la următorul nivel?

Cum poate AI să ducă automatizarea proceselor la următorul nivel?

Citiți asta pentru a afla cum devine populară inteligența artificială în rândul companiilor la scară mică și cum crește probabilitățile de a le face să crească și de a le oferi concurenților avantaje.

CAPTCHA: Cât timp poate rămâne o tehnică viabilă pentru distincția uman-AI?

CAPTCHA: Cât timp poate rămâne o tehnică viabilă pentru distincția uman-AI?

CAPTCHA a devenit destul de dificil de rezolvat pentru utilizatori în ultimii ani. Va fi capabil să rămână eficient în detectarea spam-ului și a botului în viitor?

Singularitatea tehnologică: un viitor îndepărtat al civilizației umane?

Singularitatea tehnologică: un viitor îndepărtat al civilizației umane?

Pe măsură ce Știința Evoluează într-un ritm rapid, preluând multe dintre eforturile noastre, crește și riscurile de a ne supune unei Singularități inexplicabile. Citiți, ce ar putea însemna singularitatea pentru noi.

Telemedicină și îngrijire medicală la distanță: viitorul este aici

Telemedicină și îngrijire medicală la distanță: viitorul este aici

Ce este telemedicina, îngrijirea medicală la distanță și impactul acesteia asupra generației viitoare? Este un loc bun sau nu în situația de pandemie? Citiți blogul pentru a găsi o vedere!

Te-ai întrebat vreodată cum câștigă hackerii bani?

Te-ai întrebat vreodată cum câștigă hackerii bani?

Poate ați auzit că hackerii câștigă mulți bani, dar v-ați întrebat vreodată cum câștigă acești bani? sa discutam.

Actualizarea suplimentului macOS Catalina 10.15.4 cauzează mai multe probleme decât rezolvă

Actualizarea suplimentului macOS Catalina 10.15.4 cauzează mai multe probleme decât rezolvă

Recent, Apple a lansat macOS Catalina 10.15.4 o actualizare suplimentară pentru a remedia problemele, dar se pare că actualizarea provoacă mai multe probleme care duc la blocarea mașinilor Mac. Citiți acest articol pentru a afla mai multe