O perspectivă asupra a 26 de tehnici de analiză a datelor mari: partea 1
O perspectivă asupra a 26 de tehnici de analiză a datelor mari: partea 1
Abordările tradiționale de dezvoltare sunt dificil de întreținut atunci când se utilizează modele complexe de învățare a mașinilor în producție. Dezvoltarea pe un laptop sau o mașină locală poate fi lentă pentru a instrui modelul de învățare a mașinilor pentru ingineri de învățare profundă. Drept urmare, folosim în mod obișnuit mașini cloud cu hardware mai puternic pentru a antrena și rula modelele noastre de învățare a mașinilor. Aceasta este o practică bună deoarece extragem calcule complexe și, în schimb, facem solicitări AJAX după cum este necesar. În acest tutorial, vom pune la dispoziția altor servicii un model de învățare profundă pre-instruit, numit Word2Vec, construind o API REST de la început.
sudo
utilizatorÎncorporarea de cuvinte este o dezvoltare recentă în procesarea limbajului natural și învățarea profundă, care a revoluționat ambele domenii din cauza progresului rapid. Încorporările de cuvinte sunt în esență vectori care corespund fiecărui cuvânt, astfel încât vectorii înseamnă cuvintele. Acest lucru poate fi demonstrat prin anumite fenomene, cum ar fi vectorul pentru king - queen = boy - girl
. Vectorii Word sunt folosiți pentru a construi totul, de la motoarele de recomandare la chat-bots care înțeleg de fapt limba engleză.
Încorporarea cuvintelor nu este întâmplătoare; ele sunt generate prin antrenarea unei rețele neuronale. O implementare recentă recentă de încorporare a cuvintelor provine de la Google numit Word2Vec, care este instruit prin prezicerea cuvintelor care apar alături de alte cuvinte dintr-o limbă. De exemplu, pentru cuvânt "cat"
, rețeaua neuronală va prezice cuvintele "kitten"
și "feline"
. Această intuiție a cuvintelor care apar aproape de celălalt ne permite să le plasăm în spațiul vectorial.
Cu toate acestea, în practică, avem tendința de a folosi modelele pre-instruite ale altor mari corporații, cum ar fi Google, pentru a prototip rapid și pentru a simplifica procesele de implementare. În acest tutorial vom descărca și vom folosi încorporarea de cuvinte pre-instruită Google Word2Vec. Putem face acest lucru rulând următoarea comandă din directorul nostru de lucru.
wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude
Modelul de încorporare a cuvântului pe care l-am descărcat este într-un .magnitude
format. Acest format ne permite să interogăm modelul în mod eficient folosind SQL și, prin urmare, este formatul optim de încorporare pentru serverele de producție. Întrucât trebuie să putem citi .magnitude
formatul, vom instala pymagnitude
pachetul. Vom instala, de asemenea, flask
pentru a servi mai târziu predicțiile de învățare profundă făcute de model.
pip3 install pymagnitude flask
O vom adăuga și la tracker-ul nostru de dependență cu următoarea comandă. Aceasta creează un fișier numit requirements.txt
și salvează bibliotecile noastre Python, astfel încât să le putem reinstala ulterior.
pip3 freeze > requirements.txt
Pentru început, vom crea un fișier care să se ocupe de deschiderea și interogarea încorporărilor de cuvinte.
touch model.py
În continuare, vom adăuga următoarele linii pentru model.py
a importa Magnitude.
from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')
Ne putem juca cu pymagnitude
pachetul și modelul de învățare profundă folosind query
metoda, oferind un argument pentru un cuvânt.
cat_vector = vectors.query('cat')
print(cat_vector)
Pentru nucleul API-ului nostru, vom defini o funcție pentru a returna diferența de sens între două cuvinte. Aceasta este coloana vertebrală pentru cele mai multe soluții de învățare profundă pentru lucruri precum motoarele de recomandare (adică afișarea de conținut cu cuvinte similare).
Ne putem juca cu această funcție folosind funcțiile similarity
și most_similar
.
print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))
Implementăm calculatorul de similaritate după cum urmează. Această metodă va fi apelată de API-ul Flask în secțiunea următoare. Rețineți că această funcție returnează o valoare reală între 0 și 1.
def similarity(word1, word2):
return vectors.similarity(word1, word2)
Vom crea serverul nostru într-un fișier numit service.py
cu următorul conținut. Importăm flask
și request
gestionăm capacitățile serverului și importăm similarity
motorul din modulul pe care l-am scris mai devreme.
from flask import Flask, request
from model import similarity
app = Flask(__name__)
@app.route("/", methods=['GET'])
def welcome():
return "Welcome to our Machine Learning REST API!"
@app.route("/similarity", methods=['GET'])
def similarity_route():
word1 = request.args.get("word1")
word2 = request.args.get("word2")
return str(similarity(word1, word2))
if __name__ == "__main__":
app.run(port=8000, debug=True)
Serverul nostru este oase destul de goale, dar pot fi ușor extinse prin crearea mai multor rute folosind @app.route
decoratorul.
Putem rula serverul nostru Flask rulând următoarele comenzi pentru activarea mediului nostru virtual, instalarea pachetelor noastre și rularea fișierului Python asociat.
source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py
Serverul nostru va fi disponibil la localhost:8000
. Ne putem interoga baza de date localhost:8000/similarity?word1=cat&word2=dog
și vizualiza răspunsul fie în browserul nostru, fie prin intermediul altui client AJAX.
O perspectivă asupra a 26 de tehnici de analiză a datelor mari: partea 1
Mulți dintre voi cunoașteți Switch care va fi lansat în martie 2017 și noile sale funcții. Pentru cei care nu știu, am pregătit o listă de funcții care fac din „Switch” un „gadget obligatoriu”.
Aștepți ca giganții tehnologiei să-și îndeplinească promisiunile? vezi ce a ramas nelivrat.
Citiți blogul pentru a cunoaște diferitele straturi din Arhitectura Big Data și funcționalitățile acestora în cel mai simplu mod.
Citiți asta pentru a afla cum devine populară inteligența artificială în rândul companiilor la scară mică și cum crește probabilitățile de a le face să crească și de a le oferi concurenților avantaje.
CAPTCHA a devenit destul de dificil de rezolvat pentru utilizatori în ultimii ani. Va fi capabil să rămână eficient în detectarea spam-ului și a botului în viitor?
Pe măsură ce Știința Evoluează într-un ritm rapid, preluând multe dintre eforturile noastre, crește și riscurile de a ne supune unei Singularități inexplicabile. Citiți, ce ar putea însemna singularitatea pentru noi.
Ce este telemedicina, îngrijirea medicală la distanță și impactul acesteia asupra generației viitoare? Este un loc bun sau nu în situația de pandemie? Citiți blogul pentru a găsi o vedere!
Poate ați auzit că hackerii câștigă mulți bani, dar v-ați întrebat vreodată cum câștigă acești bani? sa discutam.
Recent, Apple a lansat macOS Catalina 10.15.4 o actualizare suplimentară pentru a remedia problemele, dar se pare că actualizarea provoacă mai multe probleme care duc la blocarea mașinilor Mac. Citiți acest articol pentru a afla mai multe