Cara Membuat REST API Pembelajaran Jauh Dengan Word2Vec dan Flask

Pendekatan tradisional untuk pengembangan sulit dipertahankan ketika menggunakan model pembelajaran mesin yang kompleks dalam produksi. Pengembangan pada laptop atau mesin lokal bisa lambat untuk melatih model pembelajaran mesin untuk insinyur pembelajaran yang mendalam. Sebagai hasilnya, kami biasanya menggunakan mesin cloud dengan perangkat keras yang lebih kuat untuk melatih dan menjalankan model pembelajaran mesin kami. Ini adalah praktik yang baik karena kami abstrak perhitungan kompleks dan bukannya membuat permintaan AJAX yang diperlukan. Dalam tutorial ini, kita akan membuat model pembelajaran dalam pra-terlatih bernama Word2Vec tersedia untuk layanan lain dengan membangun REST API dari bawah ke atas.

Prasyarat

  • Contoh server Ubuntu 16.04 dengan setidaknya 4GB RAM. Untuk tujuan pengujian dan pengembangan, Anda dapat memilih sebuah instance dengan RAM 4GB
  • Memahami cara menggunakan sistem operasi Linux untuk membuat / menavigasi / mengedit folder dan file
  • Seorang sudopengguna

Apa itu Embeddings Kata?

Word embeddings adalah perkembangan terbaru dalam pemrosesan bahasa alami dan pembelajaran mendalam yang telah merevolusi kedua bidang karena kemajuan yang cepat. Embeddings kata pada dasarnya adalah vektor yang masing-masing sesuai dengan satu kata sehingga vektor berarti kata-kata. Ini dapat ditunjukkan oleh fenomena tertentu seperti vektor untuk king - queen = boy - girl. Vektor kata digunakan untuk membangun semuanya dari mesin rekomendasi hingga chat-bot yang benar-benar mengerti bahasa Inggris.

Perkawinan kata tidak acak; mereka dihasilkan dengan melatih jaringan saraf. Implementasi penyematan kata yang kuat baru-baru ini berasal dari Google bernama Word2Vec yang dilatih dengan memprediksi kata-kata yang muncul di sebelah kata-kata lain dalam suatu bahasa. Misalnya, untuk kata "cat", jaringan saraf akan memprediksi kata "kitten"dan "feline". Intuisi kata-kata yang muncul saling berdekatan ini memungkinkan kita untuk menempatkannya dalam ruang vektor.

Namun, dalam praktiknya, kami cenderung menggunakan model pra-terlatih dari perusahaan besar lain seperti Google untuk dengan cepat membuat prototipe dan menyederhanakan proses penyebaran. Dalam tutorial ini kita akan mengunduh dan menggunakan embeddings kata pra-terlatih Google Word2Vec. Kita dapat melakukan ini dengan menjalankan perintah berikut di direktori kerja kami.

wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude

Menginstal Paket Labu dan Besarnya

Model penyisipan kata yang kami unduh dalam .magnitudeformat. Format ini memungkinkan kami untuk menanyakan model secara efisien menggunakan SQL, dan karenanya merupakan format penyematan optimal untuk server produksi. Karena kami harus dapat membaca .magnitudeformat, kami akan menginstal pymagnitudepaket. Kami juga akan menginstal flaskuntuk nanti melayani prediksi pembelajaran mendalam yang dibuat oleh model.

pip3 install pymagnitude flask

Kami juga akan menambahkannya ke pelacak ketergantungan kami dengan perintah berikut. Ini membuat file bernama requirements.txtdan menyimpan pustaka Python kami sehingga kami dapat menginstalnya kembali di lain waktu.

pip3 freeze > requirements.txt

Meminta Model Word2Vec

Untuk memulai, kami akan membuat file untuk menangani pembukaan dan permintaan kata embeddings.

touch model.py

Selanjutnya, kami akan menambahkan baris berikut model.pyuntuk mengimpor Magnitude.

from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')

Kita dapat bermain-main dengan pymagnitudepaket dan model pembelajaran yang mendalam dengan menggunakan querymetode ini, memberikan argumen untuk sebuah kata.

cat_vector = vectors.query('cat')
print(cat_vector)

Untuk inti API kami, kami akan mendefinisikan fungsi untuk mengembalikan perbedaan makna antara dua kata. Ini adalah tulang punggung untuk solusi pembelajaran yang paling mendalam untuk hal-hal seperti mesin rekomendasi (yaitu menunjukkan konten dengan kata-kata yang serupa).

Kita dapat bermain-main dengan fungsi ini dengan menggunakan similaritydan most_similar fungsi.

print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))

Kami menerapkan kalkulator kesamaan sebagai berikut. Metode ini akan dipanggil oleh Flask API di bagian selanjutnya. Perhatikan bahwa fungsi ini mengembalikan nilai nyata antara 0 dan 1.

def similarity(word1, word2):
    return vectors.similarity(word1, word2)

Membuat API REST

Kami akan membuat server kami dalam file bernama service.pydengan konten berikut. Kami mengimpor flaskdan requestmenangani kemampuan server kami dan kami mengimpor similaritymesin dari modul yang kami tulis sebelumnya.

from flask import Flask, request
from model import similarity

app = Flask(__name__)

@app.route("/", methods=['GET'])
def welcome():
    return "Welcome to our Machine Learning REST API!"

@app.route("/similarity", methods=['GET'])
def similarity_route():
    word1 = request.args.get("word1")
    word2 = request.args.get("word2")
    return str(similarity(word1, word2))

if __name__ == "__main__":
    app.run(port=8000, debug=True)

Server kami agak sederhana, tetapi dapat dengan mudah diperpanjang dengan membuat lebih banyak rute menggunakan @app.routedekorator.

Membuat Panggilan API

Kami dapat menjalankan server Flask kami dengan menjalankan perintah berikut untuk mengaktifkan lingkungan virtual kami, menginstal paket kami, dan menjalankan file Python yang terkait.

source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py

Server kami akan tersedia di localhost:8000. Kami dapat meminta basis data kami di localhost:8000/similarity?word1=cat&word2=dogdan melihat respons di browser kami atau melalui klien AJAX lain.



Leave a Comment

Wawasan tentang 26 Teknik Analisis Data Besar: Bagian 1

Wawasan tentang 26 Teknik Analisis Data Besar: Bagian 1

Wawasan tentang 26 Teknik Analisis Data Besar: Bagian 1

6 Hal yang Sangat Menggila dari Nintendo Switch

6 Hal yang Sangat Menggila dari Nintendo Switch

Banyak dari Anda tahu Switch keluar pada Maret 2017 dan fitur-fitur barunya. Bagi yang belum tahu, kami sudah menyiapkan daftar fitur yang membuat 'Switch' menjadi 'gadget yang wajib dimiliki'.

Janji Teknologi Yang Masih Belum Ditepati

Janji Teknologi Yang Masih Belum Ditepati

Apakah Anda menunggu raksasa teknologi untuk memenuhi janji mereka? periksa apa yang belum terkirim.

Fungsionalitas Lapisan Arsitektur Referensi Big Data

Fungsionalitas Lapisan Arsitektur Referensi Big Data

Baca blog untuk mengetahui berbagai lapisan dalam Arsitektur Big Data dan fungsinya dengan cara yang paling sederhana.

Bagaimana AI Dapat Membawa Otomatisasi Proses ke Tingkat Selanjutnya?

Bagaimana AI Dapat Membawa Otomatisasi Proses ke Tingkat Selanjutnya?

Baca ini untuk mengetahui bagaimana Kecerdasan Buatan menjadi populer di antara perusahaan skala kecil dan bagaimana hal itu meningkatkan kemungkinan untuk membuat mereka tumbuh dan memberi keunggulan pada pesaing mereka.

CAPTCHA: Berapa Lama Itu Bisa Tetap Menjadi Teknik yang Layak Untuk Perbedaan Human-AI?

CAPTCHA: Berapa Lama Itu Bisa Tetap Menjadi Teknik yang Layak Untuk Perbedaan Human-AI?

CAPTCHA telah berkembang cukup sulit bagi pengguna untuk dipecahkan dalam beberapa tahun terakhir. Apakah itu akan tetap efektif dalam deteksi spam dan bot di masa mendatang?

Singularitas Teknologi: Masa Depan Peradaban Manusia yang Jauh?

Singularitas Teknologi: Masa Depan Peradaban Manusia yang Jauh?

Saat Sains Berkembang dengan kecepatan tinggi, mengambil alih banyak upaya kita, risiko menundukkan diri kita pada Singularitas yang tidak dapat dijelaskan juga meningkat. Baca, apa arti singularitas bagi kita.

Telemedicine Dan Perawatan Kesehatan Jarak Jauh: Masa Depan Ada Di Sini

Telemedicine Dan Perawatan Kesehatan Jarak Jauh: Masa Depan Ada Di Sini

Apa itu telemedicine, perawatan kesehatan jarak jauh dan dampaknya terhadap generasi mendatang? Apakah itu tempat yang bagus atau tidak dalam situasi pandemi? Baca blog untuk menemukan tampilan!

Pernahkah Anda Bertanya-tanya Bagaimana Hacker Menghasilkan Uang?

Pernahkah Anda Bertanya-tanya Bagaimana Hacker Menghasilkan Uang?

Anda mungkin pernah mendengar bahwa peretas menghasilkan banyak uang, tetapi pernahkah Anda bertanya-tanya bagaimana cara mereka mendapatkan uang sebanyak itu? mari berdiskusi.

Pembaruan Tambahan macOS Catalina 10.15.4 Menyebabkan Lebih Banyak Masalah Daripada Menyelesaikan

Pembaruan Tambahan macOS Catalina 10.15.4 Menyebabkan Lebih Banyak Masalah Daripada Menyelesaikan

Baru-baru ini Apple merilis macOS Catalina 10.15.4 pembaruan suplemen untuk memperbaiki masalah tetapi tampaknya pembaruan menyebabkan lebih banyak masalah yang mengarah ke bricking mesin mac. Baca artikel ini untuk mempelajari lebih lanjut