Cara Membuat REST API Pembelajaran Jauh Dengan Word2Vec dan Flask

Pendekatan tradisional untuk pengembangan sulit dipertahankan ketika menggunakan model pembelajaran mesin yang kompleks dalam produksi. Pengembangan pada laptop atau mesin lokal bisa lambat untuk melatih model pembelajaran mesin untuk insinyur pembelajaran yang mendalam. Sebagai hasilnya, kami biasanya menggunakan mesin cloud dengan perangkat keras yang lebih kuat untuk melatih dan menjalankan model pembelajaran mesin kami. Ini adalah praktik yang baik karena kami abstrak perhitungan kompleks dan bukannya membuat permintaan AJAX yang diperlukan. Dalam tutorial ini, kita akan membuat model pembelajaran dalam pra-terlatih bernama Word2Vec tersedia untuk layanan lain dengan membangun REST API dari bawah ke atas.

Prasyarat

  • Contoh server Ubuntu 16.04 dengan setidaknya 4GB RAM. Untuk tujuan pengujian dan pengembangan, Anda dapat memilih sebuah instance dengan RAM 4GB
  • Memahami cara menggunakan sistem operasi Linux untuk membuat / menavigasi / mengedit folder dan file
  • Seorang sudopengguna

Apa itu Embeddings Kata?

Word embeddings adalah perkembangan terbaru dalam pemrosesan bahasa alami dan pembelajaran mendalam yang telah merevolusi kedua bidang karena kemajuan yang cepat. Embeddings kata pada dasarnya adalah vektor yang masing-masing sesuai dengan satu kata sehingga vektor berarti kata-kata. Ini dapat ditunjukkan oleh fenomena tertentu seperti vektor untuk king - queen = boy - girl. Vektor kata digunakan untuk membangun semuanya dari mesin rekomendasi hingga chat-bot yang benar-benar mengerti bahasa Inggris.

Perkawinan kata tidak acak; mereka dihasilkan dengan melatih jaringan saraf. Implementasi penyematan kata yang kuat baru-baru ini berasal dari Google bernama Word2Vec yang dilatih dengan memprediksi kata-kata yang muncul di sebelah kata-kata lain dalam suatu bahasa. Misalnya, untuk kata "cat", jaringan saraf akan memprediksi kata "kitten"dan "feline". Intuisi kata-kata yang muncul saling berdekatan ini memungkinkan kita untuk menempatkannya dalam ruang vektor.

Namun, dalam praktiknya, kami cenderung menggunakan model pra-terlatih dari perusahaan besar lain seperti Google untuk dengan cepat membuat prototipe dan menyederhanakan proses penyebaran. Dalam tutorial ini kita akan mengunduh dan menggunakan embeddings kata pra-terlatih Google Word2Vec. Kita dapat melakukan ini dengan menjalankan perintah berikut di direktori kerja kami.

wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude

Menginstal Paket Labu dan Besarnya

Model penyisipan kata yang kami unduh dalam .magnitudeformat. Format ini memungkinkan kami untuk menanyakan model secara efisien menggunakan SQL, dan karenanya merupakan format penyematan optimal untuk server produksi. Karena kami harus dapat membaca .magnitudeformat, kami akan menginstal pymagnitudepaket. Kami juga akan menginstal flaskuntuk nanti melayani prediksi pembelajaran mendalam yang dibuat oleh model.

pip3 install pymagnitude flask

Kami juga akan menambahkannya ke pelacak ketergantungan kami dengan perintah berikut. Ini membuat file bernama requirements.txtdan menyimpan pustaka Python kami sehingga kami dapat menginstalnya kembali di lain waktu.

pip3 freeze > requirements.txt

Meminta Model Word2Vec

Untuk memulai, kami akan membuat file untuk menangani pembukaan dan permintaan kata embeddings.

touch model.py

Selanjutnya, kami akan menambahkan baris berikut model.pyuntuk mengimpor Magnitude.

from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')

Kita dapat bermain-main dengan pymagnitudepaket dan model pembelajaran yang mendalam dengan menggunakan querymetode ini, memberikan argumen untuk sebuah kata.

cat_vector = vectors.query('cat')
print(cat_vector)

Untuk inti API kami, kami akan mendefinisikan fungsi untuk mengembalikan perbedaan makna antara dua kata. Ini adalah tulang punggung untuk solusi pembelajaran yang paling mendalam untuk hal-hal seperti mesin rekomendasi (yaitu menunjukkan konten dengan kata-kata yang serupa).

Kita dapat bermain-main dengan fungsi ini dengan menggunakan similaritydan most_similar fungsi.

print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))

Kami menerapkan kalkulator kesamaan sebagai berikut. Metode ini akan dipanggil oleh Flask API di bagian selanjutnya. Perhatikan bahwa fungsi ini mengembalikan nilai nyata antara 0 dan 1.

def similarity(word1, word2):
    return vectors.similarity(word1, word2)

Membuat API REST

Kami akan membuat server kami dalam file bernama service.pydengan konten berikut. Kami mengimpor flaskdan requestmenangani kemampuan server kami dan kami mengimpor similaritymesin dari modul yang kami tulis sebelumnya.

from flask import Flask, request
from model import similarity

app = Flask(__name__)

@app.route("/", methods=['GET'])
def welcome():
    return "Welcome to our Machine Learning REST API!"

@app.route("/similarity", methods=['GET'])
def similarity_route():
    word1 = request.args.get("word1")
    word2 = request.args.get("word2")
    return str(similarity(word1, word2))

if __name__ == "__main__":
    app.run(port=8000, debug=True)

Server kami agak sederhana, tetapi dapat dengan mudah diperpanjang dengan membuat lebih banyak rute menggunakan @app.routedekorator.

Membuat Panggilan API

Kami dapat menjalankan server Flask kami dengan menjalankan perintah berikut untuk mengaktifkan lingkungan virtual kami, menginstal paket kami, dan menjalankan file Python yang terkait.

source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py

Server kami akan tersedia di localhost:8000. Kami dapat meminta basis data kami di localhost:8000/similarity?word1=cat&word2=dogdan melihat respons di browser kami atau melalui klien AJAX lain.



Leave a Comment

Cara Memasang Panel Kontrol Hosting Mudah di Ubuntu 16.04

Cara Memasang Panel Kontrol Hosting Mudah di Ubuntu 16.04

Pelajari langkah-langkah untuk memasang Panel Kontrol Hosting Mudah (EHCP) di Ubuntu 16.04 dengan panduan ini.

Cara Memasang Graylog Server pada CentOS 7

Cara Memasang Graylog Server pada CentOS 7

Menggunakan Sistem yang Berbeda? Graylog server adalah perangkat lunak manajemen log sumber terbuka siap pakai perusahaan. Ia mengumpulkan log dari berbagai sumber dan menganalisis

Cara Memasang Anchor CMS pada Fedora 26 LAMP VPS

Cara Memasang Anchor CMS pada Fedora 26 LAMP VPS

Menggunakan Sistem yang Berbeda? Anchor CMS adalah Content Engine System (CMS) Blog Engine yang super-sederhana dan sangat ringan, gratis, dan terbuka

Siapkan Berbagi NFS di Debian

Siapkan Berbagi NFS di Debian

NFS adalah sistem file berbasis jaringan yang memungkinkan komputer untuk mengakses file di seluruh jaringan komputer. Panduan ini menjelaskan bagaimana Anda dapat mengekspos folder melalui NF

Cara Memasang GitBucket di Ubuntu 16.04

Cara Memasang GitBucket di Ubuntu 16.04

Panduan ini mencakup instalasi dasar dan pengaturan GitBucket untuk instance Vultr yang menjalankan Ubuntu 16.04, dan mengasumsikan bahwa Anda menjalankan perintah sebagai

Cara Memasang Directus 6.4 CMS pada Fedora 26 LAMP VPS

Cara Memasang Directus 6.4 CMS pada Fedora 26 LAMP VPS

Menggunakan Sistem yang Berbeda? Directus 6.4 CMS adalah Headless Content Management System (CMS) yang kuat dan fleksibel, gratis dan open source yang menyediakan pengembang

Cara Memasang Mattermost 5.2 di Ubuntu 16.04

Cara Memasang Mattermost 5.2 di Ubuntu 16.04

Menggunakan Sistem yang Berbeda? Mattermost adalah sumber terbuka, alternatif yang di-host-sendiri ke layanan pesan Slack SAAS. Dengan kata lain, dengan Mattermost, Anda ca

Menyiapkan Server TeamTalk di Linux

Menyiapkan Server TeamTalk di Linux

TeamTalk adalah sistem konferensi yang memungkinkan pengguna untuk memiliki percakapan audio / video berkualitas tinggi, obrolan teks, transfer file, dan berbagi layar. Itu saya

Menggunakan kunci SSH Anda untuk masuk ke pengguna non-root

Menggunakan kunci SSH Anda untuk masuk ke pengguna non-root

Vultr menyediakan fitur yang memungkinkan Anda untuk melakukan pra-instal kunci SSH setelah membuat instance baru. Ini memungkinkan Anda untuk mengakses pengguna root server, namun, th

Cara Menginstal PostgreSQL 11.1 Di Arch Linux

Cara Menginstal PostgreSQL 11.1 Di Arch Linux

Prasyarat Server Vultr berjalan terbaru Arch Linux (lihat artikel ini.) Akses Sudo. Perintah yang diperlukan untuk dijalankan karena root diawali oleh #, dan satu

Cara Memasang Manajer File Terminal Ranger di Linux

Cara Memasang Manajer File Terminal Ranger di Linux

Ranger adalah manajer file berbasis baris perintah dengan binding kunci VI. Ini memberikan antarmuka kutukan minimalis dan bagus dengan tampilan pada hierarki direktori

Cara Memasang Redmine di Ubuntu 16.04

Cara Memasang Redmine di Ubuntu 16.04

Menggunakan Sistem yang Berbeda? Redmine adalah alat manajemen proyek berbasis web gratis dan open source. Itu ditulis dalam Ruby on Rails dan mendukung banyak database

Cara Membangun Brotli Dari Sumber di Ubuntu 18.04 LTS

Cara Membangun Brotli Dari Sumber di Ubuntu 18.04 LTS

Menggunakan Sistem yang Berbeda? Brotli adalah metode kompresi baru dengan rasio kompresi yang lebih baik daripada GZIP. Kode sumbernya dihosting secara publik di Githu ini

Atur Akun Pengguna khusus SFTP di CentOS 7

Atur Akun Pengguna khusus SFTP di CentOS 7

Pada kesempatan tertentu, Administrator Sistem mungkin perlu membuat akun pengguna dan membatasi akses mereka untuk hanya mengelola file mereka sendiri melalui sFTP, tetapi tidak

Menggunakan Tampilan MySQL pada Debian 7

Menggunakan Tampilan MySQL pada Debian 7

Pendahuluan MySQL memiliki fitur hebat yang dikenal sebagai tampilan. Tampilan adalah kueri yang disimpan. Pikirkan mereka sebagai alias untuk permintaan yang panjang. Dalam panduan ini,

Cara Memasang Nginx 1.14 Di Arch Linux

Cara Memasang Nginx 1.14 Di Arch Linux

Prasyarat Server Vultr berjalan terbaru Arch Linux (lihat artikel ini.) Akses Sudo. Perintah yang harus dijalankan sebagai root diawali oleh #. Th

Nonaktifkan atau Batasi Login Root melalui SSH di Linux

Nonaktifkan atau Batasi Login Root melalui SSH di Linux

Mengizinkan login root melalui SSH umumnya dianggap sebagai praktik keamanan yang buruk di seluruh industri teknologi. Sebagai gantinya, Anda dapat melakukan administrativ sensitif

Cara Memasang Seafile Server di Ubuntu 16.10

Cara Memasang Seafile Server di Ubuntu 16.10

Menggunakan Sistem yang Berbeda? Seafile (versi komunitas) adalah solusi sinkronisasi dan berbagi file sumber gratis dan terbuka yang mirip dengan ownCloud. Sepanjang kecerdasan

Cara Memasang Thelia 2.3 pada Debian 9

Cara Memasang Thelia 2.3 pada Debian 9

Menggunakan Sistem yang Berbeda? Thelia adalah alat sumber terbuka untuk membuat situs web e-bisnis dan mengelola konten online yang ditulis dalam PHP. Kode sumber thelia i

Cara Memasang MongoDB 4.0 di Arch Linux

Cara Memasang MongoDB 4.0 di Arch Linux

Prasyarat Server Vultr berjalan terbaru Arch Linux (lihat artikel ini) Akses Sudo: Perintah yang diperlukan untuk dijalankan karena root diawali oleh #, dan satu

Cara Memasang Panel Kontrol Hosting Mudah di Ubuntu 16.04

Cara Memasang Panel Kontrol Hosting Mudah di Ubuntu 16.04

Pelajari langkah-langkah untuk memasang Panel Kontrol Hosting Mudah (EHCP) di Ubuntu 16.04 dengan panduan ini.

Wawasan tentang 26 Teknik Analisis Data Besar: Bagian 1

Wawasan tentang 26 Teknik Analisis Data Besar: Bagian 1

Wawasan tentang 26 Teknik Analisis Data Besar: Bagian 1

6 Hal yang Sangat Menggila dari Nintendo Switch

6 Hal yang Sangat Menggila dari Nintendo Switch

Banyak dari Anda tahu Switch keluar pada Maret 2017 dan fitur-fitur barunya. Bagi yang belum tahu, kami sudah menyiapkan daftar fitur yang membuat 'Switch' menjadi 'gadget yang wajib dimiliki'.

Janji Teknologi Yang Masih Belum Ditepati

Janji Teknologi Yang Masih Belum Ditepati

Apakah Anda menunggu raksasa teknologi untuk memenuhi janji mereka? periksa apa yang belum terkirim.

Fungsionalitas Lapisan Arsitektur Referensi Big Data

Fungsionalitas Lapisan Arsitektur Referensi Big Data

Baca blog untuk mengetahui berbagai lapisan dalam Arsitektur Big Data dan fungsinya dengan cara yang paling sederhana.

Bagaimana AI Dapat Membawa Otomatisasi Proses ke Tingkat Selanjutnya?

Bagaimana AI Dapat Membawa Otomatisasi Proses ke Tingkat Selanjutnya?

Baca ini untuk mengetahui bagaimana Kecerdasan Buatan menjadi populer di antara perusahaan skala kecil dan bagaimana hal itu meningkatkan kemungkinan untuk membuat mereka tumbuh dan memberi keunggulan pada pesaing mereka.

CAPTCHA: Berapa Lama Itu Bisa Tetap Menjadi Teknik yang Layak Untuk Perbedaan Human-AI?

CAPTCHA: Berapa Lama Itu Bisa Tetap Menjadi Teknik yang Layak Untuk Perbedaan Human-AI?

CAPTCHA telah berkembang cukup sulit bagi pengguna untuk dipecahkan dalam beberapa tahun terakhir. Apakah itu akan tetap efektif dalam deteksi spam dan bot di masa mendatang?

Singularitas Teknologi: Masa Depan Peradaban Manusia yang Jauh?

Singularitas Teknologi: Masa Depan Peradaban Manusia yang Jauh?

Saat Sains Berkembang dengan kecepatan tinggi, mengambil alih banyak upaya kita, risiko menundukkan diri kita pada Singularitas yang tidak dapat dijelaskan juga meningkat. Baca, apa arti singularitas bagi kita.

Telemedicine Dan Perawatan Kesehatan Jarak Jauh: Masa Depan Ada Di Sini

Telemedicine Dan Perawatan Kesehatan Jarak Jauh: Masa Depan Ada Di Sini

Apa itu telemedicine, perawatan kesehatan jarak jauh dan dampaknya terhadap generasi mendatang? Apakah itu tempat yang bagus atau tidak dalam situasi pandemi? Baca blog untuk menemukan tampilan!

Pernahkah Anda Bertanya-tanya Bagaimana Hacker Menghasilkan Uang?

Pernahkah Anda Bertanya-tanya Bagaimana Hacker Menghasilkan Uang?

Anda mungkin pernah mendengar bahwa peretas menghasilkan banyak uang, tetapi pernahkah Anda bertanya-tanya bagaimana cara mereka mendapatkan uang sebanyak itu? mari berdiskusi.