Wawasan tentang 26 Teknik Analisis Data Besar: Bagian 1
Wawasan tentang 26 Teknik Analisis Data Besar: Bagian 1
Pendekatan tradisional untuk pengembangan sulit dipertahankan ketika menggunakan model pembelajaran mesin yang kompleks dalam produksi. Pengembangan pada laptop atau mesin lokal bisa lambat untuk melatih model pembelajaran mesin untuk insinyur pembelajaran yang mendalam. Sebagai hasilnya, kami biasanya menggunakan mesin cloud dengan perangkat keras yang lebih kuat untuk melatih dan menjalankan model pembelajaran mesin kami. Ini adalah praktik yang baik karena kami abstrak perhitungan kompleks dan bukannya membuat permintaan AJAX yang diperlukan. Dalam tutorial ini, kita akan membuat model pembelajaran dalam pra-terlatih bernama Word2Vec tersedia untuk layanan lain dengan membangun REST API dari bawah ke atas.
sudo
penggunaWord embeddings adalah perkembangan terbaru dalam pemrosesan bahasa alami dan pembelajaran mendalam yang telah merevolusi kedua bidang karena kemajuan yang cepat. Embeddings kata pada dasarnya adalah vektor yang masing-masing sesuai dengan satu kata sehingga vektor berarti kata-kata. Ini dapat ditunjukkan oleh fenomena tertentu seperti vektor untuk king - queen = boy - girl
. Vektor kata digunakan untuk membangun semuanya dari mesin rekomendasi hingga chat-bot yang benar-benar mengerti bahasa Inggris.
Perkawinan kata tidak acak; mereka dihasilkan dengan melatih jaringan saraf. Implementasi penyematan kata yang kuat baru-baru ini berasal dari Google bernama Word2Vec yang dilatih dengan memprediksi kata-kata yang muncul di sebelah kata-kata lain dalam suatu bahasa. Misalnya, untuk kata "cat"
, jaringan saraf akan memprediksi kata "kitten"
dan "feline"
. Intuisi kata-kata yang muncul saling berdekatan ini memungkinkan kita untuk menempatkannya dalam ruang vektor.
Namun, dalam praktiknya, kami cenderung menggunakan model pra-terlatih dari perusahaan besar lain seperti Google untuk dengan cepat membuat prototipe dan menyederhanakan proses penyebaran. Dalam tutorial ini kita akan mengunduh dan menggunakan embeddings kata pra-terlatih Google Word2Vec. Kita dapat melakukan ini dengan menjalankan perintah berikut di direktori kerja kami.
wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude
Model penyisipan kata yang kami unduh dalam .magnitude
format. Format ini memungkinkan kami untuk menanyakan model secara efisien menggunakan SQL, dan karenanya merupakan format penyematan optimal untuk server produksi. Karena kami harus dapat membaca .magnitude
format, kami akan menginstal pymagnitude
paket. Kami juga akan menginstal flask
untuk nanti melayani prediksi pembelajaran mendalam yang dibuat oleh model.
pip3 install pymagnitude flask
Kami juga akan menambahkannya ke pelacak ketergantungan kami dengan perintah berikut. Ini membuat file bernama requirements.txt
dan menyimpan pustaka Python kami sehingga kami dapat menginstalnya kembali di lain waktu.
pip3 freeze > requirements.txt
Untuk memulai, kami akan membuat file untuk menangani pembukaan dan permintaan kata embeddings.
touch model.py
Selanjutnya, kami akan menambahkan baris berikut model.py
untuk mengimpor Magnitude.
from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')
Kita dapat bermain-main dengan pymagnitude
paket dan model pembelajaran yang mendalam dengan menggunakan query
metode ini, memberikan argumen untuk sebuah kata.
cat_vector = vectors.query('cat')
print(cat_vector)
Untuk inti API kami, kami akan mendefinisikan fungsi untuk mengembalikan perbedaan makna antara dua kata. Ini adalah tulang punggung untuk solusi pembelajaran yang paling mendalam untuk hal-hal seperti mesin rekomendasi (yaitu menunjukkan konten dengan kata-kata yang serupa).
Kita dapat bermain-main dengan fungsi ini dengan menggunakan similarity
dan most_similar
fungsi.
print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))
Kami menerapkan kalkulator kesamaan sebagai berikut. Metode ini akan dipanggil oleh Flask API di bagian selanjutnya. Perhatikan bahwa fungsi ini mengembalikan nilai nyata antara 0 dan 1.
def similarity(word1, word2):
return vectors.similarity(word1, word2)
Kami akan membuat server kami dalam file bernama service.py
dengan konten berikut. Kami mengimpor flask
dan request
menangani kemampuan server kami dan kami mengimpor similarity
mesin dari modul yang kami tulis sebelumnya.
from flask import Flask, request
from model import similarity
app = Flask(__name__)
@app.route("/", methods=['GET'])
def welcome():
return "Welcome to our Machine Learning REST API!"
@app.route("/similarity", methods=['GET'])
def similarity_route():
word1 = request.args.get("word1")
word2 = request.args.get("word2")
return str(similarity(word1, word2))
if __name__ == "__main__":
app.run(port=8000, debug=True)
Server kami agak sederhana, tetapi dapat dengan mudah diperpanjang dengan membuat lebih banyak rute menggunakan @app.route
dekorator.
Kami dapat menjalankan server Flask kami dengan menjalankan perintah berikut untuk mengaktifkan lingkungan virtual kami, menginstal paket kami, dan menjalankan file Python yang terkait.
source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py
Server kami akan tersedia di localhost:8000
. Kami dapat meminta basis data kami di localhost:8000/similarity?word1=cat&word2=dog
dan melihat respons di browser kami atau melalui klien AJAX lain.
Wawasan tentang 26 Teknik Analisis Data Besar: Bagian 1
Banyak dari Anda tahu Switch keluar pada Maret 2017 dan fitur-fitur barunya. Bagi yang belum tahu, kami sudah menyiapkan daftar fitur yang membuat 'Switch' menjadi 'gadget yang wajib dimiliki'.
Apakah Anda menunggu raksasa teknologi untuk memenuhi janji mereka? periksa apa yang belum terkirim.
Baca blog untuk mengetahui berbagai lapisan dalam Arsitektur Big Data dan fungsinya dengan cara yang paling sederhana.
Baca ini untuk mengetahui bagaimana Kecerdasan Buatan menjadi populer di antara perusahaan skala kecil dan bagaimana hal itu meningkatkan kemungkinan untuk membuat mereka tumbuh dan memberi keunggulan pada pesaing mereka.
CAPTCHA telah berkembang cukup sulit bagi pengguna untuk dipecahkan dalam beberapa tahun terakhir. Apakah itu akan tetap efektif dalam deteksi spam dan bot di masa mendatang?
Saat Sains Berkembang dengan kecepatan tinggi, mengambil alih banyak upaya kita, risiko menundukkan diri kita pada Singularitas yang tidak dapat dijelaskan juga meningkat. Baca, apa arti singularitas bagi kita.
Apa itu telemedicine, perawatan kesehatan jarak jauh dan dampaknya terhadap generasi mendatang? Apakah itu tempat yang bagus atau tidak dalam situasi pandemi? Baca blog untuk menemukan tampilan!
Anda mungkin pernah mendengar bahwa peretas menghasilkan banyak uang, tetapi pernahkah Anda bertanya-tanya bagaimana cara mereka mendapatkan uang sebanyak itu? mari berdiskusi.
Baru-baru ini Apple merilis macOS Catalina 10.15.4 pembaruan suplemen untuk memperbaiki masalah tetapi tampaknya pembaruan menyebabkan lebih banyak masalah yang mengarah ke bricking mesin mac. Baca artikel ini untuk mempelajari lebih lanjut