Word2Vec 및 Flask를 사용하여 딥 러닝 REST API를 만드는 방법

생산에서 복잡한 기계 학습 모델을 사용할 때 개발에 대한 기존의 접근 방식을 유지하기가 어렵습니다. 랩탑 또는 로컬 머신에서의 개발은 딥 러닝 엔지니어를위한 머신 러닝 모델을 훈련시키는 데 느릴 수 있습니다. 결과적으로, 우리는 일반적으로 머신 러닝 모델을 교육하고 실행하기 위해보다 강력한 하드웨어를 갖춘 클라우드 머신을 사용합니다. 복잡한 계산을 추상화하고 필요에 따라 AJAX 요청을하기 때문에 이는 좋은 방법입니다. 이 자습서에서는 처음부터 REST API를 작성하여 다른 서비스에서 Word2Vec이라는 사전 훈련 된 딥 러닝 모델을 사용할 수 있도록합니다.

전제 조건

  • RAM이 4GB 이상인 Ubuntu 16.04 서버 인스턴스 테스트 및 개발 목적으로 4GB RAM이있는 인스턴스를 선택할 수 있습니다.
  • Linux 운영 체제를 사용하여 폴더 및 파일을 작성 / 탐색 / 편집하는 방법에 대한 이해
  • sudo사용자

단어 임베딩이란 무엇입니까?

단어 임베딩은 자연 언어 처리 및 딥 러닝의 최근 개발로, 빠른 발전으로 인해 두 분야에 혁명을 일으켰습니다. 워드 임베딩은 본질적으로 각각 벡터가 단어를 의미하도록 단일 단어에 대응하는 벡터이다. 에 대한 벡터와 같은 특정 현상으로이를 입증 할 수 있습니다 king - queen = boy - girl. 단어 벡터는 추천 엔진에서 실제로 영어를 이해하는 챗봇에 이르기까지 모든 것을 구축하는 데 사용됩니다.

단어 삽입은 무작위가 아닙니다. 그것들은 신경망을 훈련시킴으로써 생성됩니다. 최근 강력한 단어 임베딩 구현은 Google에서 Word2Vec이라는 이름으로 제공되며 언어에서 다른 단어 옆에 나타나는 단어를 예측하여 학습됩니다. 예를 들어, 단어 "cat"의 경우 신경망은 단어 "kitten"및 을 예측합니다 "feline". 서로 가까이 나타나는 단어의 직관은 우리가 단어를 벡터 공간에 배치 할 수있게합니다.

그러나 실제로는 Google과 같은 다른 대기업의 사전 훈련 된 모델을 사용하여 신속하게 프로토 타입을 작성하고 배포 프로세스를 단순화하는 경향이 있습니다. 이 자습서에서는 Google의 Word2Vec 사전 훈련 된 단어 임베딩을 다운로드하여 사용합니다. 작업 디렉토리에서 다음 명령을 실행하여이를 수행 할 수 있습니다.

wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude

플라스크 및 크기 패키지 설치

우리가 다운로드 한 단어 포함 모델은 .magnitude형식입니다. 이 형식을 사용하면 SQL을 사용하여 모델을 효율적으로 쿼리 할 수 ​​있으므로 프로덕션 서버에 가장 적합한 임베딩 형식입니다. .magnitude형식 을 읽을 수 있어야 하므로 pymagnitude패키지를 설치합니다 . 또한 flask나중에 모델이 만든 딥 러닝 예측을 제공하기 위해 설치 합니다.

pip3 install pymagnitude flask

또한 다음 명령을 사용하여 종속성 추적기에 추가합니다. 그러면 이름이 지정된 파일이 만들어 requirements.txt지고 나중에 다시 설치할 수 있도록 Python 라이브러리가 저장됩니다.

pip3 freeze > requirements.txt

Word2Vec 모델 쿼리

시작하기 위해 단어 임베딩을 열고 쿼리하는 파일을 작성합니다.

touch model.py

다음으로 model.pyMagnitude를 가져 오기 위해 다음 줄을 추가합니다 .

from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')

우리는 방법 pymagnitude을 사용하여 패키지와 딥 러닝 모델을 가지고 놀 수 query있으며 단어에 대한 인수를 제공합니다.

cat_vector = vectors.query('cat')
print(cat_vector)

API의 핵심을 위해 두 단어의 의미 차이를 반환하는 함수를 정의합니다. 추천 엔진 (예 : 비슷한 단어로 콘텐츠 표시)과 같은 것들에 대한 대부분의 딥 러닝 솔루션의 중추입니다.

similarityand most_similar 기능 을 사용하여이 기능을 사용할 수 있습니다.

print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))

유사도 계산기는 다음과 같이 구현합니다. 이 메소드는 다음 섹션에서 Flask API에 의해 호출됩니다. 이 함수는 0과 1 사이의 실수 값을 반환합니다.

def similarity(word1, word2):
    return vectors.similarity(word1, word2)

REST API 작성

service.py다음 내용으로 이름이 지정된 파일로 서버를 만듭니다 . 우리는 수입 flaskrequest우리의 서버 기능을 처리하기 위해 우리는 가져 similarity우리가 이전에 쓴 모듈의 엔진을.

from flask import Flask, request
from model import similarity

app = Flask(__name__)

@app.route("/", methods=['GET'])
def welcome():
    return "Welcome to our Machine Learning REST API!"

@app.route("/similarity", methods=['GET'])
def similarity_route():
    word1 = request.args.get("word1")
    word2 = request.args.get("word2")
    return str(similarity(word1, word2))

if __name__ == "__main__":
    app.run(port=8000, debug=True)

우리의 서버는 다소 뼈가 있지만 @app.route데코레이터를 사용하여 더 많은 경로를 만들어 쉽게 확장 할 수 있습니다 .

API 호출

가상 환경을 활성화하고 패키지를 설치하고 관련 Python 파일을 실행하려면 다음 명령을 실행하여 Flask 서버를 실행할 수 있습니다.

source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py

우리 서버는에서 사용할 수 있습니다 localhost:8000. localhost:8000/similarity?word1=cat&word2=dog브라우저에서 또는 다른 AJAX 클라이언트를 통해 데이터베이스를 쿼리하고 응답을 볼 수 있습니다 .



Leave a Comment

AI가 랜섬웨어 공격의 증가와 싸울 수 있습니까?

AI가 랜섬웨어 공격의 증가와 싸울 수 있습니까?

랜섬웨어 공격이 증가하고 있지만 AI가 최신 컴퓨터 바이러스를 처리하는 데 도움이 될 수 있습니까? AI가 답인가? AI boone 또는 bane인지 여기에서 읽으십시오.

ReactOS: 이것이 Windows의 미래입니까?

ReactOS: 이것이 Windows의 미래입니까?

오픈 소스이자 무료 운영 체제인 ReactOS가 최신 버전과 함께 제공됩니다. 현대 Windows 사용자의 요구 사항을 충족하고 Microsoft를 무너뜨릴 수 있습니까? 이 구식이지만 더 새로운 OS 환경에 대해 자세히 알아보겠습니다.

WhatsApp 데스크톱 앱 24*7을 통해 연결 유지

WhatsApp 데스크톱 앱 24*7을 통해 연결 유지

Whatsapp은 마침내 Mac 및 Windows 사용자용 데스크톱 앱을 출시했습니다. 이제 Windows 또는 Mac에서 Whatsapp에 쉽게 액세스할 수 있습니다. Windows 8 이상 및 Mac OS 10.9 이상에서 사용 가능

AI는 어떻게 프로세스 자동화를 다음 단계로 끌어올릴 수 있습니까?

AI는 어떻게 프로세스 자동화를 다음 단계로 끌어올릴 수 있습니까?

인공 지능이 소규모 회사에서 어떻게 인기를 얻고 있으며 어떻게 인공 지능이 성장할 가능성을 높이고 경쟁자가 우위를 점할 수 있는지 알아보려면 이 기사를 읽으십시오.

macOS Catalina 10.15.4 추가 업데이트로 인해 해결보다 더 많은 문제가 발생함

macOS Catalina 10.15.4 추가 업데이트로 인해 해결보다 더 많은 문제가 발생함

최근 Apple은 문제를 해결하기 위해 macOS Catalina 10.15.4 추가 업데이트를 출시했지만 이 업데이트로 인해 Mac 컴퓨터의 브릭킹으로 이어지는 더 많은 문제가 발생하는 것 같습니다. 자세히 알아보려면 이 기사를 읽어보세요.

빅데이터의 13가지 상용 데이터 추출 도구

빅데이터의 13가지 상용 데이터 추출 도구

빅데이터의 13가지 상용 데이터 추출 도구

저널링 파일 시스템이란 무엇이며 어떻게 작동합니까?

저널링 파일 시스템이란 무엇이며 어떻게 작동합니까?

우리 컴퓨터는 모든 데이터를 저널링 파일 시스템이라고 하는 체계적인 방식으로 저장합니다. 검색을 누르는 즉시 컴퓨터에서 파일을 검색하고 표시할 수 있는 효율적인 방법입니다.https://wethegeek.com/?p=94116&preview=true

기술적 특이점: 인류 문명의 먼 미래?

기술적 특이점: 인류 문명의 먼 미래?

과학이 빠른 속도로 발전하고 우리의 많은 노력을 인수함에 따라 설명할 수 없는 특이점에 처할 위험도 높아집니다. 특이점이 우리에게 무엇을 의미할 수 있는지 읽어보십시오.

26가지 빅 데이터 분석 기법에 대한 통찰: 1부

26가지 빅 데이터 분석 기법에 대한 통찰: 1부

26가지 빅 데이터 분석 기법에 대한 통찰: 1부

2021년 의료 분야에서 인공 지능의 영향

2021년 의료 분야에서 인공 지능의 영향

의료 분야의 AI는 지난 수십 년 동안 큰 도약을 했습니다. 따라서 의료 분야에서 AI의 미래는 여전히 나날이 성장하고 있습니다.