Ngôn ngữ tự nhiên và thoải mái là một khối hệ thống phức tạp mà lại con người tiêu dùng để diễnđạt ngữ nghĩa. Trong hệ thống này, từ là đơn vị cơ phiên bản của ngữ nghĩa.Như tên thường gọi của nó, một vector từ bỏ (word vector) là 1 trong vector được sửdụng để màn biểu diễn một từ. Vector tự cũng rất có thể được xem như là vector đặctrưng của một từ. Nghệ thuật ánh xạ từ bỏ ngữ thanh lịch vector số thực còn đượcgọi là chuyên môn embedding từ (word embedding). Vào vài năm sát đây,embedding từ dần trở thành kỹ năng cơ phiên bản trong xử lý ngôn từ tựnhiên.

Bạn đang xem: Word2vec là gì


14.1.1. Tại sao không áp dụng Vector One-hot?¶

Chúng ta đã thực hiện vector one-hot để thay mặt đại diện cho từ (thực hóa học là kýtự) vào Section 8.5. Lưu giữ lại rằng khi mang sử số lượngcác từ riêng lẻ trong tự điển (tức form size từ điển) là (N),mỗi từ hoàn toàn có thể tương ứng một-một với những số nguyên thường xuyên từ 0 đến(N-1), được điện thoại tư vấn là chỉ số của từ. Mang sử chỉ số của một từ là(i). Để thu được biểu diễn vector one-hot của tự đó, ta tạo thành mộtvector gồm (N) thành phần có cực hiếm là 0 cùng đặt bộ phận thứ (i)bằng 1. Theo đó, từng từ được màn biểu diễn dưới dạng vector gồm độ dài(N) có thể được trực tiếp chuyển vào mạng nơ-ron.

Mặc dù rất dễ dàng xây dựng các vector one-hot, nhưng bọn chúng thường ko phảilà chọn lọc tốt. Một trong những lý do chính là các vector one-hot khôngthể màn trình diễn một cách chính xác độ tương tự như giữa những từ không giống nhau,chẳng hạn như độ tựa như cô-sin cơ mà ta thường xuyên sử dụng. Độ tương tựcô-sin của nhị vectors (mathbfx, mathbfy in mathbbR^d)là quý giá cô-sin của góc thân chúng:


Do độ tương tự cô-sin giữa các vector one-hot của bất kỳ hai từ bỏ khácnhau làm sao đều bởi 0, buộc phải rất khó áp dụng vector one-hot để màn biểu diễn độtương từ giữa các từ không giống nhau.

Word2vec là 1 trong côngcụ được sáng tạo để giải quyết vấn đề trên. Nó trình diễn mỗi trường đoản cú bằngmột vector tất cả độ dài cố định và thắt chặt và thực hiện những vector này để biểu lộ tốthơn độ tương tự như và và những quan hệ nhiều loại suy (analogy relationship) giữacác từ. Nguyên lý Word2vec tất cả hai tế bào hình: skip-gam cùng túi từ thường xuyên (continuousbag of words – CBOW) . Tiếp theo,ta sẽ xem xét hai mô hình này và cách thức huấn luyện chúng.


14.1.2. Quy mô Skip-Gram¶

Mô hình skip-gam trả định rằng một từ rất có thể được áp dụng để sinh ra cáctừ bao phủ nó vào một chuỗi văn bản. Ví dụ, giả sử chuỗi văn bạn dạng là“the”, “man”, “loves”, “his” và “son”. Ta sử dụng “loves” làm từ đíchtrung trung ương và đặt size cửa sổ ngữ cảnh bởi 2. Như mô tả trongFig. 14.1.1, với trường đoản cú đích trung chổ chính giữa “loves”, mô hìnhskip-gram suy xét xác suất có đk sinh ra những từ ngữ cảnh(“the”, “man”, “his” và “son”) ở trong khoảng cách không quá 2 từ:


Ta trả định rằng, với từ đích trung trung khu cho trước, các từ văn cảnh đượcsinh ra độc lập với nhau. Trong trường hợp này, công thức trên bao gồm thểđược viết lại thành


(14.1.3)¶
*

Fig. 14.1.1 mô hình skip-gram để ý đến xác suất có điều kiện sinh ra các từngữ cảnh với một trường đoản cú đích trung vai trung phong cho trước.¶


Trong quy mô skip-gam, từng từ được biểu diễn bằng hai vector(d)-chiều nhằm tính xác suất có điều kiện. đưa sử chỉ số của một từtrong tự điển là (i), vector của tự được biểu diễn là(mathbfv_iinmathbbR^d) khi từ này là trường đoản cú đích trung vai trung phong vàlà (mathbfu_iinmathbbR^d) lúc từ này là 1 từ ngữ cảnh.Gọi (c) cùng (o) lần lượt là chỉ số của tự đích trung tâm(w_c) với từ ngữ cảnh (w_o) vào từ điển. Có thể thu đượcxác suất có đk sinh ra từ ngữ cảnh cho một từ đích trung trung ương chotrước bởi phép toán softmax trên tích vô vị trí hướng của vector:


(14.1.4)¶

trong đó, tập chỉ số trong bộ từ vựng là(mathcalV = , 1, ldots, ). đưa sử trongmột chuỗi văn phiên bản có độ dài (T), từ trên bước thời gian (t)được ký hiệu là (w^(t)). Mang sử rằng các từ ngữ cảnh được sinhđộc lập với tự trung chổ chính giữa cho trước. Khi kích cỡ cửa sổ ngữ cảnh là(m), hàm hợp lý và phải chăng (likelihood) của quy mô skip-gam là xác suấtkết vừa lòng sinh ra toàn bộ các từ văn cảnh với bất kỳ từ trung trung ương cho trướcnào


14.1.2.1. Huấn luyện mô hình Skip-Gram¶

Các thông số trong mô hình skip-gram là vector trường đoản cú đích trung trung ương vàvector từ bỏ ngữ cảnh mang đến từng từ riêng rẽ lẻ. Trong quá trình huấn luyện,chúng ta vẫn học các tham số mô hình bằng cách cực đại hóa hàm phù hợp lý,còn call là mong lượng hợp lý và phải chăng cực đại. Vấn đề này giống như với vấn đề giảmthiểu hàm mất non sau đây:


(14.1.6)¶<- sum_t=1^T sum_-m leq j leq m, j eq 0 extlog, P(w^(t+j) mid w^(t)).>

Nếu ta sử dụng SGD, thì trong những vòng lặp, ta lựa chọn ra một chuỗi nhỏ nhỏhơn bằng việc lấy mẫu đột nhiên để đo lường mất mát mang đến chuỗi bé đó,rồi kế tiếp tính gradient để update các tham số mô hình. Điểm then chốtcủa việc đo lường và tính toán gradient là tính gradient của logarit phần trăm cóđiều kiện mang lại vector từ bỏ trung trung tâm và vector từ bỏ ngữ cảnh. Đầu tiên, theođịnh nghĩa ta có


(14.1.7)¶
(14.1.8)¶<eginspliteginalignedfracpartial extlog, P(w_o mid w_c)partial mathbfv_c&= mathbfu_o - fracsum_j in mathcalV exp(mathbfu_j^ op mathbfv_c)mathbfu_jsum_i in mathcalV exp(mathbfu_i^ op mathbfv_c)\&= mathbfu_o - sum_j in mathcalV left(frac extexp(mathbfu_j^ op mathbfv_c) sum_i in mathcalV extexp(mathbfu_i^ op mathbfv_c) ight) mathbfu_j\&= mathbfu_o - sum_j in mathcalV P(w_j mid w_c) mathbfu_j.endalignedendsplit>

Phép tính cho ra xác suất có đk cho hồ hết từ gồm trong từ điển vớitừ đích trung trung tâm (w_c) mang lại trước. Sau đó, ta lại áp dụng phươngpháp đó nhằm tìm gradient cho những vector tự khác.

Sau khi đào tạo và giảng dạy xong, với từ bất kỳ có chỉ số là (i) vào từđiển, ta sẽ nhận ra tập nhì vector từ bỏ (mathbfv_i) và(mathbfu_i). Trong các ứng dụng xử lý ngôn ngữ tự nhiên, vectortừ đích trung chổ chính giữa trong mô hình skip-gram thường được thực hiện để làmvector trình diễn một từ.


14.1.3. Mô hình Túi từ tiếp tục (CBOW)¶

Mô hình túi từ tiếp tục (Continuous bag of words - CBOW) tựa như nhưmô hình skip-gram. Biệt lập lớn độc nhất là mô hình CBOW trả định rằng từđích trung trọng tâm được tạo nên dựa trên những từ văn cảnh phía trước cùng sau nótrong một chuỗi văn bản. Với 1 chuỗi văn bạn dạng gồm những từ “the”,“man”, “loves”, “his” với “son”, trong đó “love” là từ đích trung tâm,với form size cửa sổ ngữ cảnh bằng 2, mô hình CBOW để ý đến xácsuất có đk để xuất hiện từ đích “love” dựa trên các từ ngữ cảnh“the”, “man”, “his” cùng “son” (minh họa nghỉ ngơi Fig. 14.1.2) như sau:


*

Fig. 14.1.2 quy mô CBOW quan tâm đến xác suất tất cả điều kiện tạo ra từ đích trungtâm dựa trên các từ ngữ cảnh cho trước.¶


Vì có rất nhiều từ ngữ cảnh trong quy mô CBOW, ta sẽ lấy vừa phải cácvector trường đoản cú của bọn chúng và tiếp nối sử dụng phương pháp tương tự như trong môhình skip-gram để tính phần trăm có điều kiện. Trả sử(mathbfv_iinmathbbR^d) và(mathbfu_iinmathbbR^d) là vector từ bỏ ngữ cảnh với vector từđích trung tâm của từ gồm chỉ số (i) vào từ điển (lưu ý rằng cácký hiệu này ngược với những ký hiệu trong mô hình skip-gram). Gọi(c) là chỉ số của tự đích trung trọng điểm (w_c), và(o_1, ldots, o_2m) là chỉ số những từ ngữ cảnh(w_o_1, ldots, w_o_2m) trong từ điển. Do đó, phần trăm cóđiều kiện xuất hiện từ đích trung tâm dựa vào các tự ngữ cảnh cho trước là


(14.1.10)¶

Để rút gọn, ký hiệu(mathcalW_o= w_o_1, ldots, w_o_2m\), và(armathbfv_o = left(mathbfv_o_1 + ldots, + mathbfv_o_2m ight)/(2m)).Phương trình trên được đơn giản dễ dàng hóa thành


(14.1.11)¶

Cho một chuỗi văn bản có độ nhiều năm (T), ta trả định rằng từ xuất hiệntại bước thời hạn (t) là (w^(t)), và kích thước của cửasổ văn cảnh là (m). Hàm hợp lý của quy mô CBOW là phần trăm sinhra ngẫu nhiên từ đích trung tâm nào nhờ vào những từ ngữ cảnh.


(14.1.12)¶

14.1.3.1. Huấn luyện mô hình CBOW¶

Quá trình huấn luyện mô hình CBOW khá tương tự với quá trình huấn luyện môhình skip-gram. Uớc lượng đúng theo lý cực đại của quy mô CBOW tương đươngvới câu hỏi cực đái hóa hàm mất mát:


(14.1.13)¶<-sum_t=1^T extlog, P(w^(t) mid w^(t-m), ldots, w^(t-1), w^(t+1), ldots, w^(t+m)).>
(14.1.14)¶

Thông qua phép đạo hàm, ta rất có thể tính log của phần trăm có điều kiện củagradient của ngẫu nhiên vector từ ngữ cảnh nào(mathbfv_o_i)((i = 1, ldots, 2m)) vào công thứctrên.


(14.1.15)¶

Sau đó, ta thực hiện cùng cách thức đó nhằm tính gradient cho những vectorcủa từ bỏ khác. Không giống như mô hình skip-gam, trong quy mô CBOW tathường áp dụng vector tự ngữ cảnh làm cho vector trình diễn một từ.

Xem thêm: Cách Tìm Giao Tuyến Của 2 Mặt Phẳng Trong Oxyz, Giao Tuyến Của Hai Mặt Phẳng


14.1.4. Nắm tắt¶

Vector từ một vector được áp dụng để màn biểu diễn một từ. Kỹ thuậtánh xạ các từ thanh lịch vector số thực còn được gọi là kỹ thuật embeddingtừ.Word2vec bao gồm cả quy mô túi từ tiếp tục (CBOW) và mô hìnhskip-gam. Quy mô skip-gam mang định rằng những từ ngữ cảnh được sinh radựa bên trên từ đích trung tâm. Quy mô CBOW giả định rằng từ đích trungtâm được hình thành dựa trên các từ ngữ cảnh.

14.1.5. Bài bác tập¶

Độ phức tạp đo lường và thống kê của mỗi gradient là bao nhiêu? giả dụ từ điển chứamột lượng lớn các từ, vấn đề này sẽ gây ra vấn đề gì?Có một vài cụm từ thắt chặt và cố định trong tiếng Anh bao hàm nhiều từ, chẳng hạnnhư “new york”. Các bạn sẽ huấn luyện các vector từ bỏ của bọn chúng như thếnào? Gợi ý: xem phần 4 trong bài bác báo Word2vec<2>.Sử dụng mô hình skip-gam có tác dụng ví dụ để khám phá về kiến tạo của môhình word2vec. Quan hệ giữa tích vô hướng của hai vector từ với độtương từ bỏ cô-sin trong quy mô skip-gam là gì? Đối với một cặp tự cóngữ nghĩa ngay gần nhau, tại sao hai vector từ đó lại thường tất cả độ tươngtự cô-sin cao?

14.1.7. Những người thực hiện¶

Bản dịch vào trang này được tiến hành bởi:

Đoàn Võ Duy ThanhNguyễn Văn QuangNguyễn Văn CườngPhạm Đăng KhoaLê khắc Hồng Phúc

Table Of Contents

14.1. Embedding từ (word2vec)14.1.2. Quy mô Skip-Gram14.1.3. Quy mô Túi từ thường xuyên (CBOW)