Important Announcement
PubHTML5 Scheduled Server Maintenance on (GMT) Sunday, June 26th, 2:00 am - 8:00 am.
PubHTML5 site will be inoperative during the times indicated!

Home Explore NGHIÊN CỨU KIẾN TRÚC MẠNG TRANSFORMER

NGHIÊN CỨU KIẾN TRÚC MẠNG TRANSFORMER

Published by ndtan8888, 2022-10-18 04:06:48

Description: NGHIÊN CỨU KIẾN TRÚC MẠNG TRANSFORMER

Search

Read the Text Version

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN --------------------- VƯƠNG TUẤN ANH NGHIÊN CỨU KIẾN TRÚC MẠNG TRANSFORMER TRÊN ĐỒ THỊ Chuyên ngành: Khoa học dữ liệu Mã số: 8904468.01QTD TÓM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội – Năm 2022

Luận văn được hoàn thành tại: Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia Hà Nội Cán bộ hướng dẫn khoa học: TS. LÊ HỒNG PHƯƠNG Phản biện 1: PGS. TS. Lê Thanh Hương Trường Đại học Bách Khoa Hà Nội Phản biện 2: PGS. TS. Nguyễn Trí Thành Trường Đại học Công nghệ , Đại học Quốc gia Hà Nội Luận văn đã được bảo vệ trước Hội đồng chấm luận văn Thạc sĩ trường Đại học Khoa học Tự nhiên Vào hồi 08 giờ 30 phút ngày 27 tháng 01 năm 2022 Có thể tìm hiểu luận văn tại: Trung tâm thư viện Đại học Quốc gia Hà Nội

1. Tính cấp thiết của đề tài Dữ liệu ngày nay có thể coi như một nguồn tài nguyên quý giá, đóng vai trò then chốt trong cuộc cách mạng công nghiệp 4.0, là tiền đề mang đến nhiều thay đổi tích cực cho xã hội. Dữ liệu được chia thành nhiều loại khác nhau, có thể kể đến như dạng ảnh, dạng văn bản, dạng âm thanh… Bên cạnh đó, dữ liệu dạng đồ thị cũng khá phổ biến, được ứng dụng rộng rãi trong nhiều lĩnh vực, dùng để mô hình hoá một tập các đối tượng (bao gồm các nút) và mối quan hệ giữa chúng (bao gồm các cạnh). Gần đây, các nghiên cứu về việc phân tích đồ thị bằng học máy thu hút được nhiều sự quan tâm bởi những ưu điểm vượt trội của dữ liệu dạng đồ thị. Đồ thị cho phép lưu trữ và truy xuất một cách hiệu quả các thông tin về thực thể, một số lĩnh vực điển hình áp dụng như: phân tích mạng xã hội, phân tích sự tương tác giữa các phân tử trong hoá học, phân tích thói quen người dùng trong hệ thống gợi ý. Mạng nơ ron đồ thị (GNN) ra đời, là phương pháp dựa trên học sâu và hoạt động trên miền đồ thị. Các mô hình GNN hoạt động theo cơ chế học biểu diễn đặc trưng của một đồ thị bất kì, với đầu vào là trạng thái ban đầu của đồ thị, đầu ra là tập vector đặc trưng của các nút hoặc cạnh tương ứng. Các vector đặc trưng này sau đó sẽ được sử dụng cho các nhiệm vụ phía sau, thông thường sẽ có ba bài toán 3

chính liên quan đến mạng nơ ron đồ thị như dưới đây: + Thứ nhất là các bài toán ở mức độ nút như phân loại nút, hồi quy nút, phân cụm các nút trên đồ thị. Phân loại nút là bài toán phân loại từng nút trên đồ thị vào các lớp tương ứng, hay còn gọi là nhãn. Hồi quy nút là bài toán dự đoán một giá trị liên tục cho mỗi nút. Phân cụm nút là bài toán phân chia các nút thành các nhóm rời rạc với điều kiện những nút giống nhau sẽ ở trong cùng một nhóm. + Thứ hai là các bài toán ở mức độ cạnh như phân loại cạnh, dự đoán liên kết. Yêu cầu của các bài toán này là phân loại cạnh của đồ thị vào các nhãn tương ứng, hay dự đoán xem liệu có tồn tại cạnh nối giữa một cặp nút bất kì trên đồ thị hay không. + Thứ ba là các bài toán ở mức độ đồ thị bao gồm các bài toán như phân loại đồ thị, hồi quy đồ thị và đối sánh đồ thị. Cả ba bài toán này đều yêu cầu mô hình phải học được các biểu diễn tương ứng của đồ thị để có thể giải quyết được vấn đề. Tính đến nay, thông qua các thực nghiệm, nhiều nghiên cứu khoa học đã chỉ ra rằng các mô hình GNN hoạt động tốt trên dữ liệu dạng đồ thị, do đó GNN đã trở thành một trong những phương pháp phân tích đồ thị được áp dụng rộng rãi. Đối với ngành xử lí ngôn ngữ tự nhiên, năm 2017 được coi là bước ngoặt lớn khi Google chính thức cho ra mắt mô hình 4

học sâu Transformer. Mô hình Transformer sẽ học biểu diễn các từ trong một câu sử dụng cơ chế chú ý. Cơ chế chú ý của mô hình cho phép biểu diễn mối quan hệ của một từ với các từ còn lại trong câu, từ đó kết hợp các thông tin nhận được để sinh ra các vector đặc trưng của từng từ. Các vector này sau đó sẽ được sử dụng cho các nhiệm vụ phía sau của xử lí ngôn ngữ. Các nhà khoa học đã đặt ra một giả thiết, đó là đầu vào của mô hình Transformer là một câu giống như một đồ thị đầy đủ, vì để thể hiện ý nghĩa trọn vẹn của một câu thì mỗi từ trong câu đều có liên kết về mặt ngữ nghĩa với các từ còn lại. Dưới góc nhìn của một bài toán về đồ thị, quá trình mô hình Transformer học biểu diễn các từ trên một câu cũng tương tự với việc học biểu diễn các nút trên một đồ thị kết nối đầy đủ. Giả thiết này đã mở ra một hướng nghiên cứu mới, với mục đích chính là mở rộng việc áp dụng mô hình Transformer trên dữ liệu dạng đồ thị bất kì, thay vì ví mô hình Transformer thông thường chỉ nhận đầu vào là một đồ thị đầy đủ. Từ đó, kiến trúc mạng Transformer đồ thị được đề xuất và đã đem lại nhiều kết quả tích cực trong các thực nghiệm trên các bộ dữ liệu về đồ thị. 2. Mục tiêu nghiên cứu Mục tiêu chung: Nghiên cứu kiến trúc mô hình Transformer áp dụng cho dữ liệu dạng đồ thị, hay còn gọi là mạng Transformer đồ thị. 5

Mục tiêu cụ thể: Ứng dụng giải các bài toán liên quan đến đồ thị trong thực tế, ví dụ: phân loại người dùng trên nền tảng số và các mạng xã hội, dự đoán các thuộc tính hoá học của một chất. 3. Nội dung nghiên cứu Nội dung 1: Lý thuyết đồ thị và một số mạng nơ ron đồ thị điển hình. Nội dung 2: Mô hình mạng Transformer đồ thị. Nội dung 3: Đánh giá hiệu năng hoạt động của mô hình Transformer đồ thị so với một số mô hình mạng nơ ron đồ thị điển hình. 4. Tác động của kết quả Trong khuôn khổ của luận văn, các kết quả tuy mới ở mức nghiên cứu mô hình và đánh giá trên các tập dữ liệu sẵn có, nhưng cũng có thể coi là tiền đề mở ra các hướng nghiên cứu tiếp theo về việc cải thiện mô hình Transformer đồ thị nói riêng hay các mạng nơ ron đồ thị nói chung để có thể ứng dụng trực tiếp vào thực tế. Một trong những ứng dụng có thể là dự đoán các thuộc tính hoá học phục vụ cho y học như sản xuất thuốc và điều chế các hợp chất, hay phân cụm người dùng trên nền tảng số và các mạng xã hội… 5. Kết quả nghiên cứu 6

CHƯƠNG 1: MÔ HÌNH MẠNG NƠ -RON ĐỒ THỊ Nội dung chính của Chương 1 này sẽ giới thiệu các kiến thức cơ bản liên quan đến đồ thị, bên cạnh đó sẽ trình bày về cơ chế hoạt động của một số mạng nơ ron đồ thị điển hình được sử dụng để học biểu diễn đồ thị, bao gồm: mạng tích chập đồ thị (GCN), mạng chú ý đồ thị (GAT) và mạng tích chập đồ thị có cổng (GatedGCN). Các kiến trúc mạng nơ ron đồ thị này sẽ được thử nghiệm trong Chương 3 trên các bộ dữ liệu về đồ thị với mục đích đánh giá hiệu năng của các mô hình. tưởng cơ bản của mô hình mạng tích chập đồ thị xuất phát từ cơ chế hoạt động của mạng nơ ron tích chập (CNN), đó là tổng hợp thông tin dựa trên vùng lân cận. Mô hình GCN được thiết kế khá đơn giản nhưng vẫn còn những hạn chế: + Yêu cầu về bộ nhớ: do phải lưu trữ trọng số và toàn bộ ma trận kề ��� nên nếu dữ liệu đồ thị bao gồm một số lượng lớn các nút thì chi phí lưu trữ là rất cao, đôi khi là không khả thi để có thể thực hiện tính toán. + Mô hình GCN hiện tại chưa tận dụng được các đặc trưng liên quan đến cạnh của đồ thị. + Với một nút đang xét trên đồ thị, việc cộng ma trận kề với ma trận đơn vị để có thêm đặc trưng của chính nút đó, cách làm này đang giả định là vai trò của một nút và các nút lân cận là như nhau. Điểm khác biệt của mô hình mạng chú ý đồ thị so với mô 7

hình mạng tích chập đồ thị là xây dựng trọng số giữa hai nút trên đồ thị thông qua cơ chế chú ý. Từ đó trong quá trình tổng hợp thông tin từ vùng lân cận, những nút quan trọng hơn sẽ nhận được trọng số có giá trị lớn hơn. mô hình GAT với cơ chế chú ý có một số đặc điểm như sau: + Việc tính toán trên các cặp nút láng giềng của đồ thị có thể thực hiện song song, do đó mô hình hoạt động khá hiệu quả. + Mô hình có thể áp dụng trên các nút của đồ thị có giá trị bậc khác nhau và xác định trọng số tu ý cho các nút vùng lân cận. + Mô hình có thể áp dụng để giải quyết các vấn đề huấn luyện quy nạp một cách dễ dàng. Mô hình mạng tích chập đồ thị có cổng được coi như một biến thể khác của mô hình GCN là vì GatedCNN sử dụng vector đặc trưng của cả nút đang xét và các nút thuộc lân cận. Có nhiều kĩ thuật được áp dụng trong mô hình GatedGCN bao gồm: các kết nối dư, chu n hoá theo lô và các cổng mang thông tin về cạnh của đồ thị. mô hình GatedGCN có một số điểm đặc biệt sau: + Kết nối dư có vai trò giữ lại thông tin, tạo điều kiện thuận lợi cho việc huấn luyện các mạng sâu hơn. + Trọng số giữa hai nút lân cận hoạt động tương tự như một cơ chế chú ý. + Kĩ thuật chu n hoá theo lô giúp ổn định hơn trong quá trình huấn luyện. 8

CHƯƠNG 2: MÔ HÌNH TRANSFORMER ĐỒ THỊ Nội dung chính của Chương 2 là xây dựng mô hình Transformer đồ thị (GTN), mô hình này cũng được sử dụng để học biểu diễn đồ thị tương tự như các mô hình GCN, GAT, GatedGCN được trình bày trong Chương 1. Điểm khác biệt ở đây là mô hình GTN được xây dựng dựa trên cơ chế hoạt động của mô hình Transformer. Chương này sẽ được chia thành hai phần chính: phần đầu sẽ trình bày tổng quan về kiến trúc và cơ chế hoạt động của mô hình Transformer thông thường, phần thứ hai sẽ trình bày ý tưởng xây dựng mô hình Transformer đồ thị (GTN). Xử lí ngôn ngữ tự nhiên (NLP) là một nhánh của trí tuệ nhân tạo, chuyên nghiên cứu về sự tương tác giữa ngôn ngữ con người với máy tính. Lĩnh vực này gồm hai hướng chính, đó là xử lí tiếng nói và xử lí văn bản. Trong khi các nhiệm vụ của xử lí tiếng nói thiên về việc xây dựng các thuật toán dựa trên dữ liệu âm thanh, thì xử lí văn bản lại tập trung giải quyết các vấn đề liên quan đến văn bản hay có thể gọi là dữ liệu ở dạng text. Trải qua lịch sử phát triển không ngừng nghỉ, trong suốt một thập kỉ vừa qua, ngành NLP nói chung hay xử lí văn bản nói riêng đã có những bước phát triển vượt bậc đáng chú ý, đem đến nhiều thay đổi tích cực cả về mặt nghiên cứu và ứng dụng. Bước tiến lớn đầu tiên xuất hiện vào năm 2013 với nghiên 9

cứu liên quan đến Word2Vec, các vector biểu diễn của từ sẽ được học và lưu trữ trong lớp nhúng của một mạng nơ ron thông qua quá trình huấn luyện. Phương pháp Word2Vec được chứng minh là có hiệu quả hơn trong việc tạo vector biểu diễn từ so với cách biểu diễn thưa truyền thống (mã hoá one-hot). Word2Vec giúp tiết kiệm bộ nhớ, giảm thời gian tính toán và cải thiện hiệu suất đáng kể trên các nhiệm vụ phía sau. Nhờ vào những tiến bộ trong khả năng tính toán của máy tính, năm 2014 và 2015 đã đánh dấu sự trở lại của các mô hình mạng nơ ron hồi quy (RNN), được ứng dụng chủ yếu đối với dữ liệu dạng tuần tự. Mạng bộ nhớ ngắn hạn dài (LSTM) là một biến thể của RNN, dùng để khắc phục hạn chế lớn nhất của mô hình RNN thông thường đó là không thể lưu thông tin của chuỗi dữ liệu có độ dài lớn. Ngoài ra, RNN còn một biến thể khác có tên gọi là nút hồi tiếp có cổng (GRU), về bản chất thì GRU hoạt động tương tự LSTM, tuy nhiên mỗi mô hình đều có ưu nhược điểm riêng. Thông thường LSTM có thể lưu trữ thông tin với dữ liệu dài hơn so với GRU. Nhưng do tính chất cấu tạo đơn giản của mình, GRU thường xử lý nhanh hơn LSTM và có thể dễ dàng sử dụng để xây dựng các mạng có cấu trúc phức tạp. Ở thời điểm đó, các mô hình RNN và biến thể đã thu được nhiều kết quả đáng chú ý liên quan đến các tác vụ xử lí ngôn ngữ. Trong năm 2015 – 2016, các mạng nơ ron sử dụng cơ chế chú ý (gọi 10

tắt là mạng chú ý) trở nên phổ biến, và thay thế dần các mạng RNN trước đó. Ý tưởng cơ bản của cơ chế chú ý là cố gắng lựa chọn những phần quan trọng trên dữ liệu đầu vào, từ đó phân bổ sự chú ý sao cho phù hợp nhất. Các mạng chú ý đã thu được những kết quả tốt, và đặc biệt là yêu cầu ít tài nguyên tính toán hơn. Được Google công bố vào năm 2017, mô hình Transformer là một trong những ví dụ điển hình của mạng chú ý được dùng để học biểu diễn các thành phần trong dữ liệu ở dạng chuỗi. Khác với việc các mô hình RNN sẽ xử lí dữ liệu chuỗi một cách tuần tự, mô hình Transformer có khả năng tính toán song song dựa trên cơ chế chú ý và kĩ thuật mã hoá vị trí của từng phần tử trong một chuỗi. Ưu điểm này giúp mô hình Transformer có thể tận dụng tốt khả năng tính toán song song của GPU, giảm thiểu đáng kể thời gian huấn luyện. Tính đến thời điểm hiện tại, mô hình Transformer và các biến thể (ví dụ như: BERT, ERNIE 2.0, XLNet) đã thu được kết quả vượt trội hơn hẳn trên các nhiệm vụ xử lí ngôn ngữ, cụ thể như: dịch máy, mô hình hoá ngôn ngữ, hỏi đáp tự động … Trong xử lí ngôn ngữ tự nhiên, với mỗi từ trong một câu, mô hình Transformer sẽ xây dựng đặc trưng của từ bằng cách sử dụng cơ chế chú ý, cơ chế này tìm kiếm mức độ quan trọng của các từ còn lại so với từ đó rồi tiến hành mã hoá thông tin. Các 11

nhà khoa học đã đặt ra một giả thiết, đó là đầu vào của mô hình Transformer là một câu giống như một đồ thị đầy đủ, vì để thể hiện ý nghĩa trọn vẹn của một câu thì mỗi từ trong câu đều có liên kết về mặt ngữ nghĩa với các từ còn lại. Dưới góc nhìn của một bài toán về đồ thị, quá trình mô hình Transformer học biểu diễn các từ trên một câu cũng tương tự với việc học biểu diễn các nút trên một đồ thị kết nối đầy đủ, mỗi nút của đồ thị có thể đại diện cho một từ của câu. Giả thiết về việc mô hình Transformer sẽ nhận đầu vào tương tự như một đồ thị có kết nối đầy đủ là hoàn toàn phù hợp bởi hai lí do sau. Thứ nhất, các kết nối thưa rất khó để biểu diễn được hết ý nghĩa của các từ trong một câu. Thực tế, sự phụ thuộc của một từ vào từ khác trong câu có thể thay đổi tu theo ngữ cảnh, hoặc cách nghĩ của người sử dụng. Thứ hai, số lượng từ trong một câu chỉ dao động đến vài trăm từ là nhiều, nên việc huấn luyện mô hình Transformer trên một đồ thị đầy đủ là khả thi về mặt tính toán. Giả thiết này đã mở ra một hướng nghiên cứu mới, với mục đích chính là nghiên cứu mở rộng việc áp dụng mô hình Transformer trên dữ liệu dạng đồ thị bất kì, thay vì ví mô hình Transformer thông thường chỉ nhận đầu vào là một đồ thị đầy đủ. Từ đó, kiến trúc mạng Transformer đồ thị (GTN) được đề xuất, GTN sẽ nhận đầu vào là một đồ thị bất kì, sử dụng cơ chế 12

hoạt động của mô hình Transformer để sinh ra các vector đặc trưng của nút hoặc cạnh tương ứng trên đồ thị. Xét về bản chất, mô hình GTN hoạt động tương tự như các mạng nơ ron đồ thị khác, đó là học biểu diễn đặc trưng của một đồ thị bất kì, từ đó áp dụng vào giải các bài toán liên quan đến đồ thị chẳng hạn như phân cụm nút, hồi quy đồ thị. Mô hình Transformer đồ thị được thiết kế theo hai hướng: + Mô hình thứ nhất chỉ nhận đầu vào là thông tin các nút của đồ thị, gọi là lớp Transformer đồ thị. + Mô hình thứ hai nhận đầu vào bao gồm thông tin của cả nút và cạnh đồ thị, được áp dụng trong trường hợp đồ thị có thêm thông tin về cạnh cần mã hoá, gọi là lớp Transformer đồ thị với các đặc trưng của cạnh. Vì số lượng nút của một đồ thị trên thực tế có thể lên đến hàng triệu hoặc hàng tỉ nút, do đó cơ chế chú ý xây dựng đặc trưng cho mỗi nút trên đồ thị chỉ dựa trên thông tin của các nút lân cận. Để mã hoá vị trí của các nút trên đồ thị, ta sẽ sử dụng các vector riêng của ma trận dẫn nạp. Các vector riêng này được xác định thông qua việc phân tích nhân tử của ma trận dẫn nạp, ma trận này đã được chu n hoá đối xứng. Về bản chất, đây có thể coi là một phương pháp nhúng đồ thị vào không gian Euclide, các vector riêng tạo thành một hệ toạ độ địa phương có 13

ý nghĩa và vẫn bảo toàn được cấu trúc đồ thị. Các vector riêng sẽ có hệ số giao động trong khoảng [-1, 1] sau khi được chu n hoá theo độ dài đơn vị, trong quá trình huấn luyện, dấu của các vector này cũng sẽ được thay đổi một cách ngẫu nhiên. Ta sẽ sử dụng k vector riêng không tầm thưởng nhỏ nhất để xây dựng các vector mã hoá vị trí của từng nút, kí hiệu là tương ứng với nút thứ i trên đồ thị. Nếu như mô hình Transformer thông thường được coi chỉ nhận đầu vào là một đồ thị đầy đủ, thì mô hình GTN hoạt động với cơ chế chú ý và kĩ thuật mã hoá vị trí được lấy ý tưởng từ mô hình Transformer có thể học biểu diễn một đồ thị bất kì, sau đó áp dụng giải các bài toán có liên quan đến đồ thị. Mô hình GTN được thiết kế trong hai trường hợp, giúp tận dụng thêm cả đặc trưng về cạnh trong trường hợp đồ thị có sẵn các thông tin liên quan đến cạnh nối giữa các nút. CHƯƠNG 3: THỰC NGHIỆM VÀ KẾT QUẢ Nội dung chính của Chương 3 là đánh giá hiệu năng của mô hình GTN bằng cách so sánh các kết quả của mô hình GTN với ba mô hình mạng nơ ron đồ thị khác được trình bày trong Chương 1 trên bốn bộ dữ liệu về đồ thị thường được sử dụng trong nghiên cứu gồm: ZINC, PATTERN, CLUSTER và Lipophicility. Trong đó, ZINC và Lipophicility là hai bộ dữ 14

liệu ứng với nhiệm vụ hồi quy đồ thị, dự đoán các thuộc tính hoá học của một hợp chất, còn PATTERN và CLUSTER là hai bộ dữ liệu ứng với nhiệm vụ phân loại nút. Cơ sở dữ liệu ZINC là một tập hợp các hợp chất hoá học có sẵn trên thị trường được tuyển chọn, được chu n bị đặc biệt cho sàng lọc ảo. ZINC thường được sử dụng với mục đích nghiên cứu bởi các nhà sinh học hay nhà hoá học trong các công ty dược ph m, công ty công nghệ sinh học và các trường đại học. ZINC bao gồm 250K phân tử, mỗi phân tử có một giá trị hoà tan hạn chế và được biểu diễn dưới dạng một đồ thị phân tử. Một tập con gồm 12K đồ thị được lọc ra từ bộ dữ liệu gốc, chia thành 10K huấn luyện, 1K kiểm chứng và 1K kiểm thử. Bộ dữ liệu gồm 12K đồ thị này sẽ được sử dụng trong việc đánh giá và so sánh các mô hình GNN, với nhiệm vụ hồi quy thuộc tính đồ thị ứng với độ hoà tan hạn chế. Đối với mỗi đồ thị phân tử, đặc điểm nút là loại nguyên tử nặng, đặc điểm cạnh là loại liên kết giữa các nguyên tử. Bộ dữ liệu ZINC có tổng cộng 28 loại nguyên tử, 4 loại liên kết cạnh. PATTERN và CLUSTER là hai bộ dữ liệu đồ thị được sinh ra bởi mô hình Stochastic Block (SBM), thường được sử dụng rộng rãi trong các nghiên cứu về mô hình hoá cộng đồng trên mạng xã hội bằng cách điều chỉnh các kết nối trong và ngoài cộng đồng. Cụ thể hơn, trong luận văn, chúng ta sẽ sử dụng hai 15

bộ dữ liệu này trong nhiệm vụ phân loại nút của đồ thị. Bộ dữ liệu PATTERN có tổng cộng 14K đồ thị, được chia thành 10K huấn luyện, 2K kiểm chứng và 2K kiểm thử. Nhiệm vụ ở đây là phân loại các nút của đồ thị thành hai cụm khác nhau. Bộ dữ liệu CLUSTER có tổng cộng 12K đồ thị, được chia thành 10K huấn luyện, 1K kiểm chứng và 1K kiểm thử. Nhiệm vụ ở đây là phân loại các nút của đồ thị thành sáu cụm khác nhau. Bộ dữ liệu Lipophicility chứa thông tin về hệ số phân tán octanol/nước của 4200 hợp chất. Hệ số này hiểu đơn giản là tỉ lệ so sánh giữa mức tan trong mỡ và mức tan trong nước của một chất, đóng vai trò quan trọng trong việc điều chế thuốc y học. Bộ dữ liệu thường được sử dụng để đo điểm chu n của các phương pháp trong việc nghiên cứu mô hình hồi quy, tin học và hoá học. Bộ dữ liệu Lipophicility gồm 4200 đồ thị phân tử hợp chất được chia theo tỉ lệ 3.360 huấn luyện, 420 kiểm chứng và 420 kiểm thử, được sử dụng trong bài toán hồi quy đồ thị với mục đích dự đoán hệ số phân tán octanol/nước của các hợp chất. Với nhiệm vụ hồi quy đồ thị, ta sử dụng tiêu chu n đánh giá là sai số tuyệt đối trung bình (MAE) hoặc căn bậc hai của sai số toàn phương trung bình (RMSE). Giá trị RMSE hoặc MAE càng nhỏ thì mô hình càng có độ tin cậy cao do sai số giữa giá trị dự đoán và giá trị thực là thấp, ngược lại nếu giá trị RMSE 16

hoặc MAE lớn chứng tỏ mô hình hoạt động chưa tốt. Với nhiệm vụ phân loại nút, ta sử dụng tiêu chu n đánh giá là độ chính xác có trọng số phụ thuộc số lượng lớp, kí hiệu là ACC. Cách đánh giá này sẽ tính trung bình độ chính xác của tất cả các lớp, trong đó, độ chính xác của một lớp được tính bằng cách lấy số trường hợp dự đoán đúng của lớp chia cho tổng số trường hợp thuộc lớp đó. Giá trị ACC càng cao thì mô hình cho kết quả càng chính xác. Các kết quả tự thực nghiệm trên bộ dữ liệu ZINC cũng khá tương đồng so với các kết quả của bài báo đưa ra. ZINC là bộ dữ liệu đồ thị phân tử có tử có thêm thông tin về cạnh, kết quả thực nghiệm cũng chỉ ra rằng việc sử dụng thêm thông tin về cạnh giúp mô hình GTN-E có kết quả tốt hơn so với mô hình GTN. Mô hình GTN cho kết quả tốt hơn hẳn so với hai mô hình là GCN và GAT, và GTN-E kém hơn một chút so với mô hình GatedGCN, điều đó cho thấy kiến trúc GTN hoạt động khá hiệu quả trên bộ dữ liệu ZINC. Các kết quả thực nghiệm trên bộ dữ liệu PATTERN cũng khá tương đồng so với các kết quả của bài báo đưa ra. Mô hình GTN cho kết quả vượt trội hơn hẳn so với hai mô hình GCN và GAT và tiệm cận với kết quả tốt nhất của GatedGCN, điều đó cho thấy kiến trúc mô hình GTN được thiết kế hoạt động tốt trên bộ dữ liệu PATTERN. 17

Các kết quả thực nghiệm trên bộ dữ liệu CLUSTER cũng khá tương đồng so với các kết quả của bài báo đưa ra. Mô hình GTN cho kết quả vượt trội hơn hẳn so với hai mô hình GCN, tiệm cận mô hình GAT và chưa thực sự tốt so với mô hình GatedGCN, điều đó cho thấy kiến trúc mô hình GTN chưa thực sự hoạt động tốt trên bộ dữ liệu CLUSTER. Các kết quả tự thực nghiệm trên bộ dữ liệu Lipophicility của mô hình GTN là chưa tốt nếu so với ba mô hình mạng nơ ron đồ thị GCN, GAT và GatedGCN, điều đó cho thấy kiến trúc mô hình GTN chưa thực sự hoạt động tốt trên bộ dữ liệu này. Kết quả thực nghiệm của mô hình Transformer đồ thị là tương đối tốt nếu so sánh với các mô hình mạng nơ ron đồ thị khác trên hầu hết các thực nghiệm, điều đó cho thấy việc thiết kế kiến trúc mô hình GTN là có ý nghĩa về mặt khoa học. Nếu như mô hình Transformer truyền thống được coi là chỉ áp dụng trên một đồ thị đầy đủ, thì giờ đây mô hình Transformer đồ thị giống như phiên bản mở rộng của mô hình Transformer thông thường, có thể nhận đầu vào là một đồ thị bất kì. Từ đó, mô hình Transformer đồ thị được áp dụng để học biểu diễn đồ thị tương tự như các mạng nơn ron đồ thị khác, giải quyết các vấn đề liên quan đến đồ thị như phân cụm nút, hồi quy đồ thị, đối sánh đồ thị, vv… Cơ chế chú ý nhiều đầu và kĩ thuật mã hoá vị trí được sử 18

dụng trong mạng Transformer đồ thị được lấy cảm hứng từ mô hình Transformer gốc, được coi là chìa khoá giúp mô hình Transformer đồ thị có kết quả vượt trội hơn hẳn trên hầu hết các thực nghiệm so với các mô hình mạng nơ ron đồ thị khác như GCN và GAT. Mô hình Transformer đồ thị được thiết kế thêm cổng tận dụng thông tin các thuộc tính của cạnh cho kết quả tiệm cận với mô hình mạng nơ ron đồ thị tốt nhất là GatedGCN trong một số thực nghiệm. Kiến trúc này thực sự hữu ích khi áp dụng để phân tích các bộ dữ liệu đồ thị chứa thông tin liên kết giữa các nút với nhau. Mục đích chính của luận văn là tìm hiểu và đánh giá hiệu năng của mô hình Transformer đồ thị, cũng như là đánh giá lại các kết quả được công bố trong ba bài báo khoa học, do đó trong Chương 3 thực nghiệm có sử dụng ba thang đo đánh giá hiệu năng của mô hình khác nhau, và từ đó ta có nhận xét các kết quả thực nghiệm tương đương với các kết quả được công bố. KẾT LUẬN VÀ KIẾN NGHỊ Các kết quả thực nghiệm trong Chương 3 đã chỉ ra rằng việc đề xuất kiến trúc Transformer đồ thị là có ý nghĩa về mặt khoa học. Các kết quả thực nghiệm này không chỉ mang ý nghĩa kiểm 19

định, mà còn mang ý nghĩa thực tiễn cho dù mới chỉ áp dụng trên các bộ dữ liệu dùng trong nghiên cứu. Các mô hình được thực nghiệm trong nhiệm vụ phân loại nút hoàn toàn có thể áp dụng trong thực tế, chẳng hạn như phân cụm người dùng trên các mạng xã hội hay nền tảng số. Các mô hình được thực nghiệm trong nhiệm vụ hồi quy đồ thị có thể được sử dụng để dự đoán các thuộc tính hoá học của một chất, phục vụ cho y học trong sản xuất thuốc và điều chế hợp chất. Phần này cũng trình bày thêm về một số hướng phát triển của luận văn trong tương lai. Hướng nghiên cứu liên quan đến kiến trúc mạng Transformer hoạt động trên dữ liệu dạng đồ thị vẫn còn là một chủ đề khá mới và thách thức ở thời điểm hiện tại. Kiến trúc mô hình Transformer đồ thị trong luận văn mới có thể ứng dụng được trên dữ liệu đồ thị dạng đồng nhất. Trong thực tế, dữ liệu đồ thị ở dạng không đồng nhất chiếm đa số, đồ thị tri thức là một ví dụ điển hình. Vì vậy, tôi tin rằng việc nghiên cứu mô hình Transformer đồ thị ứng dụng cho dữ liệu đồ thị dạng không đồng nhất là một hướng phát triển tốt liên quan đến chủ đề này trong tương lai. 20


Like this book? You can publish your book online for free in a few minutes!
Create your own flipbook