กูเกิลพัฒนาเทคนิคสร้างปัญญาประดิษฐ์สรุปบทความ โดยอาศัยตัวอย่างการสรุปบทความเพียง 1,000 ตัวอย่าง

กูเกิลพัฒนาเทคนิคสร้างปัญญาประดิษฐ์สรุปบทความ โดยอาศัยตัวอย่างการสรุปบทความเพียง 1,000 ตัวอย่าง

โดย: Administrator

เมื่อ: 11/06/2563 11:15:13

Tags: Artificial Intelligence, Google, AI, AI Article, AI training,

ปัญญาประดิษฐ์กลุ่มหนึ่งที่เป็นที่สนใจในช่วงหลังคือการสรุปบทความ (text summarization) ที่สร้างปัญญาประดิษฐ์ที่รับอินพุตเป็นบทความขนาดยาว แต่สามารถสรุปใจความสำคัญออกมาได้ภายในประโยคเดียว ปัญหาสำคัญคือการสร้างตัวอย่างการสรุปบทความนั้นทำได้ยาก และต้องใช้แรงงานสูง ตอนนี้กูเกิลก็นำเสนองานวิจัย PEGASUS (Pre-training with Extracted Gap-sentences for Abstractive SUmmarization Sequence-to-sequence models) ที่สามารถสรุปบทความได้ใกล้เคียงกับปัญญาประดิษฐ์อื่นๆ โดยใช้ตัวอย่างการสรุปบทความเพียงเล็กน้อยเท่านั้น

เทคนิคของกูเกิลอาศัยอินพุตเป็นบทความอื่นๆ โดยไม่มีสรุปซึ่งหาชุดข้อมูลได้ง่ายโดยทั่วไป แล้วสร้างปัญญาประดิษฐ์ด้วยการลบบางประโยคออกจากบทความ จากนั้นฝึกปัญญาประดิษฐ์ให้พยายามสร้างประโยคนั้นๆ กลับขึ้นมาใหม่ เรียกเทคนิคนี้ว่าการสร้างประโยคที่หายไป (gap sentences generation - GSG) โดยชุดข้อมูลที่ใช้ฝึกเบื้องต้นนี้มีสองชุดข้อมูล ได้แก่ C4 บทความจากเว็บที่ดูดมาขนาด 750GB จาก 350 ล้านเว็บ และ HugeNews บทความข่าวที่ดูดมาขนาด 3.8TB รวม 1,500 ล้านบทความ โดยบทความเหล่านี้ไม่มีสรุปแต่อย่างใด หลังจากนั้นจึงมาฝึกกับชุดข้อมูลสรุปบทความโดยเฉพาะที่มีขนาดเล็กกว่า โดยชุดข้อมูล Gigaword ที่ใหญ่ที่สุดมีจำนวน 4 ล้านบทความเท่านั้น

มวิจัยวัดคะแนนสุดท้ายด้วยการจ้างคนมาให้คะแนนการสรุปแบบ 1-5 คะแนน จากตัวอย่างสรุป 4 ชุดโดยมีตัวอย่างจากการสรุปของคนจริงๆ ผสมไปด้วย และพบว่าการฝึกเพิ่มเติมกับตัวอย่างที่มีข้อมูลสรุปมาเป็นเฉลยเพียง 1,000 ชุดก็สามารถทำคะแนนได้ดีกว่าการสรุปของคนจริงๆ ไป 6 ชุดข้อมูล จาก 12 ชุดข้อมูล

รูปแบบการฝึก GSG ที่ปัญญาประดิษฐ์ฝึกสร้างประโยคที่หายไปในชุดข้อมูลที่ไม่มีบทสรุปตัวอย่างให้



ที่มา : blognone.com

กลับ