วิวัฒนาการของเทคโนโลยีการรู้จำเสียงพูด

วิวัฒนาการของเทคโนโลยีการรู้จำเสียงพูด
จำได้ไหมเมื่อไอเดีย KITT รถพูดได้ จาก Knight Rider โดนใจคุณอีกแล้ว? หรือเมื่อ Blade Runner Eric Decker สั่งด้วยวาจาให้คอมพิวเตอร์ของเขาปรับปรุงภาพถ่ายสถานที่เกิดเหตุ? แนวคิดในการให้คอมพิวเตอร์เข้าใจนั้นดูค่อนข้างล้ำสมัย นับประสาอะไรกับแนวคิดที่สามารถตอบคำถามของคุณและเข้าใจคำสั่งของคุณได้ เกี่ยวกับผู้เขียน Graeme John Cole เป็นผู้มีส่วนร่วมใน Rev.ai ผู้สร้าง Rev.ai ซึ่งเป็นเครื่องมือรู้จำเสียงอัตโนมัติที่แม่นยำที่สุดในโลก วันนี้เราทุกคนพก KITT ไว้ในกระเป๋าของเรา เราถอนหายใจเมื่อ KITT รับโทรศัพท์ที่ธนาคาร บุคลิกภาพยังไม่มี แต่คอมพิวเตอร์สามารถจดจำคำพูดที่เราพูดได้เกือบสมบูรณ์แบบ Michael Knight ฮีโร่ Knight Rider ที่ร่วมมือกับรถอัจฉริยะของเขาเพื่อต่อสู้กับอาชญากรรม สงสัยว่า KITT จะเข้าใจคำถามของเขาในปี 1982 แต่การพัฒนาเทคโนโลยีการจดจำเสียงได้ดำเนินการมาตั้งแต่ปี 1950 ด้านล่างนี้คือวิธีที่เทคโนโลยีนี้มีการพัฒนา นานนับปี. และวิธีการใช้การรู้จำเสียงและความสามารถในการแปลงข้อความเป็นคำพูดของเราได้พัฒนาไปพร้อมกับเทคโนโลยีอย่างไร

กล่องรองเท้า IBM

(เครดิตรูปภาพ: IBM)

คอมพิวเตอร์เครื่องแรกที่ฟัง พ.ศ. 1950-1980

พลังของการรู้จำเสียงอัตโนมัติ (ASR) หมายความว่าการพัฒนานั้นมีความเกี่ยวข้องกับชื่อใหญ่มาโดยตลอด Bell Laboratories เป็นผู้นำร่วมกับ AUDREY ในปี 1952 ระบบ AUDREY จดจำตัวเลขที่พูดด้วยความแม่นยำ 97 ถึง 99% ภายใต้สภาวะที่ได้รับการควบคุมอย่างระมัดระวัง อย่างไรก็ตาม ตามที่ James Flanagan นักวิทยาศาสตร์และอดีตวิศวกรไฟฟ้าของ Bell Labs กล่าวว่า AUDREY กำลังนั่งอยู่บน "แท่นรีเลย์สูง 1962 ฟุต ใช้พลังงานจำนวนมาก และแสดงให้เห็นถึงปัญหาการบำรุงรักษานับไม่ถ้วนที่เกี่ยวข้องกับวงจรที่ซับซ้อนของรีเลย์" หลอดเปล่า". AUDREY มีราคาแพงเกินไปและใช้งานไม่ได้ แม้แต่ในกรณีการใช้งานเฉพาะทางก็ตาม IBM ตามมาในปี 0 ด้วย Shoebox ซึ่งจดจำตัวเลขและคำศัพท์ทางคณิตศาสตร์อย่างง่าย ในช่วงเวลานี้ ห้องทดลองของญี่ปุ่นได้พัฒนาการจดจำเสียงสระและหน่วยเสียงและส่วนแรกของการพูด คอมพิวเตอร์ที่จะเข้าใจตัวเลขช่วงเล็กๆ (เช่น 9 ถึง 1970) ถือเป็นเรื่องหนึ่ง แต่ความก้าวหน้าของมหาวิทยาลัยเกียวโตคือการ "แบ่งกลุ่ม" เส้นคำพูด เพื่อให้เทคโนโลยีนี้สามารถทำงานกับเสียงพูดที่หลากหลายได้ ในปี 1.011 กระทรวงกลาโหม (DARPA) ให้ทุนสนับสนุนโครงการวิจัยความเข้าใจคำพูด (SUR) ผลของการวิจัยครั้งนี้ ได้แก่ ระบบรู้จำเสียงพูด HARPY ของ Carnegie Mellon HARPY จดจำประโยคจากคำศัพท์ 1980 คำ ทำให้ระบบมีพลังเท่ากับเด็กอายุ 1980 ขวบโดยเฉลี่ย ตอนที่ฉันอายุได้ 20.000 ขวบ การจดจำเสียงตอนนี้น่ารักและมีศักยภาพ แต่ฉันไม่อยากใช้ในออฟฟิศ HARPY เป็นหนึ่งในคนกลุ่มแรกๆ ที่ใช้ Hidden Markov Models (HMM) วิธีการความน่าจะเป็นนี้นำไปสู่การพัฒนา ASR ในทศวรรษ XNUMX อันที่จริง ในทศวรรษ XNUMX กรณีการใช้งานที่เป็นไปได้ครั้งแรกสำหรับเครื่องมือแปลงข้อความเป็นคำพูดปรากฏขึ้นพร้อมกับ Tangora ระบบถอดความแบบทดลองของ IBM ด้วยการฝึกอบรมที่เหมาะสม Tangora สามารถจดจำและเขียนคำศัพท์ภาษาอังกฤษได้ XNUMX คำ อย่างไรก็ตาม ระบบยังคงหนักเกินไปสำหรับการใช้งานเชิงพาณิชย์

ASR ในระดับผู้บริโภค ตั้งแต่ปี 1990 ถึง 2010

“เราคิดว่ามันผิดที่จะขอให้เครื่องจักรเลียนแบบผู้คน” Fred Jelinek ผู้ริเริ่มการรู้จำเสียงที่ IBM เล่า “ท้ายที่สุดแล้ว หากเครื่องจักรต้องเคลื่อนที่ มันก็เคลื่อนที่ด้วยล้อ ไม่ใช่เดิน แทนที่จะศึกษาอย่างละเอียดถี่ถ้วนว่าผู้คนได้ยินและเข้าใจคำพูดอย่างไร เราต้องการหาวิธีที่เป็นธรรมชาติสำหรับเครื่องที่จะทำสิ่งนี้ ขณะนี้การวิเคราะห์ทางสถิติเป็นแรงผลักดันเบื้องหลังวิวัฒนาการของเทคโนโลยี ASR ในปี 1990 Dragon Dictate เปิดตัวเป็นซอฟต์แวร์รู้จำเสียงเชิงพาณิชย์ตัวแรก มีค่าใช้จ่าย 9,000 ยูโร หรือประมาณ 18,890 ยูโรในปี 2021 รวมอัตราเงินเฟ้อแล้ว จนกระทั่ง Dragon Naturally Speaking วางจำหน่ายในปี 1997 ผู้ใช้ยังคงต้องหยุดระหว่างแต่ละคำ ในปี 1992 AT&T ได้เปิดตัวบริการประมวลผลการโทรด้วยการจดจำเสียง (VRCP) ของ Bell Labs ปัจจุบัน VRCP ประมวลผลธุรกรรมเสียงประมาณ 1.200 พันล้านรายการในแต่ละปี แต่งานการรู้จำเสียงส่วนใหญ่ในปี 1990 เกิดขึ้นภายใต้ประทุน คอมพิวเตอร์ส่วนบุคคลและเครือข่ายที่แพร่หลายได้สร้างนวัตกรรมมุมใหม่ นั่นคือโอกาสที่ค้นพบโดย Mike Cohen ซึ่งร่วมงานกับ Google เพื่อเปิดตัวความพยายามด้านเทคโนโลยีเสียงของบริษัทในปี 2004 Google Voice Search (2007) ได้นำเทคโนโลยีการจดจำเสียงมาสู่คนทั่วไป แต่ยังรีไซเคิลข้อมูลเสียงจากผู้ใช้เครือข่ายหลายล้านรายเพื่อเป็นสื่อการฝึกอบรมสำหรับการเรียนรู้ของเครื่องอีกด้วย และมีน้ำหนักในการประมวลผลของ Google เพื่อปรับปรุงคุณภาพ Apple (Siri) และ Microsoft (Cortana) ติดตามเพียงเพื่ออยู่ในเกมต่อไป ในช่วงต้นปี 2010 การเกิดขึ้นของการเรียนรู้เชิงลึก โครงข่ายประสาทที่เกิดซ้ำ (RNN) และหน่วยความจำระยะยาว (LSTM) นำไปสู่การก้าวกระโดดด้านขีดความสามารถของเทคโนโลยี ASR โมเมนตัมไปข้างหน้านี้ยังได้รับแรงผลักดันส่วนใหญ่จากการเกิดขึ้นและความพร้อมใช้งานที่มากขึ้นของการประมวลผลที่มีต้นทุนต่ำและความก้าวหน้าทางอัลกอริธึมขนาดใหญ่

ภาพหน้าจอของ WWDC 2021

(เครดิตรูปภาพ: Apple)

สถานะปัจจุบันของ ASR

จากการพัฒนาที่สืบทอดมาหลายทศวรรษ และเพื่อตอบสนองต่อความคาดหวังของผู้ใช้ที่เพิ่มขึ้น เทคโนโลยีการจดจำเสียงได้พัฒนาความก้าวหน้าเพิ่มเติมในช่วงครึ่งทศวรรษที่ผ่านมา โซลูชันเพื่อปรับความเที่ยงตรงของเสียงที่แปรผันให้เหมาะสมและความต้องการฮาร์ดแวร์ที่มีความต้องการสูง ช่วยให้ใช้งานการรู้จำเสียงในชีวิตประจำวันได้ง่ายขึ้นผ่านการค้นหาด้วยเสียงและอินเทอร์เน็ตในทุกสิ่ง ตัวอย่างเช่น ลำโพงอัจฉริยะใช้การตรวจจับคำหลักเพื่อให้ผลลัพธ์ทันทีโดยใช้ซอฟต์แวร์ในตัว ในระหว่างนี้ ประโยคที่เหลือจะถูกส่งไปยังระบบคลาวด์เพื่อประมวลผล VoiceFilter-Lite ของ Google เพิ่มประสิทธิภาพคำพูดของบุคคลเมื่อสิ้นสุดการทำธุรกรรมบนอุปกรณ์ ช่วยให้ผู้บริโภค "ฝึก" อุปกรณ์ของตนด้วยเสียงได้ การฝึกอบรมจะช่วยลดอัตราส่วนแหล่งที่มาต่อการบิดเบือน (SDR) และปรับปรุงการใช้งานแอปพลิเคชันช่วยเหลือที่สั่งงานด้วยเสียง อัตราข้อผิดพลาดของคำ (WER คือเปอร์เซ็นต์ของคำที่ไม่ถูกต้องซึ่งปรากฏขึ้นระหว่างกระบวนการแปลงคำพูดเป็นข้อความ) ดีขึ้นอย่างมาก นักวิชาการแนะนำว่าภายในสิ้นปี 2020 งานถอดเสียง 99% จะเป็นไปโดยอัตโนมัติ มนุษย์จะเข้ามาแทรกแซงเพื่อการควบคุมคุณภาพและการแก้ไขเท่านั้น

กรณีการใช้งาน ASR ในปี 2020

ความสามารถของ ASR กำลังได้รับการปรับปรุงในด้าน symbiosis พร้อมการพัฒนาในยุคเครือข่าย ด้านล่างนี้เรานำเสนอกรณีการใช้งานที่น่าสนใจสามประการสำหรับการรู้จำคำพูดอัตโนมัติ อุตสาหกรรมพอดแคสต์จะทะลุหลักพันล้านดอลลาร์ในปี 2021 ผู้ชมมีจำนวนเพิ่มขึ้นอย่างรวดเร็วและมีคำพูดออกมาอย่างต่อเนื่อง แพลตฟอร์มพอดแคสต์กำลังมองหาผู้ให้บริการ ASR ที่มีความแม่นยำสูงและการประทับคำเพื่อช่วยให้ผู้คนสร้างพอดแคสต์ได้ง่ายขึ้น และเพิ่มมูลค่าของเนื้อหาให้สูงสุด ผู้ให้บริการอย่าง Descript จะแปลงพอดแคสต์เป็นข้อความที่สามารถแก้ไขได้อย่างรวดเร็ว นอกจากนี้ การประทับเวลาตามคำช่วยประหยัดเวลา ช่วยให้ผู้แก้ไขปรับแต่งพอดแคสต์ที่เสร็จแล้วได้เหมือนดินเหนียว การถอดเสียงเหล่านี้ยังช่วยให้ผู้ชมทุกคนเข้าถึงเนื้อหาได้มากขึ้น และช่วยให้ผู้สร้างปรับปรุงการค้นหาและการค้นพบรายการของตนผ่าน SEO ปัจจุบันมีการจัดการประชุมแบบออนไลน์มากขึ้นเรื่อยๆ และแม้กระทั่งผู้ที่ไม่ได้ลงทะเบียนบ่อยนัก การใช้เวลาเพียงไม่กี่นาทีมีราคาแพงและใช้เวลานาน แต่บันทึกการประชุมเป็นเครื่องมืออันทรงคุณค่าสำหรับผู้เข้าร่วมประชุมในการรับสรุปหรือตรวจทานรายละเอียด การสตรีม ASR นำเสนอการสังเคราะห์เสียงพูดแบบเรียลไทม์ ซึ่งหมายถึงการใช้คำบรรยายอย่างง่ายหรือการถอดเสียงสดสำหรับการประชุมและสัมมนา กระบวนการต่างๆ เช่น การฝากทางกฎหมาย การจ้างงาน ฯลฯ ไปเสมือนจริง ASR สามารถช่วยทำให้เนื้อหาวิดีโอนี้เข้าถึงและมีส่วนร่วมได้มากขึ้น แต่ที่สำคัญกว่านั้น โมเดลการเรียนรู้ของเครื่อง (ML) แบบ end-to-end (E2E) ช่วยปรับปรุงบันทึกของผู้พูดให้ดียิ่งขึ้น ซึ่งบันทึกว่าใครอยู่และใครพูดอะไร ในสถานการณ์ที่มีความเสี่ยงสูง การไว้วางใจในเครื่องมือเป็นสิ่งสำคัญ เครื่องมือแปลงคำพูดเป็นข้อความที่เชื่อถือได้พร้อม WER ต่ำพิเศษช่วยลดความลังเลและลดเวลาที่ต้องใช้ในการผลิตเอกสารขั้นสุดท้ายและการตัดสินใจ

ในไฟล์

คุณคิดว่า Knight Industries เคยประเมินการถอดเสียงบทสนทนาของ KITT และ Michael เพื่อปรับปรุงประสิทธิภาพหรือไม่ อาจจะไม่. แต่ด้วยแรงผลักดันจากการเปลี่ยนแปลงไปสู่การทำงานจากที่บ้านเมื่อเร็ว ๆ นี้ การสนทนาของเราจึงเกิดขึ้นทางออนไลน์หรือทางโทรศัพท์มากขึ้นเรื่อยๆ การประมวลผลภาษาธรรมชาติ (NLP) แบบเรียลไทม์ที่มีความแม่นยำสูงช่วยให้เรามีอำนาจเหนือคำพูดของเรา เพิ่มมูลค่าให้กับทุกปฏิสัมพันธ์ เครื่องมือเหล่านี้ไม่ได้จำกัดเฉพาะบริษัทยักษ์ใหญ่อย่าง IBM และ DARPA อีกต่อไป สิ่งเหล่านี้พร้อมให้ผู้บริโภค ธุรกิจ และนักพัฒนาใช้งานได้ตามจินตนาการของพวกเขา เนื่องจากเทคโนโลยีการจดจำเสียงมุ่งมั่นที่จะก้าวข้ามคำสัญญาของนิยายวิทยาศาสตร์ สนใจในการรู้จำเสียงหรือไม่? ค้นพบซอฟต์แวร์แปลงข้อความเป็นคำพูดที่ดีที่สุดของเรา