Konuşma Metinleştirici (Yazılım)

Kısaca: konuşma tanıma yazılımı'' 'bir bilgisayar kullanıcı bilgisayarı, büyük ölçüde metin ve / veya komutları konuşmak değil, tamamen Klavye ve fare arayüz. ...devamı ☟

'konuşma tanıma yazılımı 'bir bilgisayar kullanıcı bilgisayarı, büyük ölçüde metin ve / veya komutları konuşmak değil, tamamen Klavye ve fare arayüz. Fikir olarak tasvir edilmiştir bilim kurgu uzun yıllar, çok sık bile klavye ve fare yok bilgisayarları gösteren. Bu tür bilgisayarlarda da tipik olarak tasvir edilir olursa olsun ayakta tutmaya muktedir olmanın ne kadar hızlı bir kişi, konuşuyor ve hoparlör, dil konuşulan, hatta kaç hoparlör var kim olduğunu bakılmaksızın uygulanır. Diğer bir deyişle, onlar bir dilli kişi olarak şekilde de duyar gibi bir bilgisayar gösteren konum. Girişimleri kullanılabilir konuşma tanıma yazılımı geliştirmek için 1900'lerin ortalarında başladı ve çok daha zor olduğunu kanıtladı daha kimsenin hayal etmişti. Bu aynı zamanda sadece en modern bilgisayarların artık fonksiyonları gerçek zamanlı olarak (yani gerekli gerçekleştiremeyebilirsiniz, kadar hızlı konuşmak vardır) çok fazla işlem gücü gerektiren çıktı. İlk ticari pratik ürünler 1.990 civarında, (Ses Gezgin, tek başına bir bilgisayar gibi kullanılabilir oldu konuşma tanıma) 100% adanmış ve makinenin tüm mevcut bilgi işlem gücü olan ikinci bir bilgisayara kendi çıkış göndermek istiyorsunuz harcadım. Özellikle ve doğru sadece bir zaman tek bir kişinin anlayabileceği, yeniden eğitme, operatör değil gerektiren ama makine kendisi, başka bir kişi için çalışma vardı. Bu sınırlamalara rağmen yazabilirsiniz öylesine hızla bile düzeltmeler, engelli bir kişi yapmak için zaman ayırdığınız sonra kolayca olmayanlara göre makine ile daha fazla iş başarmak olabilir. Fiziksel engelli insanlar için, yeteneği sadece bilgisayarınıza konuşmak için paha biçilmez bir varlık olabilir. Örneğin düşünün, bir yazar Parkinson hastalığı olan ancak ellerini kontrol edebilirsiniz, ama uygun bir makale oluşturmak için yapabiliyor. Başka senaryolara ekipman eksiklikleri kolayca outweighed vardır. Bir tesis aşındırıcı maddeler, veya yüksek voltajlı ekipman, ele ediliyor düşünün ... Masif eldiven işin türü için tipik bir klavye kullanarak engel gereklidir. En modern telefonlar artık kolayca belirli bir kullanıcı için bilgisayar eğitimi olmadan gerçekleştirilir sesle arama - basitleştirilmiş gereksinimleri sesle arama ilişkilendirilen içerir. -Ve mevcut durumu-2008-sanat bir düzgün eğitimli bilgisayar, normal sağlıklı yetişkin tarafından işletilen (hiçbir konuşma engelleri yani), Intel Core Duo 1.5 GHz işlemci (veya daha hızlı), yaklaşık% 99 doğruluk elde edebilirsiniz olduğunu ise dakikada yaklaşık 150 kelime kadar transkripsiyonu (süre) hesaplama gücü mevcut en kullanarak. Yüzeysel bu çok iyi gelebilir. Not ancak, çok istikrarlı bir ses gereklidir. Kötü bir kafa soğuk geliştirilmesi üzerine başarılı bir operatör, birden kendisini tüm onu anlamıyor bulabilirsiniz. Ve yine çoğu insan bu zor durumda bütün anlayış bile hiçbir sorun var. Örneğin düşünün, makineler henüz düzgün bir çocuk sesi süreci için yeterli istihbarat yok. Engel olması çoğu çocuk henüz tam olarak nasıl dile (tam cümle uygun inşaat örneğin kullanılır anlıyorum) ve onların seslerini büyümekte de sürekli değişiyor. Şu anda hem mülkiyet ve açık geliştirme önem piyasada kaynak sistemleri, yasal ve sağlık pazarlara hizmet üzerine konuyor. Free software * CMU Sphinx — open source under a BSD license * Julius — BSD-style license

Free speech corpus and acoustic model repositories

* VoxForge — open source, GPL Proprietary software * AT&T WATSON * HTK — copyrighted by Microsoft, but altering the software for the Licensee's internal use is allowed. * CSLU Toolkit * Dragon NaturallySpeaking from Nuance Communications is the continuous-speech successor to the older DragonDictate product, and appears to be the focus of all their current development effort (in the dictation area). Since version 10.1 it runs on 64-bit Windows, too. * IBM ViaVoice - Control and development as it pertains to embedded processors remain in the hands of IBM. Linux, Mac OS, and Windows products were licensed to Nuance Communications (formerly ScanSoft) which has since discontinued the product. The Nuance website provides a list of which legacy systems can run the final versions. * MacSpeech Dictate - Mac OS X speech recognition using the Dragon NaturallySpeaking engine. This replaces MacSpeech's former iListen product which is based on Philips Speech Technology. * Microsoft Windows Speech Recognition - Windows Vista and Windows 7 includes version 8.0 of the Microsoft speech recognition engine along with a completely new end user speech experience, known as Windows Speech Recognition. * Microsoft Speech API - Speech recognition functionality included as part of Microsoft Office and on Tablet PCs running Microsoft Windows XP Tablet PC Edition. It may also be downloaded as part of the Speech SDK 5.1 for Windows applications, but since that is aimed at developers building speech applications, the pure SDK form lacks any user interface, and thus is unsuitable for end users. * Philips SpeechMagic - Market leader within the medical industry according to Frost & Sullivan, Philips SpeechMagic is a recognition engine that may be run either as a stand-alone product or integrated into other applications. * Proteus Conversational Interface * Simmortel Voice * Quack.com (acquired by AOL) * SpeechWorks * Tellme Networks (acquired by Microsoft) Konu hakkında basında yer alan haberler * BİLGİSAYAR, KONUŞMAYI YAZIYA DÖKECEK * Hakimlerin 'yaz kızım' sözü tarihe karışacak This article is about 'Speech-to-Text Reporters' who are human beings reproducing speech into a text format onto a computer screen at verbatim speeds for deaf or hard of hearing people to read. It is not about speech recognition or predictive text which are computer systems. A Speech-to-Text Reporter (STTR), also known as a "captioner", listens to what is being said and inputs it, word for word, onto an electronic shorthand keyboard. The keyboard is linked to a computer which converts the shorthand syllables to properly spelled words. There are two types of keyboard used in the UK, the Palantype system and the Stenograph system. Unlike a QWERTY keyboard, not every letter in a word is pressed, but several keys will be pressed at once which represent whole words, phrases or shortforms. Specially designed computer software will then convert these phonetic chords back into English which can then be displayed for someone to read. The text is displayed either on the screen of a laptop for a sole user, or projected onto a large screen or a series of plasma screens for a larger number of users. An STTR produces a verbatim account of what is said at speeds in excess of 200 words per minute and also gives extra information, such as or , to keep the user informed of the mood of the hearing, meeting or conference. This system can also be used for subtitling and closed captions in television broadcasts or Webcasts. The computer software can use a pre-programmed vocabulary specific to the context, information that matches syllable clusters to written forms, and may suggest alternative captions from which the STTR chooses. Errors occur from the STTR mishearing the words and from the need for the STTR to make a decision before an ambiguous statement is made clear by what is said next. The Professional Association for STTRS is the Association of Verbatim Speech-to-Text Reporters. The Council for Advanced Communication with Deaf People and the Royal National Institute for the Deaf also give more information about STTRs. Speech-to-Text Reporters are also sometimes referred to as Palantypists and Stenographers. What will a service user see on the screen? Every word that is spoken will appear on the screen in an accessible format, although one can request a change in the colour and font size. As well as every word spoken, the words "NEW SPEAKER:" will appear to denote when the speaker changes. If one sends the STTR the names of people attending your conference or meeting before the event, they, too, can be programmed into the computer, making it easier for one to recognise who is speaking. Other phrases, in curly brackets, may also appear, such as or , to denote relevant events. Occasional mondegreen errors may be seen in closed-captions when the computer software fails to distinguish where a word break occurs in the syllable stream. For example, a news report of a "grand parade" might be captioned as a "grandpa raid". Mondegreens in this context arise from the need for captions to keep up with the fast pace of live television broadcasts. History Many STTRs began their careers in the Courts and were known as Court Reporters, where the system was used to record proceedings and provide transcripts when requested. The skills developed in this area have also made them invaluable in the field of communication with deaf people, as they are used to producing work with an extremely high degree of accuracy and acting with complete discretion at all times. An STTR expects to reach consistent levels of accuracy of 98% and above. Training In order to become an STTR one needs extensive training, typically two years, on one of the specially designed keyboards (Palantype/Stenograph) and the associated software, plus at least a further two years of practice, building up speed, accuracy, dictionary/vocabulary and gaining experience. Only then is one ready to undertake the Unitised CACDP Examinations and become a member of the CACDP Register, which will confirm that one has reached the required minimum standard. The majority of Registered STTRs are also Members of the Association of Verbatim Speech-to-Text Reporters. References External links * Association of Verbatim Speech-to-Text Reporters (AVSTTR) * Council for Advanced Communication with Deaf People (CACDP) * Royal National Institute for the Deaf (RNID)

Kaynaklar

Vikipedi

Bu konuda henüz görüş yok.
Görüş/mesaj gerekli.
Markdown kullanılabilir.