În ultimul update al lui ChatGPT, acesta a primit noi capabilități care îi permit să vadă, să audă și să vorbească. Aceste îmbunătățiri reprezintă o modalitate mai intuitivă de interacțiune cu acest asistent virtual, permițând conversații vocale și afișarea de imagini pentru a sprijini discuțiile.
Ce aduc noile capabilități de voce și imagine?
Aceste capabilități noi aduc o dimensiune complet nouă experienței utilizatorilor. Acum, puteți să faceți poze și să discutați cu ChatGPT despre subiectele care vă interesează. De exemplu, în timpul călătoriilor, puteți să faceți o poză unui obiectiv turistic și să începeți o conversație în timp real despre ceea ce este interesant în legătură cu acel loc. Acasă, puteți să faceți poze la frigider și la despensa dumneavoastră pentru a decide ce gătiți pentru cină, putând să adresați întrebări pentru a obține un ghid pas cu pas pentru o rețetă. După cină, puteți ajuta copilul cu o problemă de matematică făcând o poză, evidențiind problema și să împărtășiți indicii pentru a rezolva împreună.
Cum puteți utiliza conversațiile vocale cu ChatGPT?
Pentru a începe să utilizați această funcție vocală, trebuie să accesați Setări → Caracteristici Noi în aplicația mobilă și să vă înscrieți pentru conversații vocale. Apoi, apăsați pe butonul căștilor de ascultare situat în colțul din dreapta sus al ecranului principal și alegeți vocea preferată din cele cinci disponibile.
Această nouă funcționalitate vocală este alimentată de un model de text-to-speech, capabil să creeze sunete umane realiste pornind de la text și de la câteva secunde de discurs real înregistrat. Am colaborat cu actori vocali profesioniști pentru a crea fiecare dintre aceste voci. De asemenea, utilizăm Whisper, sistemul open-source de recunoaștere vocală, pentru a transforma cuvintele rostite în text.
Discutați despre imagini cu ChatGPT
O altă îmbunătățire importantă este abilitatea de a împărtăși imagini cu ChatGPT. Acesta poate fi folosit pentru a rezolva probleme sau pentru a analiza imagini complexe. De exemplu, puteți să discutați despre motivele pentru care grătarul dumneavoastră nu pornește, să explorați conținutul frigiderului pentru a planifica o masă sau să analizați un grafic complex pentru date legate de munca dumneavoastră. Pentru a vă concentra asupra unei părți specifice a imaginii, puteți utiliza instrumentul de desen disponibil în aplicația mobilă.
Această capacitate de a înțelege imagini este alimentată de modelele multimodale GPT-3.5 și GPT-4. Aceste modele aplică abilitățile lor de înțelegere a limbajului la o gamă largă de imagini, inclusiv fotografii, capturi de ecran și documente care conțin atât text, cât și imagini.
Extinderea graduală a accesului
OpenAI are ca obiectiv construirea unei inteligențe artificiale generale (AGI) care să fie sigură și benefică. Accesul treptat la noile funcționalități ne permite să facem îmbunătățiri și să rafinăm măsurile de gestionare a riscurilor pe parcursul timpului, în timp ce pregătim toată lumea pentru sisteme mai puternice în viitor. Această strategie devine și mai importantă în cazul modelelor avansate care implică abilități de vorbire și viziune.
Voce
Noua tehnologie vocală, capabilă să creeze voci sintetice realiste plecând de la câteva secunde de înregistrare vocală reală, deschide noi oportunități în domeniul creativității și al accesibilității. Cu toate acestea, aceste capacități aduc și noi riscuri, cum ar fi posibilitatea ca actorii malefici să se prefacă a fi figuri publice sau să comită fraude.
De aceea, OpenAI foloseste această tehnologie pentru a alimenta cazuri specifice, precum conversațiile vocale. ChatGPT a fost creat în colaborare cu actori vocali cu care am lucrat direct. Colaborăm și în mod similar cu alții. De exemplu, Spotify folosește această tehnologie pentru pilotul funcției lor de Traducere Vocală, care ajută podcasterii să-și extindă publicul prin traducerea podcasturilor în alte limbi cu voci autentice.
Imagini
Modelele bazate pe viziune aduc, de asemenea, noi provocări, de la iluzii despre persoane la dependența de interpretarea modelului asupra imaginilor în domenii cu impact ridicat. Înainte de implementarea largă, am testat modelul cu echipa noastră red team pentru riscuri în domenii precum extremismul și competența științifică, și cu un set divers de testeri alfa. Cercetarea noastră ne-a permis să stabilim detalii esențiale pentru utilizarea responsabilă.
Folosirea în lumea reală și feedback-ul utilizatorilor
OpenAI realizeaza că utilitatea modelului este cea mai bună atunci când acesta poate vedea la fel ca dumneavoastră. Acest abordaj a fost dezvoltat în colaborare directă cu Be My Eyes, o aplicație mobilă gratuită pentru persoanele cu deficiențe de vedere, pentru a înțelege utilitățile și limitările. Utilizatorii ChatGPT au spus că apreciază să poată avea conversații generale despre imagini care conțin persoane în fundal, cum ar fi atunci când apare cineva la televizor în timp ce încercați să vă reglați telecomanda.
De asemenea, am luat măsuri tehnice pentru a limita semnificativ capacitatea lui ChatGPT de a analiza și de a face declarații directe despre persoane, deoarece ChatGPT nu este întotdeauna precis și aceste sisteme ar trebui să respecte intimitatea indivizilor.
Transparență cu privire la limitele modelului
Utilizatorii pot depinde de ChatGPT pentru subiecte specializate, de exemplu în domenii precum cercetarea. OpenAI sunt transparenți cu privire la limitele modelului și descurajează utilizarea în cazuri cu risc crescut fără o verificare adecvată. Mai mult, modelul este eficient la transcrierea textului în limba engleză, dar performează mai slab în cazul altor limbi, în special cele cu alfabet non-latin. OpenAI recomandă utilizatorilor non-englezi să nu utilizeze ChatGPT în acest scop.
Extinderea accesului
Utilizatorii Plus și Enterprise vor putea să utilizeze funcțiile de voce și imagine în următoarele două săptămâni. OpenAI sunt încântați să aduca aceste capabilități și altor grupuri de utilizatori, inclusiv dezvoltatorilor, în curând.
Întrebări frecvente:
1. Ce sunt noile capabilități de voce și imagine ale lui ChatGPT?
- Noile capabilități de voce și imagine ale lui ChatGPT permit utilizatorilor să aibă conversații vocale cu asistentul virtual și să împărtășească imagini pentru discuții și asistență.
2. Cum pot activa conversațiile vocale cu ChatGPT?
- Puteți activa conversațiile vocale cu ChatGPT accesând Setări → Caracteristici Noi în aplicația mobilă și înscriindu-vă pentru această funcționalitate. Apoi, puteți alege din cele cinci voci disponibile.
3. Cum funcționează capabilitățile de voce ale lui ChatGPT?
- Capabilitățile de voce sunt activate de un model de text-to-speech care poate crea sunete umane realiste pornind de la text și câteva secunde de discurs înregistrat. Aceste voci au fost create în colaborare cu actori vocali profesioniști.
4. Cum pot să discut despre imagini cu ChatGPT?
- Puteți discuta despre imagini cu ChatGPT prin capturarea sau selectarea unei imagini în aplicație. Apoi, puteți utiliza instrumentul de desen sau discutați despre mai multe imagini pentru a primi asistență.
5. Cum înțelege ChatGPT imaginile?
- ChatGPT utilizează modele multimodale GPT-3.5 și GPT-4 pentru a înțelege imagini. Aceste modele aplică abilitățile lor de înțelegere a limbajului la o gamă largă de imagini, inclusiv fotografii, capturi de ecran și documente care conțin text și imagini.
6. Când vor fi disponibile capabilitățile de voce și imagine pentru toți utilizatorii?
- Aceste capabilități sunt lansate treptat pentru utilizatorii Plus și Enterprise. În următoarele două săptămâni, vor fi extinse și către alte grupuri de utilizatori, inclusiv dezvoltatori.
7. Care sunt măsurile de securitate pentru aceste noi capabilități?
- OpenAI ia în considerare riscurile potențiale și colaborează cu actori profesioniști în domeniul vocii. De asemenea, au fost luate măsuri pentru a proteja intimitatea utilizatorilor în cazul imaginilor și pentru a limita analiza directă a persoanelor.
8. Pot utiliza ChatGPT pentru alte limbi decât engleza?
- ChatGPT este eficient în transcrierea textului în limba engleză, dar performează mai slab în cazul altor limbi, în special cele cu alfabet non-latin. Se recomandă utilizatorilor non-englezi să nu utilizeze ChatGPT în acest scop.
9. Cum pot oferi feedback cu privire la aceste noi capabilități?
- Puteți oferi feedback cu privire la aceste noi capabilități prin intermediul platformei OpenAI pentru a ajuta la îmbunătățirea și rafinarea lor.
10. Cum pot beneficia de capabilitățile de voce și imagine în aplicațiile mele?
- După ce aceste capabilități sunt disponibile, puteți integra conversațiile vocale și discuțiile despre imagini în propriile aplicații sau servicii utilizând API-urile oferite de OpenAI.
Sursa: https://openai.com/blog/chatgpt-can-now-see-hear-and-speak