Faktor-faktor yang mempengaruhi kualitas VoIP antara lain: bandwidth, delay, jitter, arsitektur jaringan, skema kompresi, tingkat hilang paket, dan paketisasi; protokol persinyalan, kontrol admisi, keamanan, dan kemampuan melewati NAT dan Firewall.
Aspek penting di dalam skema kompresi adalah waktu tunda dan supresi hening. Pada percakapan biasa, pengguna hanya berbicara selama 35% dan sisanya adalah hening yang kemudian dikompres agar ukurannya menjadi lebih kecil. Skema kompresi juga menentukan waktu tunda yang disebut sebagai waktu tunda kompresi yang dirumuskan sebagai berikut:
Waktu tunda kompresi = (2N+1)*panjang frame + look-ahead time
Paketisasi: Penggunaan paket yang kecil dapat menurunkan efektifitas jaringan sedangkan paket besar akan meningkatkan waktu tunda. Ukuran paket VoIP umumnya berkisar 10-30 ms. Layanan di koneksi dengan bandwidth rendah yang menggunakan teknik error concealment akan memiliki kualitas yang lebih baik dibandingkan di koneksi dengan bandwidth tinggi namun tanpa teknik tsb.
Echo dibedakan ke dalam hybrid echo (pada proses konversi 2W/4W) dan acoustic echo yang disebabkan buruknya kopling antara mikropon dan speaker. Pada sistem VoIP, delay yang melebihin 30 ms dapat menyebabkan terjadinya echo.