Электронный текстовый переводчик определяет язык оригинала, если пользователь не указал его, через словарные базы данных. 2 Текст разбивается на отдельные слова, которые сравниваются с базой данных. 2 Затем программа подсчитывает количество совпадений и выводит наиболее вероятный язык. 2
Также для идентификации языка используются N-граммы. 1 У каждого языка свой набор наиболее характерных сочетаний букв в словах, и по этим сочетаниям современные переводчики определяют язык. 1
Однако чем короче текст, тем сложнее программе определить язык, особенно если речь идёт о родственных языках. 2 Также сложности могут возникнуть, если текст написан с ошибками или использованием диалектизмов. 2
Ещё одна проблема — слова, заимствованные из других языков. 2 Например, слово chiao встречается не только в итальянском, но и в других языках, поэтому система автоматического определения может ошибочно отнести его не к итальянскому, а к английскому или французскому языку. 2