Для сохранения текстов в UTF-8 требуется больше памяти, чем в ASCII, из-за того, что разные символы кодируются разным количеством байтов. 1
В UTF-8 все латинские знаки кодируются в один байт, как и в ASCII. 4 Но, например, кириллические знаки кодируются в два байта, а грузинские — в три байта. 4
При этом в большинстве текстов, которые традиционно состоят в основном из ASCII, UTF-8 не занимает сильно больше места, чем ASCII — тот же байт на символ. 1
Также в начале файла UTF-8 может присутствовать отметка порядка байтов (BOM), которая позволяет определить кодировку файла. 2
Таким образом, размер файла в UTF-8 зависит от конкретного текста и может отличаться в зависимости от его состава.