Болезни Военный билет Призыв

Cut — Ай да Linux Wiki. Команда cut и символы кириллицы. Исключение данных с помощью complement

Описание

Команда cut позволяет выбрать из каждой строки файла нужную часть (по единому правилу для всех строк) и показать выборку на экране дисплея.

Команда имеет три основные опции:

  • -b - когда объектом выбора являются байты;
  • -с - когда объектом выбора являются символы;
  • -f - когда объектом выбора являются элементы форматирования текста (колонки, столбцы и прочее).

Внимание: Опции -c, -b, и -f могут употребляться только поодиночке.

Основные параметры

Опция -с

Например, возьмем файл /etc/shells, в целом виде он выглядит так:

/bin/bash /bin/tcsh /bin/csh /bin/ash /bin/ksh /bin/zsh

Теперь применим команду:

$ cut -c 1,5 /etc/shells // // // // // //

В данном примере опция -c означает, что объектом выбора будут символы, цифры 1 и 5 означают, что мы выбираем первый и пятый символы строки (счет идет с 1), а все остальное содержимое файла игнорируется.

Можно выбирать символы не по порядковым номерам, а диапазонами:

Cut -c 1-5 /etc/shells /bin/ /bin/ /bin/ /bin/ /bin/ /bin/

В этом случае мы выбрали символы в диапазоне с 1 по 5 (включительно).

Можно указать несколько диапазонов через запятую:

Cut -c 1-5,8-9 /etc/shells /bin/sh /bin/sh /bin/h /bin/h /bin/h /bin/h

Первые три примера имеют чисто демонстрационный характер и не имеют практического смысла. Следующий пример может претендовать на некий смысл:

$ cut -c 6- /etc/shells bash tcsh csh ash ksh zsh

Тут мы получили список доступных в системе шеллов. Для этого мы не стали указывать правую границу диапазона, что заставляет команду выдавать все содержимое строк от указанного символа до конца строки. Можно оставить прочерк с левой стороны, тогда выборка пойдет от начала строки до указанного символа.

Надеюсь, что с опцией -c ясность полная, можно переходить к следующей.

Опция -b

Весьма похожа на предыдущую опцию, как по способу задания выборки байт, так и по результатам, ведь в большинстве случаев один байт определяет один символ.

Cut -b 1-6 /etc/shells /bin/b /bin/t /bin/c /bin/a /bin/k /bin/z

Мы выбрали первые 6 байт из каждой строки файла /etc/shells.

Точно так же как и с опцией -с, можно использовать способы выборки n,m; -n; и n-. Остается лишь добавить, что символы табуляции и backspace (возврат назад на один символ с удалением его) трактуются как любой другой символ - они и занимают один байт. (Не поручусь за национальные кодировки).

Опция -f

Объектом выбора данной опции являются те самые загадочные "поля", которые так смущают в мане программы. Оказалось все просто. Выбираем мы колонки текста, или столбцы, или что еще там, разделенные знаком табуляции. Так как я таких файлов никогда не встречал, то пришлось создать специально для опытов. Вот содержимое файла tab.txt:

Qwer tyui op asdf ghjk llll zxcv bnm, ....

А вот команда:

$ cut -f 1,2 tab.txt qwer tyui asdf ghjk zxcv bnm,

Все как ожидалось, выбраны две первые колонки. Еще пример:

Cut -f 2- tab.txt tyui op ghjk llll bnm, ....

В общем понятно, схема та же, только с колонками. Вопрос в другом - где взять такие файлы с колонками, разделенными знаком табуляции, чтобы их обрабатывать?

К счастью, есть опция -d, предназначенная для работы в паре с опцией -f и понимающая другие разделители текста, кроме знаков табуляции. В директории /etc полно файлов, содержащих столбцы данных, разделенных всякими разделителями; беда только, что они довольно длинные для примеров. Я возьму первые десять строчек из файла /etc/group и создам файл group10.txt.

Cut -f 1- -d: group10.txt root::0:root bin::1:root,bin,daemon daemon::2:root,bin,daemon sys::3:root,bin,adm adm::4:root,adm,daemon tty::5: disk:!:6:root,adm,haldaemon,ya,alex lp::7:lp,ya,alex mem::8: kmem::9:

В этом примере, опция -f приказывает отбирать все столбцы, с первого до последнего, а опция -d указывает на символ, являющийся разделителем -d: разделителем служит двоеточие. Выше на экране файл group10.txt полностью.

Cut -f 1,3 -d: group10.txt root:0 bin:1 daemon:2 sys:3 adm:4 tty:5 disk:6 lp:7 mem:8 kmem:9

А сейчас мы отобрали первый и третий столбцы, то есть узнали идентификационный номер каждой группы. В остальном все те же правила выбора объекта, что и для прочих опций. Символы, разделяющие столбцы, разумеется, могут быть иными, нежели двоеточие. Их нужно задавать при помощи опции -d <символ>. Есть и более наглядный способ употребления опции -d. Вместо только что описанной конструкции (-d <символ>) пишем --delim=<символ>, это кажется более надежным, чем при помощи пробела.

Небольшая хитрость. Во многих файлах символом разделения служит пробел, или несколько пробелов подряд (например файл /etc/fstab). Чтобы указать разделитель для таких файлов, нужно заключить пробел в кавычки (одинарные или двойные); только тогда програма поймет, что разделителем служит пробел:

Cut -f 1-21 -d " " /etc/fstab /dev/hda7 swap /dev/hdb5 swap /dev/hdb1 / devpts /dev/pts devpts proc /proc usbfs /proc/bus/usb /dev/hda1 /mnt/win_c /dev/hda5 /mnt/win_d /dev/fd0 /mnt/floppy

Как указать разделителем несколько пробелов, осталось неизвестным.

Опция -s

Опция -s употребляется с опцией -f и приказывает не выводить на экран строки, не содержащие символов-разделителей. Ясно даже мне.

Опция -n

Опция -n употребляется вместе с опцией -b (когда объектом выборки являются байты). Эта опция пишется первой и запрещает команде разбивать многобайтные символы. Другими словами, если символ записывается более чем одним байтом, и мы, указывая выборку, случайно попадем на такой многобайтный символ, то в выводе программы появятся вопросительные знаки, либо квадратики, свидетельствующие о том, что программа не до конца считала этот символ и не знает как его интерпретировать. Например:

Cut -b 1-5 rus.txt йц? фы? яч?

(Символы кириллицы в кодировке UTF-8 состоят из 2 байтов). Стоит добавить опцию -n, как команда перестанет пытаться читать часть многобайтного символа:

Cut -n -b 1-5 rus.txt йц фы яч

Опция --complement

Встречается в версиях команды cut от GNU Coreutils. Но редко встречается в манах. Опция употребляется совместно с опциями -b, -c и -f. Эта опция дополнит выборку всеми остальными объектами выбора. Другими словами, те объекты, которые вы укажете, не появятся в выводе команды, зато все остальные - появятся. Например:

Cut -f 1 --complement tab.txt tyui op ghjk llll bnm, ....

Указанный первый столбец не появился, зато остальные два оказались в выводе команды. Опция очень удобна, когда у вас множество столбцов или колонок текста, а вам нужно распечатать их все, за исключением одной-двух-трех.

Опции --help и --version общеизвестны, и задерживаться на них я не буду.

Команда cut и символы кириллицы

Некоторые новейшие версии программы cut, в некоторых дистрибутивах, неплохо справляются с кириллическими символами. Другие версии, в других дистрибутивах не справляются вовсе. Я было попытался дать несколько примеров с кириллицей, но результаты на разных машинах, на разных дистрибутивах, и с разными версиями команды могли только сбить читателя с толку, не внеся никакой ясности. Поэтому общие рекомендации: не бойтесь пробовать работать с родным языком, если не получается, обновите версию программы, не выходит - попробуйте дистрибутив с другой кодировкой по умолчанию.

Несколько слов о версиях

В Линукс дистрибутивах в основном встречается команда cut от GNU Coreutils. Программа разрабатывается и новые версии появляются регулярно. Советую иметь новейшую стабильную версию. Мне попадались версии не первой свежести, которые откровенно "глючили" и не различали, скажем, опций -b и -c (cut (GNU coreutils) 5.97), а я-то думал, что так и надо. Поэтому при первом подозрении попробуйте другой дистрибутив (или LiveCD).

Резюме программы cut

Программа применима и эффективно работает с регулярными файлами, те есть с файлами, где из строчки в строчку повторяется некая структура информации (всякого рода списки, перечни, распечатки и прочее). Трудно представить себе, как ее можно использовать с обычным текстом, не разбитым на строки. Наличие трех подходов (байты, символы и столбцы) к определению выборки позволяют добиться успеха почти в любом случае, не одним способом, так другим. Особенно полезной может быть команда в качестве фильтра в составе программных каналов (pipes).

Вэтом выпуске мы расскажем об основных возможностях форматирования вывода с помощью команд grep, sed, awk, cat и cut. Это может быть очень полезным, если соединять вместе такие вещи как Conky или скрипты, которые отображают информацию в терминале.

Сначала рассмотрим работу команды cut. Если бы мы хотели отобразить название дистрибутива в нашем скрипте, мы нашли бы его в /etc/issue. Если мы выполним cat /etc/issue, мы увидим много длинных строк со множеством экранирующих символов в них. Так, если мы выполним cat /etc/issue | head -n 1, мы уберём дополнительные строки, сузив вывод команды cat с помощью команды head, которая оставит только первую строку вывода. Пока всё хорошо, но что насчёт специальных символов? Для таких случаев у нас есть cut. Чтобы её использовать, мы должны указать разделитель, а затем сказать ей, что с ним делать. Мы могли бы выполнить следующую команду:

Cat /etc/issue|head -n 1|cut –-delimiter=" " -f 1,2

Эта команда говорит cut использовать в качестве разделителя знак пробела, и показать первые два поля (по существу, cut делит вывод на сегменты в соответствии с разделителем, поэтому поля 1 и 2 - это первые два поля до и после разделителя, в нашем случае это Ubuntu 8.10). Cut также можно использовать для отображения только определённого числа символов, используя флаг -c.

То же самое можно сделать и с помощью команды sed:

Cat /etc/issue|sed "{s/\\n// ; s/\\l// ; /^$/d}"

Это может показаться лишним, но первые два выражения (каждое из них разделено точкой с запятой) говорят sed заменить “\n” на “” (ничего), и то же самое для “\l”, убирая эти символы из вывода. Команда “/^$/d” говорит sed удалить все пустые строки (“^$” - это регулярное выражение для строки, которая начинается и заканчивается пустым символом, и посередине тоже ничего нет - т.е. пустая строка). Так "s/\\n\b//" просто говорит sed заменить (“s/”) “\n” (“\\n”) на “” (“//”). Причина, по которой эта команда в скобках, в том, что мы применяем три выражения на выходе, и хотим, чтобы результат появился только один раз, поэтому мы поместили выражения в скобки (“{}”), и разделили точкой с запятой.

В заключение, такой же результат мы можем получить с помощью awk:

Cat /etc/issue|awk "/\\n/ {print $1,$2}"

Эта команда тоже использует регулярные выражения, но её легче понять, чем sed. Команда awk "/\n/ {print $1, $2}" ищет любую строку, в которой есть “\n”, и затем печатает первые два поля (разделитель по умолчанию - это пробел, но вы можете определить свой с помощью флага -F). Это позволяет нам отбросить лишнюю строку и \l из вывода команды. Вы можете также отказаться от обрезания вывода в команде cat /etc/issue (или любой другой), так как они все могут быть применены к определенному файлу в конце команды. Я использовал cat для того, чтобы оставить команды более понятными.

Это всё рассматривается только как поверхностный взгляд на возможности awk, sed и cut. Из-за их гибкой реализации сложно написать краткое вводное руководство для всех них. Пояснения приведены, чтобы показать, как команды работают, а не описывать их полный потенциал. В реальном мире использование этих команд будет в первой половине любого собственного скрипта (ниже приведен пример, который также выводит информацию о скрипте, но часть не обязательно подходит к этой статье; она оставлена, чтобы оставить скрипт завершённым). Пример также содержит вызов для каждого, кто желает его попробовать: сообразите, как использовать одну из трёх команд, чтобы убрать параграф в памятной части скрипта, и, если вы хотите больше практики, попробуйте заменить каждое использование cut, sed или awk на другую команду, делающую то же самое (т.е. заменить команду cut на awk). Конечно, никакого приза нет, но это хорошая практика, чтобы понять внутреннюю работу этих команд.

Дополнительная информация.

В примерах мы будем использовать такой файл:

$ cat test.txt cat command for file oriented operations. cp command for copy files or directories. ls command to list out files and directories with its attributes.

1. Выборка колонок по символам

Для получения определённых колонок используется опция -c . В следующем примере мы получим 2-ой символ (2 колонка) в каждой строке:

$ cut -c2 test.txt a p s

2. Выборка колонок по символам с диапазоном значений

Диапазон символов можно получить, указав стартовую и конечную позицию символом « - «.

В следующем примере мы выделим символы с первого по третий в каждой строке:

$ cut -c1-3 test.txt cat cp ls

3. Выборка колонок с использованием стартовой или конечной позиции

Начальная или последняя позиция могут задавать с помощью опции -c .

В следующем примере мы задаём только стартовую колонку, с которой начинать выборку, перед символом « - «. Мы получим все символы, начиная с 3-го:

$ cut -c3- test.txt t command for file oriented operations. command for copy files or directories. command to list out files and directories with its attributes.

А в следующем примере — мы получим только первые 8 символов:

$ cut -c-8 test.txt cat comm cp comma ls comma

4. Выборка указанных полей

Вместо указания количества символов, можно задать выборку по целым полям, используя опции -d и -f . Опция -f указывает поля, которые необходимо получить, а опция -d — разделитель, по которым необходимо осуществлять разделение полей.

В следующем примере мы отобразим только первое поле файла /etc/passwd , используя разделитель « : » (двоеточие):

$ cut -d":" -f1 /etc/passwd root daemon bin sys sync games bala

5. Выборка различных полей

Вы так же можете осуществить выборку нескольких полей. В примере ниже будут выведены имена пользователей и домашние директории пользователей, у которых shell задан как /bin/bash:

$ grep "/bin/bash" /etc/passwd | cut -d":" -f1,6 root:/root bala:/home/bala

Что бы отобразить диапазон полей — укажите начальное и последнее поле, как в примере ниже. Ниже мы осуществим выборку полей с 1 по 4, 6 и 7:

$ grep "/bin/bash" /etc/passwd | cut -d":" -f1-4,6,7 root:x:0:0:/root:/bin/bash bala:x:1000:1000:/home/bala:/bin/bash

6. Выборка полей, если строка содержит разделитель

В нашем примере с /etc/passwd , если вы укажете разделитель отличный от « : » — вы получите целую строку.

В следующем примере мы укажем разделителем пайп (« | «), а утилита cut отобразит всю строку целиком, даже если такой разделитель не будет найден:

$ grep "/bin/bash" /etc/passwd | cut -d"|" -f1 root:x:0:0:root:/root:/bin/bash bala:x:1000:1000:bala,:/home/bala:/bin/bash

Однако, возможно отфильтровать строки, содержащие только разделитель, с использованием опции -s .

В следующем примере не будет показано ничего, так как -s отфильтрует строки, не содержащие разделитель « | «:

$ grep "/bin/bash" /etc/passwd | cut -d"|" -s -f1

7. Выборка всех полей, кроме заданных

Что бы использовать выборку по полям, кроме заданных — используйте опцию --complement .

В следующем примере вы выберем все поля, кроме поля 7:

$ grep "/bin/bash" /etc/passwd | cut -d":" --complement -s -f7 root:x:0:0:root:/root bala:x:1000:1000:bala,:/home/bala

8. Изменение разделителя в отображении результата

По умолчанию — в результатах разделитель будет тот же, который использовался при выборке.

Что бы изменить разделитель — используйте опцию --output-delimiter .

В примере ниже — мы заменим разделитель « : » на « # «:

$ grep "/bin/bash" /etc/passwd | cut -d":" -s -f1,6,7 --output-delimiter="#" root#/root#/bin/bash bala#/home/bala#/bin/bash

9. Заменить разделитель на символ новой строки

В следующем примере каждое поле в результатах вывода cut будет выведено в новой строке. Мы так же используем опцию --output-delimiter , но укажем ей параметр « n «:

$ grep bala /etc/passwd | cut -d":" -f1,6,7 --output-delimiter=$"n" bala /home/bala /bin/bash

10. Комбинирование утилиты Cut с другими утилитами Unix

Все возможности утилиты cut могут проявится при её использовании с другими утилитами для обработки stdout .

В следующем примере мы отобразим только самую нужную информацию из вывода утилиты ps:

$ ps axu | grep python | sed "s/s+/ /g" | cut -d" " -f2,11- 2231 /usr/bin/python /usr/lib/unity-lens-video/unity-lens-video 2311 /usr/bin/python /usr/lib/unity-scope-video-remote/unity-scope-video-remote 2414 /usr/bin/python /usr/lib/ubuntuone-client/ubuntuone-syncdaemon 2463 /usr/bin/python /usr/lib/system-service/system-service-d 3274 grep --color=auto python


Автор: Rares Aioanei
Дата публикации: 5 января 2012 года
Перевод: А. Кривошей
Дата публикации перевода: 2 ноября 2012 г.

1. Введение

Если вы думаете, что можете администрировать Linux без использования команды cut, то вы совершенно правы. Однако владение этой очень простой утилитой командной строки даст вам определенные преимущества, так как позволит повысить эффективность своей работы. Проще говоря, cut - это одна из многих утилит для фильтрации текста, предлагаемых операционной системой Linux. Она фильтрует STDIN из другой команды или из файла и отправляет фильтрованный вывод в STDOUT.

2. Часто используемые опции

Давайте без долгих предисловий перейдем сразу к делу и изучим наиболее часто используемые опции командной строки.

-b, --bytes=LIST
выбрать из файла только заданные байты согласно списку
-c, --characters=LIST
выбрать из файла заданные символы согласно списку
-f, --fields=LIST
выбирает только поля, перечисленные в списке. Разделителем по умолчанию служит TAB. Значение по умолчанию может быть переопределено с помощью опции -d.
-d, --delimiter=DELIMITER
Позволяет задать разделитель полей. Как уже говорилось выше, значением по умолчанию является TAB, но эта опция позволяет переопределить его.

3. Использование списков

Список (list) в данном случае может состоять из одного или набора байтов, символов или полей. Например, для вывода только второго байта список будет включать единственное число 2.
Поэтому:

2 - будет выведен только второй байт, символ или поле, считая с первого.
2-5 - будут выведены все байты, символы и поля со второго по пятый.
-3 - будут выведены все байты, символы и поля до четвертого.
5- - будут выведены все байты, символы или поля, начиная с пятого.
1,3,6 - будут выведены только первый, третий и шестой байты, символы или поля.
1,3- - будут выведены первый и все байты, символы или поля, начиная с третьего.

4. Выборка по символам

Приведенные ниже примеры говорят сами за себя. Мы использовали опцию -c, чтобы выводить только заданный диапазон символов из файла cut.txt.

Echo cut-command > cut.txt $ cut -c 2 cut.txt u $ cut -c -3 cut.txt cut $ cut -c 2-5 cut.txt ut-c $ cut -c 5- cut.txt command

5. Выборка по байтам

Приницип работы опции -b (побайтно) похож на описанный выше для работы с символами. Мы знаем, что один символ имеет размер 1 байт, поэтому результат выполнения команды с опцией -b будет тот же самый.

$ cut -b 2 cut.txt u $ cut -b -3 cut.txt cut $ cut -b 2-5 cut.txt ut-c $ cut -b 5- cut.txt command

cut.txt - это простой текстовый файл в кодировке ASCII. Различия будут заметны только при использовании многобайтных кодировок, таких как UTF-8 Unicode. Например:

$ echo Lubos > cut.txt $ file cut.txt cut.txt: UTF-8 Unicode text $ cut -b 1-3 cut.txt Lu $ cut -c 1-3 cut.txt Lub

6. Выборка по полям

Как уже говорилось ранее, поле, используемое командной cut по умолчанию - это TAB. Например, создадим файл, где общим разделителем является TAB.
Подсказка: если вы не знаете, как вставить TAB в командной строке, используйте комбинацию клавиш CTRL + V, перед тем, как нажать TAB.

$ echo "1 2 3" > cut.txt $ echo "4 5 6" >> cut.txt $ cat cut.txt 1 2 3 4 5 6 $ cut -f2- cut.txt 2 3 5 6

В примере выше были выведены только второй и третий столбцы, потому что TAB является общим разделителем и в то же время используется командной cut как поле по умолчанию. Убедиться в том, что вы использовали TAB вместо пробела можно с помощью команды od:

$ echo "1 2" > tab.txt $ echo "1 2" > space.txt $ od -a tab.txt 0000000 1 ht 2 nl 0000004 $ od -a space.txt 0000000 1 sp sp sp sp sp sp sp sp 2 nl 0000013

Если необходимо переопределить поведение команды, чтобы использовать другой разделитель, имеется опция -d.

$ echo 1-2-3-4 > cut.txt $ echo 5-6-7-8 >> cut.txt $ cat cut.txt 1-2-3-4 5-6-7-8 $ cut -d - -f-2,4 cut.txt 1-2-4 5-6-8

Классический пример, где нам необходимо использовать опцию -d, чтобы извлечь список пользователей текущей системы из файла /etc/passwd.

$ cut -d: -f 1 /etc/passwd root daemon bin sys sync games man lp mail news uucp proxy www-data ...

Необходимо отметить, что для получения единообразного вывода общий разделитель должен быть унифицирован по каждой строке ввода. Например, в следующем примере было бы сложно использовать пробел в качестве общего разделителя.

$ cat cut.txt cut command w command awk command wc command $ cut -d " " -f2 cut.txt command command

В этом случае было бы намного проще воспользоваться командой awk или sed, чтобы сначала заменить множественные пробелы на единый разделитель, например запятую.

$ sed "s/\s\+/,/" cut.txt | cut -d , -f2 command command command command $ awk "{ print $2; }" cut.txt command command command command

7. Исключение данных с помощью complement

Команда cut позволяет вам выборочно включать требуемые данные в вывод. В случае, если вам необходимо выбрать данные для их исключения из вывода, очень полезна опция complement.
Пример:

$ echo 12345678 > cut.txt $ cat cut.txt 12345678 $ cut --complement -c -2,4,6- cut.txt 35

8. Примеры

Синтаксис команды Описание

Updated: 10/17/2017 by Computer Hope

About cut

cut syntax

cut OPTION ... [FILE ]...

Options

-b , --bytes= LIST Select only the bytes LIST . LIST specifies a byte, a set of bytes, or a range of bytes; see below.
-c , --characters= LIST Select only the characters from each line as specified in LIST . LIST specifies a character, a set of characters, or a range of characters; see below.
-d , --delimiter= DELIM use character DELIM instead of a tab for the field delimiter .
-f , --fields= LIST select only these fields on each line; also print any line that contains no delimiter character, unless the -s option is specified. LIST specifies a field, a set of fields, or a range of fields; see below.
-n This option is ignored, but is included for compatibility reasons.
--complement complement the set of selected bytes, characters or fields.
-s , --only-delimited do not print lines not containing delimiters.
--output-delimiter= STRING use STRING as the output delimiter string . The default is to use the input delimiter.
--help Display a help message and exit.
--version output version information and exit.

Usage Notes

When invoking cut , use the -b , -c , or -f option, but only one of them.

If no FILE is specified, cut reads from the standard input .

Specifying LIST

Each LIST is made up of an integer , a range of integers, or multiple integer ranges separated by commas. Selected input is written in the same order that it is read, and is written to output exactly once. A range consists of:

N the N th byte, character, or field, counted from 1 .
N- from the N th byte, character, or field, to the end of the line.
N - M from the N th to the M th byte, character, or field (inclusive).
- M from the first to the M th byte, character, or field.

For example, let"s say you have a file named data.txt which contains the following text:

One two three four five alpha beta gamma delta epsilon

In this example, each of these words is separated by a tab character, not spaces. The tab character is the default delimiter of cut , so it will by default consider a field to be anything delimited by a tab.

To "cut" only the third field of each line, use the command:

Cut -f 3 data.txt

Three gamma

If instead you want to "cut" only the second-through-fourth field of each line, use the command:

Cut -f 2-4 data.txt

Which will output the following:

Two three four beta gamma delta

If you want to "cut" only the first-through-second and fourth-through-fifth field of each line (omitting the third field), use the command:

Cut -f 1-2,4-5 data.txt

Which will output the following:

One two four five alpha beta delta epsilon

Or, let"s say you want the third field and every field after it, omitting the first two fields. In this case, you could use the command:

Cut -f 3- data.txt

Which will output the following:

Three four five gamma delta epsilon

Specifying a range with LIST also applies to cut ting characters (-c ) or bytes (-b ) from a line. For example, to output only the third-through-twelfth character of every line of data.txt , use the command:

Cut -c 3-12 data.txt

Which will output the following:

E two thre pha beta g

Remember that the "space" in between each word is actually a single tab character, so both lines of output are displaying ten characters: eight alphanumeric characters and two tab characters. In other words, cut is omitting the first two characters of each line, counting tabs as one character each; outputting characters three through twelve, counting tabs as one character each; and omitting any characters after the twelfth.

Counting bytes instead of characters will result in the same output in this case, because in an ASCII -encoded text file, each character is represented by a single byte (eight bits) of data. So the command:

Cut -b 3-12 data.txt

Will, for our file data.txt , produce exactly the same output:

E two thre pha beta g

Specifying A Delimiter Other Than Tab

The tab character is the default delimiter that cut uses to determine what constitutes a field. So, if your file"s fields are already delimited by tabs, you don"t need to specify a different delimiter character.

You can specify any character as the delimiter, however. For instance, the file /etc/passwd contains information about each user on the system, one user per line, and each information field is delimited by a colon (": "). For example, the line of /etc/passwd for the root user may look like this:

Root:x:0:0:root:/root:/bin/bash

These fields contain the following information, in the following order, separated by a colon character:

  1. Username
  2. Password (shown as x if encrypted)
  3. User ID number (UID)
  4. Group ID number (GID)
  5. Comment field (used by the finger command)

The username is the first field on the line, so to display each username on the system, use the command:

Cut -f 1 -d ":" /etc/passwd

Which will output, for example:

Root daemon bin sys chope

(There are many more user accounts on a typical system, including many accounts specific to system services, but for this example we will pretend there are only five users.)

The third field of each line in the /etc/passwd file is the UID (user ID number), so to display each username and user ID number, use the command:

Cut -f 1,3 -d ":" /etc/passwd

Which will output the following, for example:

Root:0 daemon:1 bin:2 sys:3 chope:1000

As you can see, the output will be delimited, by default, using the same delimiter character specified for the input. In this case, that"s the colon character (": "). You can specify a different delimiter for the input and output, however. So, if you wanted to run the previous command, but have the output delimited by a space, you could use the command:

Cut -f 1,3 -d ":" --output-delimiter=" " /etc/passwd root 0 daemon 1 bin 2 sys 3 chope 1000

But what if you want the output to be delimited by a tab? Specifying a tab character on the command line is a bit more complicated, because it is an unprintable character. To specify it on the command line, you must "protect" it from the shell. This is done differently depending on which shell you"re using, but in the Linux default shell (bash), you can specify the tab character with $"\t" . So the command:

Cut -f 1,3 -d ":" --output-delimiter=$"\t" /etc/passwd

Will output the following, for example:

Root 0 daemon 1 bin 2 sys 3 chope 1000

cut Examples

cut -c 3 file.txt

Output the third character of every line of the file file.txt , omitting the others.

Cut -c 1-3 file.txt

Output the first three characters of every line of the file file.txt , omitting the rest.

Cut -c -3 file.txt

Same as the above command. Output the first three characters of every line of file.txt .

Cut -c 3- file.txt

Output the third through the last characters of each line of the file file.txt , omitting the first two characters.

Cut -d ":" -f 1 /etc/passwd

Output the first field of the file /etc/passwd , where fields are delimited by a colon (": "). The first field of /etc/passwd is the username , so this command will output every username in the passwd file.

Grep "/bin/bash" /etc/passwd | cut -d ":" -f 1,6

Output the first and sixth fields, delimited by a colon, of any entry in the /etc/passwd file which specifies /bin/bash as the login shell. This command will output the username and home directory of any user whose login shell is /bin/bash .

Related commands

grep — Filter text which matches a regular expression.
paste — Merge corresponding lines of files.