助け合いフォーラム

Essentials

Linux Essentials(Ver1.6)

問題ID : 2651

問題を開く

ファイル「file.txt」から、grepコマンドを用いて、「a」から始まるアルファベット3文字以上の単語のある行を抽出したい。
正しいコマンドはどれか。

正解

grep 'a..' file.txt

解説

以下は主な正規表現です。

以上より正解は
・grep 'a..' file.txt
です。

例）ファイル「file.txt」から、aから始まるアルファベット3文字以上の単語がある行を抽出する

その他の選択肢については以下の通りです。

・grep 'a**' file.txt
・grep 'a*' file.txt
・grep 'a*.' file.txt
「a*」は、aが0回以上繰り返していることを意味しますから、aがない行も抽出されます。
本例の場合「# aa」「b」などすべての行が該当してしまいます。

・grep 'a\\' file.txt
文字aと文字\の組み合わせを抽出しています。

参考

【正規表現】
正規表現とは、文字列の特定のパターンを認識する為に使用する表現方法で、文字列の検索や置換などを行う際に利用します。
以下は正規表現の一部とその使用例です。

※「?」は、拡張正規表現（基本的な正規表現が拡張されたもの）の一つ。grepコマンドに使用する場合は「-E」オプションの指定が必要。

正規表現は、grepコマンドやsedコマンド（ファイルや標準入力の内容を編集して表示するコマンド）で使用することで非常に強力なパターンマッチングを行うことができます。

【正規表現とgrepコマンド】
ファイルや標準入力から、正規表現のパターンにマッチする文字列を含む行を抽出するにはgrepコマンドを利用します。
grepコマンドの書式と主なオプションは以下のとおりです。

例）ファイル「file.txt」から、「Linux Essentials」に該当する行を抽出する

例）ファイル「file.txt」から、大文字小文字にこだわらず「Linux Essentials」という文字列を抽出する

例）ファイル「file.txt」から、「Linux Essentials」にマッチした行数を表示する

例）ファイル「file.txt」から、「Linux Essentials」にマッチしない行を表示する

　オプションは組み合わせることも可能なため、「マッチしない行数」を表示する場合は「-cv」などと指定します。

●正規表現を用いた例

例）ファイル「file.txt」から、aから始まるアルファベット3文字以上の単語がある行を抽出する

例）ファイル「file.txt」から、文字「b」を含む行を抽出する

例）ファイル「file.txt」から、文字列「cat」または「cats」を含む行を抽出する

例）ファイル「file.txt」から、abcdeのいずれかの数字がある行を抽出する

例）行の先頭が「#」で始まる行を抽出する

例）空行（何も入力されていない行）以外を抽出する

　ファイルの先頭（^）と末尾（$）に何も文字がないことから、「^$」は空行を意味します。

例）文字「$」を含む行を抽出する

　「$」は正規表現で末尾を意味しますが、文字として用いたい場合はエスケープ文字「\」を使用します。

参考URL

エンジニアの入り口「Linuxで使う正規表現についてまとめました」：あいまいな文字を探す場合

＠IT「【 grep 】コマンド（応用編その1）――空白を含む文字列を検索する／正規表現を使って検索する」：基本正規表現と拡張正規表現

LinuCイージス「Linux - grep / egrep / fgrep / sed」：正規表現

上に戻る

「アルファベット3文字以上の単語」？

k kirara397

投稿日 2024/05/16

正解は「grep 'a..' file.txt」となっていますが、この正規表現では「a10」のような数字混じりの文字列もヒットします。
正解をそのままにするなら、問題文のタイトルにある部分は「3文字以上の文字列」等になるのではないでしょうか？
問題文をそのままにするなら、正解は「grep -E 'a[a-z]{2}' file.txt」、
もしくは「grep 'a[a-z][a-z]' file.txt」等を選ぶ事になるのでは？と思います。

a arashi1977

2024/05/16 12:13

正解をそのままにするなら、問題文のタイトルにある部分は「3文字以上の文字列」等になるのではないでしょうか？

「aから始まる3文字以上の文字列」に「aから始まるアルファベット3文字」は含まれないのでおかしい、ということでしょうか？
他の選択肢では

「a」から始まるアルファベット3文字以上の単語のある行

を抽出することはできず、また正答選択肢であれば設問の要件を満たしているようですが、問題点として指摘したいのはなんでしょうか？

k kirara397

2024/05/16 17:12

コメントありがとうございます。問題点として指摘したいのは、正答のコマンドでは「aから始まるアルファベット3文字」以外の文字列（a10等）も抽出できてしまう点です。ただ、抽出結果に不純物が混じっても構わない前提なら、問題ないと思います。

a arashi1977

2024/05/17 15:44

先に触れますが、kirara397さんの > 正解は「grep -E 'a[a-z]{2}' file.txt」、 > もしくは「grep 'a[a-z][a-z]' file.txt」等を選ぶ事になるのでは？が間違っているということを言いたいわけではないのです。ただ、実試験で同じような問題と選択肢が出題された場合、「これはおかしい。こういう回答になるべきだ（＝この問題には回答できない）」ということにはならないですよね？「抽出できてしまう」というのが問題だということですが、設問の要件である「aから始まるアルファベット3文字」、たとえば ask とか art とかを「抽出できない」のであれば明らかに問題の設定がおかしいですが、正答選択肢が要件通り抽出できるのであれば、まずはそこに問題はないと判断するのが妥当です。 ※「最適な回答ではないから問題だ」ではなく「正答は設問の要件を満たしているか」が重要なポイントなのです。さらにいえば誤答選択肢はどれも「抽出できない」のですから、問答無用で正答が決まってしまいますし。とはいえ、きちんと理解した上で「より良い回答はこうだ！」というものをご自身で作れているので、そこは自信を持って良いと思います！

この投稿に対して返信しませんか？

助け合いフォーラム