Google などの検索エンジンでは、 適当なキーワードを入れてもそこそこヒットするページがある。 あるいは携帯電話で、数文字入れると候補が続々と出てくる。 その仕組みを学ぼう。
検索に使われている仕組みは、 あいまいな文字列も取り出すことができるようになっている。 あいまいな文字列を取り出す仕組みを、正規表現という。 検索に使用されている文字 (characters) を meta characters と呼ぶ。 meta characters として使用されている文字は、 日常あまり使われない記号文字が使用されている。
アルファベットはヨーロッパでよく使われるが、 とくに地名や食べ物などは、 言語によって綴りが少しずつ違うことが多い。 また、日本人を含めたアジア系の人間は、 記憶に残りやすいように綴りを変えて論文を投稿したりすることもある。 Google などの検索エンジンでは、積極的に似たような綴りの候補を挙げてくる。
.(period) 任意の一文字の候補を取りだす。
yama.a | HIT | yamaba, yamada, yamaha, yamata, yamasa, yama-a, yama a |
? (question mark) 直前の文字が 0 または 1 回出現し、直前の文字は記号も可
o-?kawa | HIT | okawa, o-kawa, ookawa, no-kawa, nokawa |
OUT | ohkawa, oikawa |