假如匹配乐成,start( )会返回此次匹配的开始位置,end( )会返回此次匹配的竣事位置,即最后一个字符的下标加一。假如之前的匹配不乐成(可能没匹配),那么无论是挪用start( )照旧end( ),城市激发一个IllegalStateException。下面这段措施还演示了matches( )和lookingAt( ):
java.util.regex.*; com.bruceeckel.simpletest.*; StartEnd { Test monitor = Test(); main(String[] args) { String[] input = String[] { , , }; Pattern p1 = Pattern.compile(), p2 = Pattern.compile(); ( i = 0; i < input.length; i++) { System.out.println( + i + + input[i]); Matcher m1 = p1.matcher(input[i]), m2 = p2.matcher(input[i]); (m1.find()) System.out.println( + m1.group() + + m1.start() + + m1.end()); (m2.find()) System.out.println( + m2.group() + + m2.start() + + m2.end()); (m1.lookingAt()) System.out.println( + m1.start() + + m1.end()); (m2.lookingAt()) System.out.println( + m2.start() + + m2.end()); (m1.matches()) System.out.println( + m1.start() + + m1.end()); (m2.matches()) System.out.println( + m2.start() + + m2.end()); } monitor.expect( String[] { , , , + , , , + , , , , , , , , , + , , }); } }
留意,只要字符串里有这个模式,find( )就能把它给找出来,可是lookingAt( )和matches( ),只有在字符串与正则表达式一开始就相匹配的环境下才气返回true。matches( )乐成的前提是正则表达式与字符串完全匹配,而lookingAt( )乐成的前提是,字符串的开始部门与正则表达式相匹配。
匹配的模式(Pattern flags)
compile( )要领尚有一个版本,它需要一个节制正则表达式的匹配行为的参数:
Pattern Pattern.compile(String regex, flag)
flag的取值范畴如下:
编译符号
结果
Pattern.CANON_EQ
当且仅当两个字符的"正规解析(canonical decomposition)"都完全沟通的环境下,才认定匹配。好比用了这个符号之后,表达式"a/u030A"会匹配"?"。默认环境下,不思量"类型相等性(canonical equivalence)"。
Pattern.CASE_INSENSITIVE
(?i)
默认环境下,巨细写不明感的匹配只合用于US-ASCII字符集。这个符号能让表达式忽略巨细写举办匹配。要想对Unicode字符举办巨细不明感的匹配,只要将UNICODE_CASE与这个符号合起来就行了。
Pattern.COMMENTS
(?x)
在这种模式下,匹配时会忽略(正则表达式里的)空格字符(注:不是指表达式里的"//s",而是指表达式里的空格,tab,回车之类)。注释从#开始,一直到这行竣事。可以通过嵌入式的符号来启用Unix行模式。
Pattern.DOTALL
(?s)
在这种模式下,表达式'.'可以匹配任意字符,包罗暗示一行的竣事符。默认环境下,表达式'.'不匹配行的竣事符。
Pattern.MULTILINE
(?m)
在这种模式下,'^'和'$'别离匹配一行的开始和竣事。另外,'^'仍然匹配字符串的开始,'$'也匹配字符串的竣事。默认环境下,这两个表达式仅仅匹配字符串的开始和竣事。
Pattern.UNICODE_CASE
(?u)
在这个模式下,假如你还启用了CASE_INSENSITIVE符号,那么它会对Unicode字符举办巨细写不明感的匹配。默认环境下,巨细写不明感的匹配只合用于US-ASCII字符集。
Pattern.UNIX_LINES
(?d)
在这个模式下,只有'/n'才被认作一行的中止,而且与'.','^',以及'$'举办匹配。
在这些符号内里,Pattern.CASE_INSENSITIVE,Pattern.MULTILINE,以及Pattern.COMMENTS是最有用的(个中Pattern.COMMENTS还能帮我们把思路理清楚,而且/可能做文档)。留意,你可以用在表达式里插暗号的方法来启用绝大大都的模式。这些暗号就在上面那张表的各个符号的下面。你但愿模式从那边开始启动,就在那边插暗号。
可以用"OR" ('|')运算符把这些符号合利用:
java.util.regex.*; com.bruceeckel.simpletest.*; ReFlags { Test monitor = Test(); main(String[] args) { Pattern p = Pattern.compile(, Pattern.CASE_INSENSITIVE | Pattern.MULTILINE); Matcher m = p.matcher( + + ); (m.find()) System.out.println(m.group()); monitor.expect( String[] { , , }); } }
这样建设出来的正则表达式就能匹配以"java","Java","JAVA"...开头的字符串了。另外,假如字符串分好几行,那它还会对每一行做匹配(匹配始于字符序列的开始,终于字符序列傍边的行竣事符)。留意,group( )要领仅返回匹配的部门。
split( )
所谓支解是指将以正则表达式为界,将字符串支解成String数组。
String[] split(CharSequence charseq)
String[] split(CharSequence charseq, limit)
这是一种既快又利便地将文本按照一些常见的界线符号支解开来的要领。