기타 정규 표현식에서 특정 태그만 삭제하는 방법.
페이지 정보
본문
안녕하세요. 엔지엠소프트웨어입니다. 인터넷에서 페이지를 가져오거나 개발할 때 반복되는 특정 HTML 구문을 모두 삭제해야 할 일들이 가끔 생기곤 합니다. 노가다성으로 하나하나 Delete키를 눌러가면서 처리할수도 있겠으나~ 몇천개의 페이지를 모두 이렇게 처리한다는 엄청난 시간과 비용의 낭비입니다. 특정 HTML TAG를 제거할 때 정규표현식을 사용하면 일을 수십배에서 수백배 빠르게 처리할 수 있습니다.
1. 순수하게 텍스트만 추출하고 싶은 경우
<[^>]*>?
2. 특정 태그만 제거하고 싶은 경우 (ex: a tag)
<a[^>]*>?|</a[^>]*>?
2번의 경우 파이프라인(OR 조건)을 사용해서 Open Tag와 Close Tag 모두 처리하도록 되어 있습니다. 일부 태그들은 <input type="button" ... /> 와 같이 Open/Close Tag입니다. 하지만, 대부분의 HTML Tag들은 <a href=""...>내용</a>와 같이 열고 닫는 태그가 분리되어 있습니다. 2가지 모두 처리하려면 2번 내용에서 a 문자를 삭제하고 싶은 태그명으로 변경하면 됩니다.
개발자에게 후원하기
추천, 구독, 홍보 꼭~ 부탁드립니다.
여러분의 후원이 빠른 귀농을 가능하게 해줍니다~ 답답한 도시를 벗어나 귀농하고 싶은 개발자~
감사합니다~
추천0 비추천0
- 이전글UIA 메모장에 텍스트 쓰기 및 읽기 예제 코드. (Microsoft UI Automation) 23.10.18
- 다음글파이썬 스크린샷 찍는 방법. (PyAutoGUI Screenshot) 23.09.09
댓글목록
등록된 댓글이 없습니다.