python/json_duplicate_filter.py [18:24]:
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
    text_root = etree.HTML(input_text)
    if text_root is None:
        return None
    text = " ".join(text_root.itertext())
    text = re.sub(" +", " ", text)
    text = text.encode("ascii", "xmlcharrefreplace").decode("utf-8")
    text = html.unescape(text)
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -



python/passage_retrieval_processing.py [24:30]:
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
        text_root = etree.HTML(input_text)
        if text_root is None:
            return None
        text = " ".join(text_root.itertext())
        text = re.sub(" +", " ", text)
        text = text.encode("ascii", "xmlcharrefreplace").decode("utf-8")
        text = html.unescape(text)
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -



