sort noise words and alias map

TimidRobot · TimidRobot · commit ea6eed8d41cd · 2025-11-07T10:02:15.000+01:00
diff --git a/scripts/1-fetch/internetarchive_fetch.py b/scripts/1-fetch/internetarchive_fetch.py
@@ -167,27 +167,27 @@ def word_regex(word):
         return r"(\b|(?<=[\-_]))" + re.escape(word) + r"\b"
 
     noise_words = [
-        "subtitles?",
-        "subtitle",
-        "sub-titles",
-        "subbed",
-        "with subtitles?",
+        "-handwritten",
+        "-spoken",
+        "=",
         "english patch",
-        "handwritten",
         "hand write",
-        "hand-written",
         "hand written",
-        "-handwritten",
-        "no voice",
-        "no spoken word",
-        "no speech",
+        "hand-written",
+        "handwritten",
         "instrumental",
-        "universal",
         "language",
-        "=",
+        "no speech",
+        "no spoken word",
+        "no voice",
         "simple",
         "spoken",
-        "-spoken",
+        "sub-titles",
+        "subbed",
+        "subtitle",
+        "subtitles?",
+        "universal",
+        "with subtitles?",
     ]
 
     # Combine all noise words into one regex
@@ -242,56 +242,56 @@ def normalize_language(raw_language):
 
     # --- Try Alias Map ---
     ALIAS_MAP = {
-        "engrish": "English",
-        "english_handwritten": "English",
-        "enlgish": "English",
         "american english": "English",
-        "english - american": "English",
         "american": "English",
-        "uk english": "English",
-        "eglish": "English",
-        "egligh": "English",
-        "english (us)": "English",
-        "us-en": "English",
-        "sgn": "Sign languages",
         "anglais": "English",
-        "us english": "English",
-        "indian english": "English",
-        "hwbrew": "Hebrew",
-        "polska": "Polish",
         "bosanski": "Bosnian",
-        "український": "Ukrainian",
+        "castellano": "Spanish",
         "chinese sub": "Chinese",
-        "spain": "Spanish",
-        "português e espanhol": "Multiple languages",
-        "русский": "Russian",
         "deutsch": "German",
-        "france": "French",
-        "francais": "French",
-        "italiano": "Italian",
-        "ilokano": "Ilokano",
-        "viẹetnamese": "Vietnamese",
-        "português": "Portuguese",
-        "pt_br": "Portuguese",
+        "egligh": "English",
+        "eglish": "English",
+        "en_us es_es": "Multiple languages",
+        "english & chinese subbed": "Multiple languages",
+        "english (us)": "English",
+        "english - american": "English",
+        "english_handwritten": "English",
+        "engrish": "English",
+        "enlgish": "English",
         "espanol": "Spanish",
-        "castellano": "Spanish",
+        "francais": "French",
+        "france": "French",
         "greek": "Greek",
+        "hwbrew": "Hebrew",
+        "ilokano": "Ilokano",
+        "indian english": "English",
+        "italiano": "Italian",
         "mandarin": "Chinese",
-        "nederlands": "Dutch",
-        "swahili": "Swahili",
-        "no language (english)": "Undetermined",
-        "whatever we play it to be": "Undetermined",
-        "en_us es_es": "Multiple languages",
-        "english & chinese subbed": "Multiple languages",
-        "n/a": "Undetermined",
-        "none": "Undetermined",
-        "unknown": "Undetermined",
-        "no speech": "Undetermined",
-        "no spoken language": "Undetermined",
         "multi": "Multiple Languages",
         "multilanguage": "Multiple languages",
         "multiple": "Multiple Languages",
         "music": "Undetermined",
+        "n/a": "Undetermined",
+        "nederlands": "Dutch",
+        "no language (english)": "Undetermined",
+        "no speech": "Undetermined",
+        "no spoken language": "Undetermined",
+        "none": "Undetermined",
+        "polska": "Polish",
+        "português e espanhol": "Multiple languages",
+        "português": "Portuguese",
+        "pt_br": "Portuguese",
+        "sgn": "Sign languages",
+        "spain": "Spanish",
+        "swahili": "Swahili",
+        "uk english": "English",
+        "unknown": "Undetermined",
+        "us english": "English",
+        "us-en": "English",
+        "viẹetnamese": "Vietnamese",
+        "whatever we play it to be": "Undetermined",
+        "русский": "Russian",
+        "український": "Ukrainian",
     }
     ALIAS_MAP = {normalize_key(k): v for k, v in ALIAS_MAP.items()}