feat(webui): update webui with splitter config

ChenZiHong-Gavin · ChenZiHong-Gavin · commit 6a6cb34ec684 · 2025-09-24T17:40:06.000+08:00
diff --git a/graphgen/configs/__init__.py b/graphgen/configs/__init__.py
diff --git a/graphgen/configs/aggregated_config.yaml b/graphgen/configs/aggregated_config.yaml
@@ -1,4 +1,8 @@
-input_file: resources/input_examples/jsonl_demo.jsonl # input file path, support json, jsonl, txt. See resources/input_examples for examples
+read:
+  input_file: resources/input_examples/jsonl_demo.jsonl # input file path, support json, jsonl, txt. See resources/input_examples for examples
+split:
+  chunk_size: 1024 # chunk size for text splitting
+  chunk_overlap: 100 # chunk overlap for text splitting
 output_data_type: aggregated # atomic, aggregated, multi_hop, cot
 output_data_format: ChatML # Alpaca, Sharegpt, ChatML
 tokenizer: cl100k_base # tokenizer for counting tokens, support tiktoken tokenizer names and local tokenizer path
diff --git a/graphgen/configs/atomic_config.yaml b/graphgen/configs/atomic_config.yaml
@@ -1,4 +1,8 @@
-input_file: resources/input_examples/json_demo.json # input file path, support json, jsonl, txt, csv. See resources/input_examples for examples
+read:
+  input_file: resources/input_examples/json_demo.json # input file path, support json, jsonl, txt, csv. See resources/input_examples for examples
+split:
+  chunk_size: 1024 # chunk size for text splitting
+  chunk_overlap: 100 # chunk overlap for text splitting
 output_data_type: atomic # atomic, aggregated, multi_hop, cot
 output_data_format: Alpaca # Alpaca, Sharegpt, ChatML
 tokenizer: cl100k_base # tokenizer for counting tokens, support tiktoken tokenizer names and local tokenizer path
diff --git a/graphgen/configs/cot_config.yaml b/graphgen/configs/cot_config.yaml
@@ -1,4 +1,8 @@
-input_file: resources/input_examples/txt_demo.txt  # input file path, support json, jsonl, txt. See resources/input_examples for examples
+read:
+  input_file: resources/input_examples/txt_demo.txt  # input file path, support json, jsonl, txt. See resources/input_examples for examples
+split:
+  chunk_size: 1024 # chunk size for text splitting
+  chunk_overlap: 100 # chunk overlap for text splitting
 output_data_type: cot # atomic, aggregated, multi_hop, cot
 output_data_format: Sharegpt # Alpaca, Sharegpt, ChatML
 tokenizer: cl100k_base # tokenizer for counting tokens, support tiktoken tokenizer names and local tokenizer path
diff --git a/graphgen/configs/multi_hop_config.yaml b/graphgen/configs/multi_hop_config.yaml
@@ -1,4 +1,8 @@
-input_file: resources/input_examples/csv_demo.csv # input file path, support json, jsonl, txt. See resources/input_examples for examples
+read:
+  input_file: resources/input_examples/csv_demo.csv # input file path, support json, jsonl, txt. See resources/input_examples for examples
+split:
+  chunk_size: 1024 # chunk size for text splitting
+  chunk_overlap: 100 # chunk overlap for text splitting
 output_data_type: multi_hop # atomic, aggregated, multi_hop, cot
 output_data_format: ChatML # Alpaca, Sharegpt, ChatML
 tokenizer: cl100k_base # tokenizer for counting tokens, support tiktoken tokenizer names and local tokenizer path
diff --git a/graphgen/graphgen.py b/graphgen/graphgen.py
@@ -17,6 +17,7 @@
     Tokenizer,
     TraverseStrategy,
     read_file,
+    split_chunks,
 )
 
 from .operators import (
@@ -32,6 +33,7 @@
 from .utils import (
     compute_content_hash,
     create_event_loop,
+    detect_main_language,
     format_generation_results,
     logger,
 )
@@ -50,11 +52,6 @@ class GraphGen:
     synthesizer_llm_client: OpenAIModel = None
     trainee_llm_client: OpenAIModel = None
 
-    # text chunking
-    # TODO: make it configurable
-    chunk_size: int = 1024
-    chunk_overlap_size: int = 100
-
     # search
     search_config: dict = field(
         default_factory=lambda: {"enabled": False, "search_types": ["wikipedia"]}
@@ -136,14 +133,22 @@ async def async_split_chunks(self, data: List[Union[List, Dict]]) -> dict:
         async for doc_key, doc in tqdm_async(
             new_docs.items(), desc="[1/4]Chunking documents", unit="doc"
         ):
+            doc_language = detect_main_language(doc["content"])
+            text_chunks = split_chunks(
+                doc["content"],
+                language=doc_language,
+                chunk_size=self.config["split"]["chunk_size"],
+                chunk_overlap=self.config["split"]["chunk_overlap"],
+            )
+
             chunks = {
-                compute_content_hash(dp["content"], prefix="chunk-"): {
-                    **dp,
+                compute_content_hash(txt, prefix="chunk-"): {
+                    "content": txt,
                     "full_doc_id": doc_key,
+                    "length": len(self.tokenizer_instance.encode_string(txt)),
+                    "language": "en",
                 }
-                for dp in self.tokenizer_instance.chunk_by_token_size(
-                    doc["content"], self.chunk_overlap_size, self.chunk_size
-                )
+                for txt in text_chunks
             }
             inserting_chunks.update(chunks)
 
@@ -171,7 +176,7 @@ async def async_insert(self):
         insert chunks into the graph
         """
 
-        input_file = self.config["input_file"]
+        input_file = self.config["read"]["input_file"]
         data = read_file(input_file)
         inserting_chunks = await self.async_split_chunks(data)
 
diff --git a/graphgen/models/__init__.py b/graphgen/models/__init__.py
@@ -11,33 +11,7 @@
 from .search.kg.wiki_search import WikiSearch
 from .search.web.bing_search import BingSearch
 from .search.web.google_search import GoogleSearch
+from .splitter import split_chunks
 from .storage.json_storage import JsonKVStorage, JsonListStorage
 from .storage.networkx_storage import NetworkXStorage
 from .strategy.travserse_strategy import TraverseStrategy
-
-__all__ = [
-    # llm models
-    "OpenAIModel",
-    "TopkTokenModel",
-    "Token",
-    "Tokenizer",
-    # storage models
-    "NetworkXStorage",
-    "JsonKVStorage",
-    "JsonListStorage",
-    # search models
-    "WikiSearch",
-    "GoogleSearch",
-    "BingSearch",
-    "UniProtSearch",
-    # evaluate models
-    "LengthEvaluator",
-    "MTLDEvaluator",
-    "RewardEvaluator",
-    "UniEvaluator",
-    # strategy models
-    "TraverseStrategy",
-    # community models
-    "CommunityDetector",
-    "read_file",
-]
diff --git a/graphgen/models/splitter/__init__.py b/graphgen/models/splitter/__init__.py
@@ -0,0 +1,31 @@
+from functools import lru_cache
+from typing import Union
+
+from .recursive_character_splitter import (
+    ChineseRecursiveTextSplitter,
+    RecursiveCharacterSplitter,
+)
+
+_MAPPING = {
+    "en": RecursiveCharacterSplitter,
+    "zh": ChineseRecursiveTextSplitter,
+}
+
+SplitterT = Union[RecursiveCharacterSplitter, ChineseRecursiveTextSplitter]
+
+
+@lru_cache(maxsize=None)
+def _get_splitter(language: str, frozen_kwargs: frozenset) -> SplitterT:
+    cls = _MAPPING[language]
+    kwargs = dict(frozen_kwargs)
+    return cls(**kwargs)
+
+
+def split_chunks(text: str, language: str = "en", **kwargs) -> list:
+    if language not in _MAPPING:
+        raise ValueError(
+            f"Unsupported language: {language}. "
+            f"Supported languages are: {list(_MAPPING.keys())}"
+        )
+    splitter = _get_splitter(language, frozenset(kwargs.items()))
+    return splitter.split_text(text)
diff --git a/webui/app.py b/webui/app.py
@@ -12,7 +12,7 @@
 from graphgen.models import OpenAIModel, Tokenizer
 from graphgen.models.llm.limitter import RPM, TPM
 from graphgen.utils import set_logger
-from webui.base import GraphGenParams
+from webui.base import WebuiParams
 from webui.cache_utils import cleanup_workspace, setup_workspace
 from webui.count_tokens import count_tokens
 from webui.i18n import Translate
@@ -66,13 +66,19 @@ def init_graph_gen(config: dict, env: dict) -> GraphGen:
 
 
 # pylint: disable=too-many-statements
-def run_graphgen(params, progress=gr.Progress()):
+def run_graphgen(params: WebuiParams, progress=gr.Progress()):
     def sum_tokens(client):
         return sum(u["total_tokens"] for u in client.token_usage)
 
     config = {
         "if_trainee_model": params.if_trainee_model,
-        "input_file": params.input_file,
+        "read": {
+            "input_file": params.input_file,
+        },
+        "split": {
+            "chunk_size": params.chunk_size,
+            "chunk_overlap": params.chunk_overlap,
+        },
         "output_data_type": params.output_data_type,
         "output_data_format": params.output_data_format,
         "tokenizer": params.tokenizer,
@@ -91,7 +97,6 @@ def sum_tokens(client):
             "isolated_node_strategy": params.isolated_node_strategy,
             "loss_strategy": params.loss_strategy,
         },
-        "chunk_size": params.chunk_size,
     }
 
     env = {
@@ -284,10 +289,18 @@ def sum_tokens(client):
                 label="Chunk Size",
                 minimum=256,
                 maximum=4096,
-                value=512,
+                value=1024,
                 step=256,
                 interactive=True,
             )
+            chunk_overlap = gr.Slider(
+                label="Chunk Overlap",
+                minimum=0,
+                maximum=500,
+                value=100,
+                step=100,
+                interactive=True,
+            )
             tokenizer = gr.Textbox(
                 label="Tokenizer", value="cl100k_base", interactive=True
             )
@@ -499,7 +512,7 @@ def sum_tokens(client):
 
         submit_btn.click(
             lambda *args: run_graphgen(
-                GraphGenParams(
+                WebuiParams(
                     if_trainee_model=args[0],
                     input_file=args[1],
                     tokenizer=args[2],
@@ -518,12 +531,13 @@ def sum_tokens(client):
                     trainee_model=args[15],
                     api_key=args[16],
                     chunk_size=args[17],
-                    rpm=args[18],
-                    tpm=args[19],
-                    quiz_samples=args[20],
-                    trainee_url=args[21],
-                    trainee_api_key=args[22],
-                    token_counter=args[23],
+                    chunk_overlap=args[18],
+                    rpm=args[19],
+                    tpm=args[20],
+                    quiz_samples=args[21],
+                    trainee_url=args[22],
+                    trainee_api_key=args[23],
+                    token_counter=args[24],
                 )
             ),
             inputs=[
@@ -545,6 +559,7 @@ def sum_tokens(client):
                 trainee_model,
                 api_key,
                 chunk_size,
+                chunk_overlap,
                 rpm,
                 tpm,
                 quiz_samples,
diff --git a/webui/base.py b/webui/base.py
@@ -3,7 +3,7 @@
 
 
 @dataclass
-class GraphGenParams:
+class WebuiParams:
     """
     GraphGen parameters
     """
@@ -26,6 +26,7 @@ class GraphGenParams:
     trainee_model: str
     api_key: str
     chunk_size: int
+    chunk_overlap: int
     rpm: int
     tpm: int
     quiz_samples: int