在pandas read_csv
以解決這一挑戰,pandas為定義分離器提供了多功能選項。一種方法涉及採用正則表達式(REGEX)。通過在READ_CSV中使用定界符參數,您可以指定捕獲所需分離器的正則表達式模式。這使您可以考慮空間和選項卡的組合,確保准確解析。 另外,您可以利用與python split()方法相似的Delim_whitespace參數。通過將Delim_whitespace設置為True,Pandas將把任何空間(包括空間和標籤)視為分離器。這消除了指定特定的正則表達式的需求。 考慮以下示例:
導入pdas作為pd data = pd.read_csv(“ irregular_separators.csv”,header = none,deLimiter = r“ \ s”) 打印(數據) # 輸出: #0 1 2 3 4 #0 A B C 1 2 #1 d e f 3 4在這種情況下,irregular_separators.csv包含由選項卡,空格甚至兩者組合的列。通過指定正則模式,Read_CSV成功解析了數據並創建一個數據框架。
另外,使用delim_whitespace:通過利用Read_CSV中的分隔符的靈活性,您可以有效地處理數據文件中的不規則Whitespace,並提取有意義的信息以進行分析。
免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。
Copyright© 2022 湘ICP备2022001581号-3